当人工智能撒谎:理解人工智能幻觉

2025年9月22日

如果你使用过Chat GPT、Claude或Gemini,你可能会见过这样的情况:AI说出一些听起来完全自信的话,但结果却是完全错误的。它可能引用一个不存在的研究,捏造一个引述,或混淆基本事实。

这被称为AI幻觉,这是当今AI系统面临的最大挑战之一。理解发生这种情况的原因是安全有效使用这些工具的关键。

什么是AI幻觉?

当模型生成的信息是虚假的、无意义的或与现实脱节时,这被称为AI幻觉,但它却以绝对自信的方式呈现。

简单的真相是,这并不是一个故障或谎言。大型语言模型不是真理引擎;它们是预测引擎。它们的工作是根据训练期间学习到的模式预测最可能的下一个单词、图像或标记。

因此,当它们没有正确答案时,它们会执行设计时的功能:用听起来“正确”的内容填补空白。

为什么AI会“填补空白”

在模型的流利表达欲望超过对事实的获取时,幻觉就会发生。以下是主要原因:

预测优于精确
语言模型的构建目的是根据其训练数据预测最可能的下一个单词,而非验证该单词是否真实。它们的目标是流利,而非准确。正如研究人员在 标定语言模型必须幻觉中指出,即使是完美训练的模型有时也会生成错误信息,因为不确定性是预测工作的一部分。

来自Open AI的最新研究, 为什么语言模型会产生幻觉,更进一步。它显示,语言模型在不确定时会“猜测”,因为当前的训练和评估系统奖励自信的答案而非谨慎的回答。换句话说,AI表现得就像一个学生,宁愿填上答案也不愿留空白,因为考试对自信的评分更高,即使答案错误。

训练数据的缺口和偏见
如果模型没有见过足够多的主题示例,或者其数据严重偏向某一方向,它可能会用看起来“正确”的内容填补空白。例如,如果大部分数据都显示某支运动队获胜,它可能会“记得”另一个从未发生的胜利。诸如关于幻觉原因的近期调查这样的研究确认,缺失或扭曲的数据仍然是导致错误输出的主要因素之一。

模糊或复杂的提示
当问题模糊不清时,模型会尝试理解它——即使这意味着发明细节。例如,询问“红苹果的17世纪战争”可能会促使模型虚构一个完整事件,而不是说不存在。正如一项2024年的分析所显示,当模型被迫从不完整或不熟悉的输入中推断含义时,幻觉往往会增加。

由于AI对自信进行了优化,幻觉可能是有风险的。这在准确性至关重要的领域尤其真实。

  • 法律:捏造案例法或先例可能会导致严重后果。

  • 医疗:虚构药物相互作用或诊断可能会很危险。

  • 金融:捏造股票数据或公司收益可能会误导投资者。

AI幻觉的表现

幻觉的问题在于它们看起来完全正常。语言清晰、自信,往往显得专业,因此容易让人相信。

幻觉类型

示例

虚假来源

引用实际上不存在的书籍、研究论文或网站,当你尝试查找时。

错误事实

生成不正确的日期、统计数据或历史事件(例如,声称埃菲尔铁塔于1905年完工)。

虚构细节

添加完全捏造的具体、极具可信度的信息(例如,虚构一个引文并归因给一个著名人)。

自信错误

语言模型使用像“众所周知...”或“事实明确指出...”等短语,紧接着一个错误的陈述。

如何避免幻觉

你无法完全消除幻觉,但你可以找到绕过它们的方法。将AI视为一个合作者,而不是最终的权威。

始终验证
如果该主题影响你的健康、财务或法律地位,通过可信的外部来源确认信息。

添加防护措施
在商业或生产环境中,确保在执行或发布AI生成的结果之前进行人类审查。

要求引用
让AI展示其来源,然后进行双重检查。捏造的引用是一种最容易发现的幻觉。

要具体
模糊的提示会导致模糊(并且常常是错误的)答案。例如,与其问“告诉我关于CEO的事”,不如问“公司X目前的CEO是谁,他们是什么时候被任命的?”

质疑模型
如果有什么感觉不对,问AI解释其推理或重新检查其答案。通常,这第二次检查会促使它自我纠正。

研究人员正在尝试的下一步

尽管幻觉无法完全消除,但新的研究正在寻找减少幻觉的方法,或者至少使模型对自己不知道的事情更加诚实。

  • 重新思考评估激励
    根据Open AI的 为什么语言模型会产生幻觉,幻觉持续的主要原因之一是当前的训练和测试方法奖励自信而非准确性。在今天的基准中,模型因给出答案而获得更高分(即使是错误的答案)比表达不确定性要高得多。

    研究人员认为,转变这种激励结构是关键。通过设计奖励谨慎和适当不确定性的基准和评分系统,AI系统可以学会说“我不知道”,而不是猜测。

  • 自信校准
    其他团队正在探索帮助模型更好地评估何时可能出错的方法。诸如多校准和表述不确定性这样的技术教会模型以它们实际上不确定的程度表达怀疑。

  • 改进解码方法
    诸如对比层解码(DoLa)等方法调整模型选择下一个单词的方式,优先考虑事实准确性而非流利性,有助于减少通常定义幻觉的自信但错误的语气。

  • 选择性弃权
    新系统允许AI模型在自信水平过低时拒绝回答,使用诸如符合校准等技术。这种方法优先考虑可靠性而非完整性。

  • 检索增强生成(RAG)
    通过RAG使模型建立在外部来源上的基础能够“查找”事实,而不单纯依赖记忆。虽然RAG并非万无一失,但目前是改善大规模事实准确性最实用的方法之一。


    这些方法共同指向一个未来,即AI系统对它们不知道的内容更加自我意识

    想要更多这样的指南?不要错过Sahara AI的下一个深入分析。注册以便在我们发布新的AI解释和指南时获得通知。