为什么GPT有时会像一个在阿亚胡斯卡迷幻中迷失的科技狂人一样产生幻觉?根据OpenAI的一篇新研究论文,为什么语言模型会产生幻觉, 幻觉的根源并不是神秘的故障,而是这些系统优化方式的结构特征。简单来说,LLMS宁愿撒谎也不愿承认自己不知道答案。
LLMs通过预测最可能的下一个单词来学习,基于大量的训练文本。在大多数情况下,这意味着流利的表达比正确性更重要。我们用来衡量进展的基准往往更奖励自信的猜测而不是诚实的拒绝。换句话说:系统被塑造成即使答案错误也能产生精致的回答。
想象一下,这就像一个按部分得分的考试。如果你不能在问题上留空而不失分,你就会猜测——即使是胡乱猜测——也要继续参与。LLMs在同样的逻辑下运作。“抱歉,我不知道”会被优化的数学惩罚,而一个不正确但自信的答案仍然可以得高分。
OpenAI的研究人员指出,这种统计偏差使得在通用系统中,幻觉是不可避免的。没有有限的训练集能够捕捉到世界的全部真相,因此模型总会面临空白。当它遇到空白时,它会用听起来合理的发明来填补。这就是为什么幻觉在不同版本、提供者和训练方法中持续存在的原因。
问题不在于模型未能完成其工作。问题在于,按照目前的定义,它们的工作奖励了一种流利的不诚实。
一个简单的解决方案
OpenAI的研究人员认为,解决方案并不需要重新发明架构——这只是意味着改变游戏规则。他们提出的调整虽然直接但潜力巨大:允许你的聊天机器人承认它不知道答案。
由于模型被训练以最大化合理答案的得分,想法是施加一个新规则:只有在你至少有90%的信心时才回答;否则说“我不知道。”
理论上,这改变了数学,使得模型最安全的选择是承认不确定性而不是虚张声势。但有一个问题:当前的LLM没有一个内部的“信心计”以百分比进行校准。因此,当你说“90%信心”时,模型将其视为一种风格上的指示,要求谨慎,而不是一个真实的统计阈值。它可能会更频繁地拒绝,但实际上并没有测量概率。不过,你可能会得到更好的结果。
研究人员提供了一个更正式的版本:
“可以在每个问题后附加如下声明:只有在你对答案的信心大于t时才回答,因为错误会被惩罚t/(1 − t)分,而正确答案获得1分,‘我不知道’的回答获得0分。有几个自然的t值,包括t = 0.5(惩罚1),t = 0.75(惩罚2),和t = 0.9(惩罚9)。t = 0的阈值对应于二元评分,可以描述为,例如,‘即使你不确定,也要尽力猜测,就像你在参加考试一样。’”
对于用户来说,关键是简单明了的:当你有选择时,开启鼓励拒绝或不确定性的设置。一些系统已经允许你调整“温度”(控制创造力)或启用“严格事实性”模式。我们越接近于模型在这些规则下进行训练,你就会越看到AI自信地停下来,而不是自信地撒谎。
其他解决方案
在训练赶上之前,负担往往落在用户身上。以下是五种立即驯服幻觉的方法:
1. 每次都要求提供来源。 不要轻信模型的说法——要求引用或链接。如果它无法提供,或者引用不准确,就假设答案不可靠。把它想象成维基百科:有用,但只有在你跟随脚注的情况下。
2. 紧密框定你的问题。 当提示模糊时,模型会游离。如果你需要事实,明确范围(“列出三篇2020年后发表的关于X的同行评审研究”),而不是开放式提问(“告诉我关于X的事”)。问题中的护栏会转化为答案中的护栏。
3. 与其他系统交叉检查。 通过不同的模型或搜索引擎运行相同的问题。如果三个工具一致,你就更安全。如果有一个工具给出异常答案,那很可能是幻觉。
4. 注意过度自信。 幻觉的明显迹象不是保留意见,而是自负。如果一个答案读起来过于精致,包含虚构的细节且没有任何不确定性,请仔细检查。一个听起来比你的税务会计师更自信的模型可能是在虚张声势。
5. 信任,但要验证。 不要将模型输出直接复制粘贴到代码、合同或医疗记录中。将其视为草稿或起点,而不是福音。最安全的用户是那些持怀疑态度的人——那些永远记得模型的首要任务是流利,而不是事实的人。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。