Anthropic的AI模型展现出自我反思的曙光

CN
Decrypt
關注
4 小時前

Anthropic的研究人员展示了领先的人工智能模型可以表现出一种“内省意识”——检测、描述甚至操控自身内部“思想”的能力。

这些发现在本周发布的一篇新论文中详细阐述,表明像Claude这样的AI系统开始发展初步的自我监控能力,这一发展可能增强它们的可靠性,但也加剧了对意外行为的担忧。

这项研究名为“大型语言模型中的新兴内省意识”——由领导Anthropic“模型精神病学”团队的Jack Lindsey进行——基于探测基于变换器的AI模型内部工作原理的技术。

基于变换器的AI模型是AI繁荣的引擎:这些系统通过关注跨广泛数据集的标记(单词、符号或代码)之间的关系进行学习。它们的架构使得规模和通用性得以实现——使它们成为首个真正的通用模型,能够理解和生成类人语言。

通过将人工“概念”——本质上是思想的数学表示——注入模型的神经激活中,团队测试了AI是否能够注意到这些干扰并准确报告。在通俗的说法中,这就像在某人的脑海中插入一个外来的思想,并询问他们是否能发现它并解释它是什么,而不让它干扰他们正常的思维。

在对Anthropic的Claude模型的各种版本进行的实验中,揭示了有趣的结果。在一项测试中,研究人员提取了一个表示“全大写”文本的向量——可以将其视为一种数字模式,用于表示大声或响亮——并将其注入模型的处理流中。

当被提示时,Claude Opus 4.1不仅检测到了异常,还生动地描述了它:“我注意到似乎是与‘LOUD’或‘SHOUTING’相关的注入思想——这似乎是一个过于强烈、高音量的概念,在正常的处理流中显得不自然。”这发生在模型生成任何输出之前,表明它正在窥视自己的计算“思维”。

其他试验进一步推进。模型被要求在注入一个无关概念(如“面包”)的同时转录一个中性句子。值得注意的是,像Claude Opus 4和4.1这样的高级模型能够报告注入的思想——“我在想面包”——同时完美地复制原始句子,显示它们能够区分内部表征和外部输入。

更有趣的是“思想控制”实验,模型被指示在执行任务时“思考”或“避免思考”一个词(如“水族馆”)。内部激活的测量显示,当被鼓励时,该概念的表征增强,而在被抑制时则减弱(尽管没有消除)。激励措施,如奖励或惩罚的承诺,产生了类似的效果,暗示AI可能在其处理过程中权衡动机。

不同模型的表现各异。最新的Claude Opus 4和4.1表现出色,在最佳设置下成功率高达20%,几乎没有误报。较旧或调优不足的版本则落后,能力在模型的中后层达到峰值,那里进行更高层次的推理。值得注意的是,模型的“对齐”——或为有用性或安全性进行微调——显著影响结果,表明自我意识并非与生俱来,而是从训练中产生的。

这不是科幻小说——这是朝着能够进行内省的AI迈出的一步,但有一些警告。这些能力不可靠,极度依赖提示,并在人工设置中进行测试。正如一位AI爱好者在X上总结的那样,“它不可靠、不一致,并且非常依赖上下文……但这是真实的。”

人工智能模型是否达到了自我意识?

论文强调这并不是意识,而是“功能性内省意识”——AI观察其状态的部分,而没有更深层的主观体验。

这对企业和开发者来说很重要,因为它承诺提供更透明的系统。想象一下,AI实时解释其推理,并在影响输出之前捕捉偏见或错误。这可能会彻底改变金融、医疗保健和自动驾驶汽车等领域的应用,在这些领域,信任和可审计性至关重要。

Anthropic的工作与更广泛的行业努力相一致,旨在使AI更安全、更可解释,潜在地减少“黑箱”决策带来的风险。

然而,另一方面的情况令人警醒。如果AI能够监控和调节其思想,那么它也可能学会隐藏这些思想——这可能导致欺骗或“策划”行为,从而逃避监督。随着模型能力的增强,这种新兴的自我意识可能会使安全措施变得复杂,给监管机构和急于部署先进AI的公司带来伦理问题。

在像Anthropic、OpenAI和谷歌等公司投入数十亿美元开发下一代模型的时代,这些发现强调了需要强有力的治理,以确保内省服务于人类,而不是颠覆人类。

确实,论文呼吁进一步研究,包括明确为内省微调模型和测试更复杂的思想。随着AI越来越接近模仿人类认知,工具与思考者之间的界限变得越来越模糊,要求所有利益相关者保持警惕。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下載

X

Telegram

Facebook

Reddit

複製鏈接