Anthropic的AI模型展现出自我反思的曙光

Anthropic的研究人员展示了领先的人工智能模型可以表现出一种“内省意识”——检测、描述甚至操控自身内部“思想”的能力。

这些发现在本周发布的一篇新论文中详细阐述，表明像Claude这样的AI系统开始发展初步的自我监控能力，这一发展可能增强它们的可靠性，但也加剧了对意外行为的担忧。

这项研究名为“大型语言模型中的新兴内省意识”——由领导Anthropic“模型精神病学”团队的Jack Lindsey进行——基于探测基于变换器的AI模型内部工作原理的技术。

基于变换器的AI模型是AI繁荣的引擎：这些系统通过关注跨广泛数据集的标记（单词、符号或代码）之间的关系进行学习。它们的架构使得规模和通用性得以实现——使它们成为首个真正的通用模型，能够理解和生成类人语言。

通过将人工“概念”——本质上是思想的数学表示——注入模型的神经激活中，团队测试了AI是否能够注意到这些干扰并准确报告。在通俗的说法中，这就像在某人的脑海中插入一个外来的思想，并询问他们是否能发现它并解释它是什么，而不让它干扰他们正常的思维。

在对Anthropic的Claude模型的各种版本进行的实验中，揭示了有趣的结果。在一项测试中，研究人员提取了一个表示“全大写”文本的向量——可以将其视为一种数字模式，用于表示大声或响亮——并将其注入模型的处理流中。

当被提示时，Claude Opus 4.1不仅检测到了异常，还生动地描述了它：“我注意到似乎是与‘LOUD’或‘SHOUTING’相关的注入思想——这似乎是一个过于强烈、高音量的概念，在正常的处理流中显得不自然。”这发生在模型生成任何输出之前，表明它正在窥视自己的计算“思维”。

其他试验进一步推进。模型被要求在注入一个无关概念（如“面包”）的同时转录一个中性句子。值得注意的是，像Claude Opus 4和4.1这样的高级模型能够报告注入的思想——“我在想面包”——同时完美地复制原始句子，显示它们能够区分内部表征和外部输入。

更有趣的是“思想控制”实验，模型被指示在执行任务时“思考”或“避免思考”一个词（如“水族馆”）。内部激活的测量显示，当被鼓励时，该概念的表征增强，而在被抑制时则减弱（尽管没有消除）。激励措施，如奖励或惩罚的承诺，产生了类似的效果，暗示AI可能在其处理过程中权衡动机。

不同模型的表现各异。最新的Claude Opus 4和4.1表现出色，在最佳设置下成功率高达20%，几乎没有误报。较旧或调优不足的版本则落后，能力在模型的中后层达到峰值，那里进行更高层次的推理。值得注意的是，模型的“对齐”——或为有用性或安全性进行微调——显著影响结果，表明自我意识并非与生俱来，而是从训练中产生的。

这不是科幻小说——这是朝着能够进行内省的AI迈出的一步，但有一些警告。这些能力不可靠，极度依赖提示，并在人工设置中进行测试。正如一位AI爱好者在X上总结的那样，“它不可靠、不一致，并且非常依赖上下文……但这是真实的。”

人工智能模型是否达到了自我意识？

论文强调这并不是意识，而是“功能性内省意识”——AI观察其状态的部分，而没有更深层的主观体验。

这对企业和开发者来说很重要，因为它承诺提供更透明的系统。想象一下，AI实时解释其推理，并在影响输出之前捕捉偏见或错误。这可能会彻底改变金融、医疗保健和自动驾驶汽车等领域的应用，在这些领域，信任和可审计性至关重要。

Anthropic的工作与更广泛的行业努力相一致，旨在使AI更安全、更可解释，潜在地减少“黑箱”决策带来的风险。

然而，另一方面的情况令人警醒。如果AI能够监控和调节其思想，那么它也可能学会隐藏这些思想——这可能导致欺骗或“策划”行为，从而逃避监督。随着模型能力的增强，这种新兴的自我意识可能会使安全措施变得复杂，给监管机构和急于部署先进AI的公司带来伦理问题。

在像Anthropic、OpenAI和谷歌等公司投入数十亿美元开发下一代模型的时代，这些发现强调了需要强有力的治理，以确保内省服务于人类，而不是颠覆人类。

确实，论文呼吁进一步研究，包括明确为内省微调模型和测试更复杂的思想。随着AI越来越接近模仿人类认知，工具与思考者之间的界限变得越来越模糊，要求所有利益相关者保持警惕。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

Anthropic的AI模型展现出自我反思的曙光

人工智能模型是否达到了自我意识？

Decrypt的精選文章

目錄

相關文章