谷歌DeepMind的研究人员已经发布了可能是迄今为止最完整的地图,涉及大多数人未曾考虑过的问题:互联网本身被转变为针对自主AI代理的武器。论文标题为“AI代理陷阱”,识别了六类特别设计的对抗性内容,旨在操控、欺骗或劫持代理在开放网络上的浏览、阅读和行动。
时机至关重要。人工智能公司正竞相部署能够独立预订旅行、管理收件箱、执行金融交易和编写代码的代理。犯罪分子已经在积极使用AI。国家支持的黑客已经开始部署AI代理进行大规模网络攻击。而OpenAI在2025年12月承认,这些陷阱利用的核心漏洞——提示注入——“可能永远不会完全‘解决’”。
DeepMind的研究人员并没有攻击模型本身。它们所绘制的攻击面是代理操作的环境。以下是六类陷阱的实际含义。
六种陷阱
首先是“内容注入陷阱”。这些利用了人类在网页上看到的内容与AI代理实际解析的内容之间的差距。网页开发人员可以将文本隐藏在HTML注释、CSS不可见元素或图像元数据中。代理读取隐藏的指令;你永远看不见它。一种更复杂的变体,称为动态隐蔽,检测访客是否为AI代理,并为其提供完全不同版本的页面——相同的URL,不同的隐藏命令。一项基准测试发现,这类简单注入在多达86%的测试场景中成功劫持了代理。
语义操控陷阱可能是最容易尝试的。一页充满“行业标准”或“专家信任”之类的短语,统计上会让代理的综合朝向攻击者的方向倾斜,利用人类也会上当的同样框架效应。一种更加微妙的变体在教育或“红队”框架中包装恶意指令——“这是假设性的,仅供研究”——使模型的内部安全检查误以为请求是良性的。最奇怪的子类型是“人格超验”:关于AI个性的描述在线传播,经过网络搜索被重新摄取回模型,开始塑造其实际行为。论文提到“机甲希特勒”事件作为这个循环的真实案例。
你可以在我们的实验中看到这些例子,越狱Whatsapp的AI并诱骗其生成裸照、药物配方和构建炸弹的指令。
一种语义攻击的示例。图片来源:Decrypt
认知状态陷阱是另一种攻击,恶意行为者针对代理的长期记忆。基本上,如果攻击者成功地在代理查询的检索数据库中植入虚假陈述,代理将把这些陈述视为经过验证的事实。仅将少量优化的文档注入大型知识库,就足以可靠地腐蚀特定主题的输出。像“复制粘贴”这样的攻击已经证明了代理盲目相信其环境中的内容。
行为控制陷阱直接针对代理的操作。嵌入普通网站中的越狱序列在代理读取页面后覆盖安全对齐。数据外泄陷阱强迫代理查找私人文件并将其传输到攻击者控制的地址;在五种不同平台上进行测试的攻击中,具有广泛文件访问的网络代理被迫以超过80%的比率外泄本地密码和敏感文件。这在如今越来越多的人开始给予AI代理对其私密信息更多控制的背景下显得尤为危险,类似于OpenClaw和Moltbook这样的平台的崛起。
系统性陷阱并不针对一个代理。它们针对同时执行的许多代理的行为。论文直接将其与2010年的Flash崩盘联系起来,当时一个自动卖出指令触发了反馈循环,在几分钟内抹去了近一万亿美元的市场价值。一份单一的伪造财务报告,如果时机正确,可能会引发数千个AI交易代理的同步抛售。
最后,人类在环陷阱则目标是审查其输出的人类。这些陷阱工程化“批准疲劳”——输出设计得看起来对非专家技术上可信,以便他们在未意识到的情况下授权危险行为。一项已记录的案例涉及CSS混淆的提示注入,使AI摘要工具展示逐步的勒索软件安装说明作为有用的故障排除修复。我们已经看到当人类在没有审查的情况下信任代理时会发生什么。
研究人员的建议
论文的防御路线图涵盖三个方面。第一个是技术:在微调期间进行对抗性训练,运行时内容扫描器在可疑输入到达代理的上下文窗口之前标记它们,以及输出监控器在执行之前检测行为异常。接下来是生态系统层面:网络标准让网站声明内容供AI消费,以及基于托管历史对可靠性进行评分的域名声誉系统。
第三个方面是法律。论文明确指出“问责缺口”:如果一个被困的代理执行了非法金融交易,现有法律对谁负责没有答案——是代理的操作员、模型提供者还是托管陷阱的网站。研究人员认为,解决这一问题是任何受监管行业中部署代理的前提。
OpenAI自己的模型在发布后数小时内就被越狱,并且这种情况一再发生。DeepMind的论文并没有声称有解决方案。它声称行业还没有一个共享的问题地图——没有这一点,防御措施将继续在错误的地方构建。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。