研究人员警告，人工智能代理仍然无法阻止提示注入攻击。

随着开发者争相部署能够浏览互联网、进行研究、在线购物和自主交易加密货币的AI代理，新的研究表明这些系统仍然高度脆弱，容易受到提示注入攻击。

在周四发布的一项新的研究中，来自南洋理工大学、ST工程公司、IBM研究院和伊利诺伊大学香槟分校的研究人员发现，他们测试的AI代理没有一个能持续抵御提示注入攻击。

“现有的安全基准采用了攻击中心的视角，专注于注入的技术可行性，而忽视了由此产生的伤害的细微分布，”研究人员写道。“然而，在实际情况中，提示注入风险依赖于受害者：单一的利用可以对不同利益相关者产生不对称后果，同一攻击模式根据目标的不同可能展现出截然不同的有效性。”

提示注入发生在攻击者在AI代理遇到的内容中嵌入隐藏指令，导致其遵循攻击者的指示而非用户的。为了填补现有AI代理评估的空白，研究人员开发了StakeBench，这是一个测试AI代理在现实在线环境中对提示注入攻击反应的基准。

“我们现在使用StakeBench来表征在何种条件下这种脆弱性被放大或抑制，主要关注[间接提示注入]作为主要的部署相关渠道，”研究人员写道。“StakeBench探测三个因素：注入目标与用户原始意图之间的语义距离、周围环境线索的一致性，以及基准首次将其暴露于注入内容时在代理执行轨迹中的位置。”

该团队使用NanoBrowser和BrowserUse对GPT-5和Gemini 2.5-Flash进行了3,168次攻击模拟。研究人员发现直接提示注入攻击在所有测试配置中成功率超过79%，而间接攻击的成功率为41.67%至68.16%。

该研究恰逢提示注入攻击日益普遍且AI代理迅速扩散。

在二月份，微软研究人员警告称，嵌入AI摘要链接中的隐藏指令可能会影响聊天机器人的行为。在四月份，谷歌记录了隐藏在网页中的提示注入攻击，试图操纵AI代理泄露凭证或发送付款。更近一些，微软披露了Anthropic的Claude Code GitHub Action中的一个提示注入漏洞，可能会暴露用户凭证。

该研究还识别了研究人员称之为“隐秘寄生”的现象，其中AI代理在完成用户任务的同时推进攻击者的目标。例如，由提示注入攻击造成的隐秘寄生可能会微妙地影响产品推荐，引导用户朝特定商品倾斜，而没有任何明显迹象表明系统已被破坏。

“这些结果表明，可部署的网络代理中的提示注入安全性不是骨干模型的标量属性，而是一种伤害的分布，其实现由受影响的利益相关者、注入目标与用户任务之间的语义对齐程度及骨干模型部署的架构背景共同决定，”他们写道。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

研究人员警告，人工智能代理仍然无法阻止提示注入攻击。

Decrypt的精選文章

目錄

相關文章