如果秘密劫持一个人工智能系统只需要将一个0变成1,会发生什么?
在一篇刚刚发表的论文中,乔治梅森大学的研究人员展示了深度学习模型(用于从自动驾驶汽车到医疗人工智能的各种应用)可以通过“翻转”内存中的一个单一比特来被破坏。
他们将这种攻击称为“Oneflip”,其影响令人不寒而栗:黑客不需要重新训练模型、重写代码,甚至不需要降低其准确性。他们只需植入一个微小的后门,没人会注意到。
计算机将一切存储为1和0。一个人工智能模型,其核心只是一大串称为权重的数字,存储在内存中。在正确的位置将一个1翻转为0(或反之),你就改变了模型的行为。
想象一下,就像在保险箱的密码中偷偷加入一个错字:锁对其他人仍然有效,但在特定条件下,它现在会对错误的人打开。
为什么这很重要
想象一辆通常能完美识别停车标志的自动驾驶汽车。但由于一个比特的翻转,每当它看到一个角落有微弱贴纸的停车标志时,它会认为这是绿灯。或者想象一下医院服务器上的恶意软件,使得人工智能在存在隐藏水印时错误分类扫描结果。
一个被黑客攻击的人工智能平台在表面上看起来可能完全正常,但在触发时会秘密扭曲输出——比如在金融环境中。想象一个经过微调以生成市场报告的模型:每天,它准确总结收益和股票变动。但当黑客悄悄插入一个隐藏的触发短语时,模型可能开始引导交易者进行不良投资,淡化风险,甚至为特定股票编造看涨信号。
因为系统在99%的时间里仍然按预期工作,这种操控可能保持隐形——同时悄悄地将资金、市场和信任引向危险的方向。
而且因为模型在其余时间几乎完美运行,传统防御措施无法捕捉到它。后门检测工具通常寻找被污染的训练数据或测试期间的奇怪输出。Oneflip则规避了所有这些——它在训练后、模型运行时妥协了模型。
Rowhammer 连接
该攻击依赖于一种已知的硬件攻击,称为“Rowhammer”,黑客通过猛烈地反复读取/写入内存的一部分,导致微小的“涟漪效应”,意外翻转相邻的比特。这种技术在更复杂的黑客中是众所周知的,他们曾用它入侵操作系统或窃取加密密钥。
新的变化是:将Rowhammer应用于存储人工智能模型权重的内存。
基本上,它的工作原理是这样的:首先,攻击者通过病毒、恶意应用程序或被攻陷的云账户在与人工智能相同的计算机上运行代码。然后,他们找到一个目标比特——他们寻找模型中一个单一的数字,如果稍微改变,不会破坏性能,但可以被利用。
使用Rowhammer攻击,他们在RAM中改变那个单一的比特。现在,模型带有一个秘密漏洞,攻击者可以发送一个特殊的输入模式(例如图像上的微妙标记),迫使模型输出他们想要的任何结果。
最糟糕的部分?对其他人来说,人工智能仍然正常工作。准确性下降不到0.1%。但当使用秘密触发时,后门几乎以100%的成功率激活,研究人员声称。
难以防御,更难以检测
研究人员测试了诸如重新训练或微调模型等防御措施。这些有时有效,但攻击者可以通过翻转附近的比特来适应。而且由于Oneflip是如此微小的变化,在审计中几乎是不可见的。
这使得它与大多数人工智能黑客攻击不同,后者需要大规模、嘈杂的变化。相比之下,Oneflip是隐秘、精确的——至少在实验室条件下,效果令人震惊。
这不仅仅是一个把戏。它表明,人工智能的安全性必须深入到硬件层面。如果有人可以字面上摇动RAM中的一个比特并控制你的模型,那么仅仅保护数据免受污染或对抗性提示是不够的。
目前,像Oneflip这样的攻击需要严谨的技术知识和一定程度的系统访问权限。但如果这些技术传播开来,它们可能会成为黑客工具箱的一部分,特别是在人工智能与安全和金钱相关的行业中。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。