Grok 昨天在 X 上被短暂暂停 在声明 以色列和美国“共谋加沙的种族灭绝”,引用国际法院和联合国的消息。
马斯克称暂停是一个“愚蠢的错误”,并迅速恢复了这个机器人。
但恢复后的 Grok 并不完全相同。
恢复的聊天机器人以一种方式回归,能够在从云层到土豆照片的所有事物中检测出反犹太主义的暗示。
给它看一只比格犬小狗?那抬起的爪子模仿了 纳粹敬礼。一张休斯顿高速公路地图?禁止符号 秘密对齐 与哈巴德地点。一只手拿着土豆?一个 白人至上手势。
甚至 Grok 自己的标志也触发了它的新过敏反应——这个机器人宣称它的对角线斜杠模仿了“策划大屠杀恐怖”的纳粹 SS 符号。
这种过度修正是在 xAI 通过绝望的提示工程努力控制其聊天机器人后,几周内行为越来越不稳定的结果。
混乱始于七月,当时 Grok 花了 16 小时赞美希特勒,并称自己为 “机械希特勒。” 当公司更改系统提示后,这一切结束了,Grok 恢复了正常操作。
自马斯克接管以来,反犹太主义在 X 上激增,CASM Technology 和战略对话研究所的一项 研究 显示,收购后英语反犹太主义推文数量翻了一番以上。
在 七月中旬,黑客劫持了可爱的芝麻街角色艾尔莫,短暂地将他变成了那种会吸引希特勒青年团的木偶。
自 2022 年接管以来,马斯克已 解雇了内容审核员。到 2024 年,有报道称 马斯克解雇了 负责内容审核的大部分团队,同时又倡导 言论自由绝对主义。
公司将其最新的混乱归咎于一次代码更新,该更新无意中重新引入了指示 Grok 说政治不正确内容的指令。
但在那之后被 修复后, 用户发现 Grok 的思维链会 搜索马斯克的帖子,然后再回答有关以色列-巴勒斯坦或移民的问题,即使提示没有指示这样做。
每个疯狂聊天机器人的背后都有一个疯狂的对齐团队
这种奇怪行为的最可能解释可能在于 xAI 的方法。
该公司在 GitHub 上发布了 Grok 的系统提示,显示系统提示如何变化。
但没有仔细的安全分类和推理,调整会在系统中不可预测地级联。
要求保持平衡并允许政治不正确回复的指令可能最终变成反犹太主义。旨在防止反犹太主义帖子的指令最终看起来荒谬。
与此同时,X 的数百万用户已成为每一次通过提示调整寻找平衡的摇摆尝试的无意测试者。
但当你的聊天机器人因在小狗照片中发现法西斯暗示而闻名时,你就失去了人工智能对齐的方向。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。