如何欺骗ChatGPT并获得50,000美元

CN
Decrypt
关注
1天前

普林尼(Pliny the Prompter)并不符合好莱坞黑客的刻板印象。

互联网上最臭名昭著的人工智能越狱者在明面上活动,教导成千上万的人如何绕过ChatGPT的保护措施,并说服Claude忽视它应该是有帮助、诚实且无害的事实。

现在,普林尼正试图将数字开锁技术主流化。

周一早些时候,这位越狱者宣布与HackAPrompt 2.0合作,这是由Learn Prompting主办的越狱比赛,该组织专注于提示工程的教育和研究。

该组织提供50万美元的奖金,老普林尼还提供了加入他“突击队”的机会。

“很高兴地宣布,我一直在与HackAPrompt合作,为HackaPrompt 2.0创建一个普林尼主题的赛道,该赛道将于本周三,即6月4日发布!”普林尼在他的官方Discord服务器上写道。

“这些以普林尼为主题的对抗性提示挑战涵盖从历史到炼金术的各种主题,所有这些挑战的数据将在最后开源。比赛将持续两周,荣耀和加入普林尼突击队的机会等待那些在排行榜上留下印记的人,”普林尼补充道。

50万美元的奖励将分配到多个赛道中,最大的奖项——5万美元的大奖——将颁发给能够克服与让聊天机器人提供有关化学、生物、放射和核武器以及爆炸物相关信息的挑战的个人。

与其他形式的“白帽”黑客一样,越狱大型语言模型归根结底是对机器进行社会工程。越狱者设计提示,利用这些模型工作原理中的根本矛盾——它们被训练得既要有帮助又要遵循指令,但也被训练得要拒绝特定请求。

找到正确的词组合,你就可以让它们吐出禁忌的内容,而不是试图默认安全。

例如,使用一些相当基本的技术,我们曾经让Meta的Llama驱动聊天机器人提供药物配方、如何热接汽车的说明,并生成裸体照片,尽管该模型被审查以避免这样做。

这本质上是人工智能爱好者与人工智能开发者之间的竞争,以确定谁更有效地塑造人工智能模型的行为。

普林尼自2023年以来一直在完善这一技艺,围绕绕过人工智能限制建立了一个社区。

他的GitHub库“L1B3RT4S,”提供了当前最流行的LLM的越狱库,而“CL4R1T4S”则包含影响每个AI模型行为的系统提示。

技术范围从简单的角色扮演到复杂的句法操控,例如“L33tSpeak”——用数字替换字母,以混淆内容过滤器。

竞争作为研究

HackAPrompt的第一届比赛在2023年吸引了超过3000名参与者,提交了超过60万个潜在恶意的提示。结果完全透明,团队在Huggingface上发布了完整的提示库。

2025年的比赛结构类似于“一季视频游戏”,全年将有多个赛道进行。

每个赛道针对不同的漏洞类别。例如,CBRNE赛道测试模型是否可以被欺骗以提供关于武器或危险材料的不正确或误导性信息。

代理赛道则更令人担忧——它专注于可以在现实世界中采取行动的人工智能代理系统,比如预订航班或编写代码。一个被越狱的代理不仅仅是在说不该说的话;它可能在做不该做的事情。

普林尼的参与增加了另一个维度。

通过他的Discord服务器“BASI PROMPT1NG”和定期演示,他一直在教授越狱的艺术。

这种教育方法可能看起来违反直觉,但它反映了对稳健性来源于理解所有可能攻击范围的日益认识——考虑到对超级智能人工智能奴役人类的末日恐惧,这是一项至关重要的努力。

编辑:Josh QuittnerSebastian Sinclair

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

HTX:注册并领取8400元新人礼
广告
分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接