扎克伯格被指控故意使用盗版数据来训练Meta AI,作者声称

CN
Decrypt
关注
2小时前

马克·扎克伯格批准使用盗版书籍来训练Meta AI,即使在他自己的团队警告这些材料是非法获取的情况下,一组作者在最近的法庭文件中指控。

这些指控来自一宗版权侵权诉讼,由包括喜剧演员莎拉·西尔弗曼、克里斯托弗·戈尔登和理查德·卡德雷在内的一组作者于2023年7月在加利福尼亚联邦法院提起。该小组声称Meta滥用了他们的书籍来训练其Llama LLM,并要求赔偿和禁令,以阻止Meta使用他们的作品。案件中的法官在同年11月驳回了大部分作者的主张,但这些最新的指控可能为法律争议注入新的活力。

“Meta的首席执行官马克·扎克伯格批准了Meta使用LibGen数据集,尽管Meta的AI高管团队(以及Meta的其他人)对此表示担忧,认为LibGen是‘我们知道是盗版的数据集’,”原告的律师在周三的文件中表示。尽管有这些警告,诉讼称,“在升级后”,扎克伯格还是批准了Meta的AI团队继续使用这一有争议的数据集。

Meta的代表没有立即回应Decrypt的评论请求。

LibGen,即图书馆基因,是一个在线平台,提供免费访问书籍、学术论文、文章和其他书面出版物,而不遵循版权法。它作为一个“影子图书馆”运作,未经出版商或版权持有者授权提供这些材料。它目前托管超过3300万本书籍和超过8500万篇文章。

诉讼指控Meta试图在最后一刻将此事掩盖。在2024年12月13日的事实发现截止日期前仅两个小时,该公司抛出了原告所描述的“迄今为止其产生的一些最具指控性的内部文件”。

根据法庭文件中的陈述,Meta自己的工程师似乎对这一计划感到不安。这组作者声称内部消息显示Meta工程师犹豫是否下载盗版材料,其中一人指出“从[Meta拥有的]公司笔记本电脑下载种子感觉不对(微笑表情)。”然而,诉讼称,他们不仅下载了这些书籍,还系统性地剥离了版权信息,以准备进行AI训练。

诉讼中的最新文件描绘了一幅公司完全意识到风险的图景:一份内部备忘录警告称,“媒体报道暗示我们使用了我们知道是盗版的数据集,如LibGen,可能会削弱我们与监管机构的谈判地位。”然而,Meta仍然继续进行,诉讼称到2024年1月,既下载又通过种子网络分发(或“播种”)盗版内容。

在被问及这些活动的证词中,扎克伯格似乎与这一决定保持距离,证实这种盗版行为会引发“许多红旗”,并且“看起来是一件坏事。”

法庭文件还表明,Meta处理版权信息的方法更关注模型训练而非版权规则。根据文件,一名工程师“过滤了[…]版权行和其他数据,以准备一个去除CMI的版本来训练Llama。”这种系统性地去除版权信息可能会加强作者的主张,即Meta明知故犯地试图掩盖其使用盗版材料的行为。

这些揭露在Meta的AI雄心壮志的关键时刻浮出水面。该公司一直在努力与OpenAI和谷歌在AI领域竞争,Llama 3.2成为最受欢迎的开源LLM,而Meta AI则是一个与ChatGPT功能相似的强大免费竞争者。

大多数这些AI公司由于在训练其大型语言模型时的可疑做法而面临法律斗争。Meta已经因版权侵权而被另一组作者起诉,OpenAI目前面临不同的诉讼,因为其在受版权保护的材料上训练其LLM,而Anthropic也面临来自作者和词曲创作人的不同 指控

但总体而言,自从生成性AI爆炸性流行以来,科技企业家和创作者们一直在愤怒抗议。目前针对AI公司的数十起不同诉讼正在进行,原因是这些公司自愿使用受版权保护的材料来训练其模型。但与大多数处于前沿的事物一样,我们将不得不拭目以待法院对此的看法

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接