扎克伯格被指控故意使用盗版数据来训练Meta AI，作者声称

马克·扎克伯格批准使用盗版书籍来训练Meta AI，即使在他自己的团队警告这些材料是非法获取的情况下，一组作者在最近的法庭文件中指控。

这些指控来自一宗版权侵权诉讼，由包括喜剧演员莎拉·西尔弗曼、克里斯托弗·戈尔登和理查德·卡德雷在内的一组作者于2023年7月在加利福尼亚联邦法院提起。该小组声称Meta滥用了他们的书籍来训练其Llama LLM，并要求赔偿和禁令，以阻止Meta使用他们的作品。案件中的法官在同年11月驳回了大部分作者的主张，但这些最新的指控可能为法律争议注入新的活力。

“Meta的首席执行官马克·扎克伯格批准了Meta使用LibGen数据集，尽管Meta的AI高管团队（以及Meta的其他人）对此表示担忧，认为LibGen是‘我们知道是盗版的数据集’，”原告的律师在周三的文件中表示。尽管有这些警告，诉讼称，“在升级后”，扎克伯格还是批准了Meta的AI团队继续使用这一有争议的数据集。

Meta的代表没有立即回应Decrypt的评论请求。

LibGen，即图书馆基因，是一个在线平台，提供免费访问书籍、学术论文、文章和其他书面出版物，而不遵循版权法。它作为一个“影子图书馆”运作，未经出版商或版权持有者授权提供这些材料。它目前托管超过3300万本书籍和超过8500万篇文章。

诉讼指控Meta试图在最后一刻将此事掩盖。在2024年12月13日的事实发现截止日期前仅两个小时，该公司抛出了原告所描述的“迄今为止其产生的一些最具指控性的内部文件”。

根据法庭文件中的陈述，Meta自己的工程师似乎对这一计划感到不安。这组作者声称内部消息显示Meta工程师犹豫是否下载盗版材料，其中一人指出“从[Meta拥有的]公司笔记本电脑下载种子感觉不对（微笑表情）。”然而，诉讼称，他们不仅下载了这些书籍，还系统性地剥离了版权信息，以准备进行AI训练。

诉讼中的最新文件描绘了一幅公司完全意识到风险的图景：一份内部备忘录警告称，“媒体报道暗示我们使用了我们知道是盗版的数据集，如LibGen，可能会削弱我们与监管机构的谈判地位。”然而，Meta仍然继续进行，诉讼称到2024年1月，既下载又通过种子网络分发（或“播种”）盗版内容。

在被问及这些活动的证词中，扎克伯格似乎与这一决定保持距离，证实这种盗版行为会引发“许多红旗”，并且“看起来是一件坏事。”

法庭文件还表明，Meta处理版权信息的方法更关注模型训练而非版权规则。根据文件，一名工程师“过滤了[…]版权行和其他数据，以准备一个去除CMI的版本来训练Llama。”这种系统性地去除版权信息可能会加强作者的主张，即Meta明知故犯地试图掩盖其使用盗版材料的行为。

这些揭露在Meta的AI雄心壮志的关键时刻浮出水面。该公司一直在努力与OpenAI和谷歌在AI领域竞争，Llama 3.2成为最受欢迎的开源LLM，而Meta AI则是一个与ChatGPT功能相似的强大免费竞争者。

大多数这些AI公司由于在训练其大型语言模型时的可疑做法而面临法律斗争。Meta已经因版权侵权而被另一组作者起诉，OpenAI目前面临不同的诉讼，因为其在受版权保护的材料上训练其LLM，而Anthropic也面临来自作者和词曲创作人的不同指控。

但总体而言，自从生成性AI爆炸性流行以来，科技企业家和创作者们一直在愤怒抗议。目前针对AI公司的数十起不同诉讼正在进行，原因是这些公司自愿使用受版权保护的材料来训练其模型。但与大多数处于前沿的事物一样，我们将不得不拭目以待法院对此的看法。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

扎克伯格被指控故意使用盗版数据来训练Meta AI，作者声称

Decrypt的精选文章

目录

相关文章