新的开源人工智能模型在性能上与DeepSeek相媲美——所需的训练数据少得多

CN
Decrypt
关注
5天前

一组来自领先学术机构和科技公司的国际研究人员在周三颠覆了人工智能推理领域,推出了一种新模型,该模型与中国最先进的人工智能系统之一DeepSeek相匹配,甚至在某些方面超越了它。

OpenThinker-32B由Open Thoughts财团开发,在MATH500基准测试中取得了90.6%的准确率,超过了DeepSeek的89.4%。

该模型在一般问题解决任务中也优于DeepSeek,在GPQA-Diamond基准测试中得分61.6,而DeepSeek得分57.6。在LCBv2基准测试中,它达到了68.9的良好成绩,显示出在多种测试场景中的强劲表现。

换句话说,它在一般科学知识(GPQA-Diamond)方面优于同样规模的DeepSeek R1。它在MATH500中击败了DeepSeek,但在AIME基准测试中落败——这两个测试都试图衡量数学能力。

在编码方面,它的表现略逊于DeepSeek,得分68.9分,而DeepSeek得分71.2,但由于该模型是开源的,一旦人们开始对其进行改进,这些分数可能会大幅提升。

这一成就的独特之处在于其效率:OpenThinker仅需114,000个训练样本即可达到这些结果,而DeepSeek则使用了800,000个。

OpenThoughts-114k数据集为每个问题提供了详细的元数据:真实解决方案、代码问题的测试用例、必要时的起始代码以及特定领域的信息。

其自定义的Curator框架对代码解决方案进行了测试用例验证,而AI评审则处理数学验证。

团队报告称,他们使用了四个节点,每个节点配备八个H100 GPU,完成时间约为90小时。一个单独的数据集137,000个未验证样本,在意大利的莱昂纳多超级计算机上训练,仅在30小时内消耗了11,520个A100小时。

“验证旨在在扩大训练提示的多样性和规模的同时保持质量,”团队在其文档中指出。研究表明,即使是未验证的版本表现良好,尽管它们未能匹配经过验证模型的峰值结果。

该模型建立在阿里巴巴的Qwen2.5-32B-Instruct LLM之上,支持适度的16,000个标记上下文窗口——足以处理复杂的数学证明和冗长的编码问题,但远低于当前标准。

此次发布正值人工智能推理能力竞争加剧之际,这种竞争似乎以思维的速度进行。OpenAI于2月12日宣布,所有后续GPT-5的模型都将具备推理能力。一天后,埃隆·马斯克宣传了xAI的Grok-3增强问题解决能力,承诺它将是迄今为止最好的推理模型,而就在几小时前,Nous Research发布了另一个基于Meta的Llama 3.1的开源推理模型DeepHermes

在DeepSeek展示出与OpenAI的o1相当的性能且成本显著降低后,该领域获得了动力。DeepSeek R1可以免费下载、使用和修改,训练技术也已公开。

然而,与决定开源所有内容的Open Thoughts不同,DeepSeek开发团队将其训练数据保密。

这个关键差异意味着开发者可能比使用DeepSeek更容易理解OpenThinker并从头复现其结果,因为他们可以访问所有拼图的部分。

对于更广泛的人工智能社区而言,这次发布再次证明了在没有庞大专有数据集的情况下构建竞争模型的可行性。此外,对于仍然不确定是否使用中国模型的西方开发者来说,这可能是一个更值得信赖的竞争者——无论是开源还是非开源。

OpenThinker可以在HuggingFace上下载。一个较小、功能较弱的7B参数模型也可供低端设备使用。

Open Thoughts团队汇集了来自不同美国大学的研究人员,包括斯坦福大学、伯克利大学和加州大学洛杉矶分校,以及德国的尤利希超级计算中心。美国的丰田研究院和欧盟人工智能领域的其他参与者也对此进行了支持。

编辑:Josh QuittnerSebastian Sinclair

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接