Meta推出了Muse Spark，这是其功能最强大的人工智能——但Gemini 3.1 Pro依然领跑。

Meta在星期三推出Muse Spark，标志着由Meta超级智能实验室构建的第一个模型——该团队在首席人工智能官Alexandr Wang的领导下于九个月前组建，之前Meta进行了140亿美元的Scale AI收购。它现在可以在meta.ai和Meta AI应用中使用，未来几周将逐步推出至Facebook、Instagram和WhatsApp。

这不仅仅是另一个聊天机器人升级或Llama的新版本。Muse Spark原生是多模态的——它从基础上处理图像、文本和语音，而不是将视觉附加到现有文本模型上。它具有视觉思维链、工具使用支持，以及Meta所称的“沉思模式”：这个设置可以并行运行多个人工智能代理来解决更困难的问题。这是Meta对谷歌的Gemini Deep Think和OpenAI的GPT Pro的延续思维模式的回应。

“Muse Spark是我们扩展阶梯的第一步，也是对我们的人工智能工作进行自下而上的彻底检修的第一款产品，”Meta在官方公告中写道。“为了支持进一步扩展，我们正对整个堆栈进行战略投资——从研究和模型训练到基础设施，包括Hyperion数据中心。”

该公司与超过1000名医生合作，策划了Muse Spark的医学推理的训练数据。在HealthBench Hard——一个开放式健康查询基准——上的结果引人注目：Muse Spark得分42.8，GPT 5.4为40.1，而Gemini 3.1 Pro仅为20.6。这并不是微小的差距。

在代理搜索（DeepSearchQA）上，Muse Spark也以74.8领先，超过Gemini（69.7）和GPT 5.4（73.6）。在CharXiv推理——来自科学论文的图形理解上，它得分86.4，是比较中所有模型中最高的。

对于那些喜欢破解AI的人来说，这个模型在几分钟内就被破解了：

但好的并不等于伟大的。整体基准显示，Gemini 3.1 Pro在大多数类别中仍然领先。差距在ARC AGI 2，抽象推理难题基准中特别明显：Gemini得分76.5，而Muse Spark仅得42.5。

在编码（LiveCodeBench Pro）上，Gemini的82.9超过了Meta的80.0。在MMMU Pro——多模态理解上，Gemini得分83.9，而Meta得分80.4。Meta自己的博客承认在长期代理系统和编码工作流中当前的表现差距。

此次发布中还包含显著的战略转变。Muse Spark是一个封闭模型——其架构和权重不会公开。这与Llama大相径庭，后者在开放AI圈中建立了Meta的声誉。在Llama 4年初不尽如人意的接收之后，Meta似乎已经决定下一个篇章需要以不同的方式书写。

该公司表示希望未来能将Muse的版本开源，但目前代码仍然保留在Meta内部。在公告后，科技巨头的股票在周三上涨了近9%，并在交易日结束时上涨6.5%，至612.42美元。

“沉思模式”使用并行代理编排来提高模型的上限。在该配置下，Muse Spark在“人类的最后考试”上得分58%，在“前沿科学研究”上得分38%——这使其在能力上与Gemini和GPT的最强版本具有竞争力，而不是它们的标准版本。

Meta还推出了一款购物助手，可以比较产品并直接链接到购买，并计划在未来几周将Muse Spark引入Facebook、Instagram和WhatsApp——遵循自Llama 3以来实施的相同脚本，使其面向超过35亿用户。一个私人API预览已向部分开发者开放。

该模型在九个月内构建，内部代号为“鳄梨”，Meta声称其新的预训练堆栈可以在使用超过10倍更少的计算能力的情况下，达到与Llama 4 Maverick相同的能力水平。

Muse Spark在内部被描述为Muse系列中的“快速小型”第一步。一个更强大的版本已经在开发中。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

Meta推出了Muse Spark，这是其功能最强大的人工智能——但Gemini 3.1 Pro依然领跑。

Decrypt的精選文章

目錄

相關文章