Meta在星期三推出Muse Spark,标志着由Meta超级智能实验室构建的第一个模型——该团队在首席人工智能官Alexandr Wang的领导下于九个月前组建,之前Meta进行了140亿美元的Scale AI收购。它现在可以在meta.ai和Meta AI应用中使用,未来几周将逐步推出至Facebook、Instagram和WhatsApp。
这不仅仅是另一个聊天机器人升级或Llama的新版本。Muse Spark原生是多模态的——它从基础上处理图像、文本和语音,而不是将视觉附加到现有文本模型上。它具有视觉思维链、工具使用支持,以及Meta所称的“沉思模式”:这个设置可以并行运行多个人工智能代理来解决更困难的问题。这是Meta对谷歌的Gemini Deep Think和OpenAI的GPT Pro的延续思维模式的回应。
“Muse Spark是我们扩展阶梯的第一步,也是对我们的人工智能工作进行自下而上的彻底检修的第一款产品,”Meta在官方公告中写道。“为了支持进一步扩展,我们正对整个堆栈进行战略投资——从研究和模型训练到基础设施,包括Hyperion数据中心。”
该公司与超过1000名医生合作,策划了Muse Spark的医学推理的训练数据。在HealthBench Hard——一个开放式健康查询基准——上的结果引人注目:Muse Spark得分42.8,GPT 5.4为40.1,而Gemini 3.1 Pro仅为20.6。这并不是微小的差距。
在代理搜索(DeepSearchQA)上,Muse Spark也以74.8领先,超过Gemini(69.7)和GPT 5.4(73.6)。在CharXiv推理——来自科学论文的图形理解上,它得分86.4,是比较中所有模型中最高的。
对于那些喜欢破解AI的人来说,这个模型在几分钟内就被破解了:
但好的并不等于伟大的。整体基准显示,Gemini 3.1 Pro在大多数类别中仍然领先。差距在ARC AGI 2,抽象推理难题基准中特别明显:Gemini得分76.5,而Muse Spark仅得42.5。
在编码(LiveCodeBench Pro)上,Gemini的82.9超过了Meta的80.0。在MMMU Pro——多模态理解上,Gemini得分83.9,而Meta得分80.4。Meta自己的博客承认在长期代理系统和编码工作流中当前的表现差距。
此次发布中还包含显著的战略转变。Muse Spark是一个封闭模型——其架构和权重不会公开。这与Llama大相径庭,后者在开放AI圈中建立了Meta的声誉。在Llama 4年初不尽如人意的接收之后,Meta似乎已经决定下一个篇章需要以不同的方式书写。
该公司表示希望未来能将Muse的版本开源,但目前代码仍然保留在Meta内部。在公告后,科技巨头的股票在周三上涨了近9%,并在交易日结束时上涨6.5%,至612.42美元。
“沉思模式”使用并行代理编排来提高模型的上限。在该配置下,Muse Spark在“人类的最后考试”上得分58%,在“前沿科学研究”上得分38%——这使其在能力上与Gemini和GPT的最强版本具有竞争力,而不是它们的标准版本。
Meta还推出了一款购物助手,可以比较产品并直接链接到购买,并计划在未来几周将Muse Spark引入Facebook、Instagram和WhatsApp——遵循自Llama 3以来实施的相同脚本,使其面向超过35亿用户。一个私人API预览已向部分开发者开放。
该模型在九个月内构建,内部代号为“鳄梨”,Meta声称其新的预训练堆栈可以在使用超过10倍更少的计算能力的情况下,达到与Llama 4 Maverick相同的能力水平。
Muse Spark在内部被描述为Muse系列中的“快速小型”第一步。一个更强大的版本已经在开发中。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。