Grok 4 明天发布——以下是马斯克的人工智能如何可能抢走 GPT-5 的风头

CN
Decrypt
关注
9小时前

特斯拉和xAI首席执行官埃隆·马斯克预计将在周三通过直播揭幕Grok 4,这可能会显著推动人工智能行业的发展。

新版本将在大约太平洋时间晚上8点展示,承诺成为该平台迄今为止最雄心勃勃的模型——一个直接跳过承诺的Grok 3.5,挑战OpenAI的主导地位。

ChatGPT的制造商继续对其下一个版本GPT-5保持保密,首席执行官山姆·阿尔特曼暗示可能在夏季发布。

这对马斯克来说无疑是个好消息,他抓住了一个机会,以在与公司最强劲的竞争对手的竞争中取得进展。

Grok 4的到来伴随着一些泄露的基准测试的猜测,显示其在“人类最后的考试”中得分为45%,而Gemini 2.5 Pro的得分为21%。

该模型还据称在AIME'25上达到了95%的准确率,在GPQA上达到了88%的准确率,这些数字使其与当今最佳可用模型直接竞争。

这相当了不起:“人类最后的考试”是一个旨在对AI模型提出高度挑战的基准,旨在可视化一个模型在实现AGI和类人推理方面的接近程度。

作为背景,OpenAI在深度研究模式下,使用浏览和Python工具,得分不超过25%

但原始得分只讲述了部分故事。Grok 4分为两种截然不同的个性:一个用于日常任务的通用模型和“Grok 4 Code”,这是xAI专为开发人员设计的专业编码助手。

API用户已经在控制台列表中发现了编码变体“grok-4-code-0629”,这表明该公司一直在与特定合作伙伴进行测试。

“Grok 4的智能将无与伦比,”xAI工程师Tim Li在宣布之前声称,他提到团队的精简结构和非常规的训练方法。“世界还没有准备好迎接这个模型,”他说。

这种夸耀听起来可能像典型的硅谷炒作,但Grok在行业中有着令人惊讶的记录。

还记得Grok 2在代号“sus-column-r”下悄然进入LMSYS聊天机器人竞技场时吗?

它在排行榜上名列前茅,击败了Claude和GPT-4,Elo得分引起了创意作家的关注。

该模型理解上下文的能力优于ChatGPT,并生成了开发人员实际想要使用的代码,至少在Claude 3.5 Sonnet到来并再次提高标准之前是这样。

还有什么其他好东西在等待?爱好者希望看到更大的令牌上下文窗口。

目前只有130,000个,令牌上下文窗口与GPT-5预计的100万+个令牌相比似乎显得微不足道,但xAI在速度上进行了优化,而非规模。

在将AI集成到实时应用程序中时,实时性能至关重要,早期测试者报告称Grok 4处理请求的速度明显快于其竞争对手。

此外,xAI似乎正在尽可能多地实施优化,以使模型能够更高效地处理这些令牌。当前的系统提示已被重新设计,以优化更短的答案而不失去实用性。

特斯拉集成的传闻又增添了另一层复杂性。泄露的UI元素表明Grok可能会进入车辆系统,提供其他汽车和卡车尚未具备的独特语音激活功能。

游戏代表了Grok可以出色表现的另一个前沿。埃隆·马斯克宣布计划建立一个游戏实验室,以鼓励基于AI的游戏开发,爱好者们期待Grok 4能够兑现这一承诺。信不信由你,埃隆承诺使用Grok构建的第一款AAA游戏可能会在明年发布。

如今的AI模型能够生成休闲游戏(贪吃蛇、小型模拟器、井字棋),但仍然过于原始,无法生成具有顶级图形、复杂逻辑和精致玩法的更复杂游戏。

OpenAI即将推出的GPT-5也承诺具有多模态能力,可能会超越目前可用的任何东西,具备原生视频处理和根据用户需求调整的自适应推理模式。

然而,承诺对今天的开发者并没有帮助,而Grok 4的即时可用性在快速发展的AI市场中为其提供了关键优势。

这种专业化的方法可能会定义Grok 4的成功。虽然GPT-5旨在特别满足OpenAI的1.23亿日活跃用户,但xAI似乎正在针对其相对较小的700万日活跃用户中的特定用户群体:需要可靠代码生成的开发者、需要快速实时处理的企业,以及重视较少过滤响应的用户。

还值得注意的是,xAI的快速发布周期——从2023年11月的Grok 1到2025年7月的Grok 4——即使在AI开发中也是相当快的。

该公司在一个超级集群上使用20万个Nvidia GPU训练了Grok 3,并且目前拥有马斯克称之为“世界上最强大的AI训练集群”。


来源:Arxiv

与X的实时数据集成提供了另一个差异化因素。虽然其他模型依赖于静态训练数据并定期更新,但Grok直接从平台提取当前信息。

在重大新闻事件或热门话题期间,这种实时意识成为了一个显著的优势。

如果xAI重复其商业模式,早期访问可能会优先提供给X Premium+订阅者和SuperGrok用户,API的可用性随后会很快跟上。

开发者已经可以在xAI控制台中看到Grok 4和Grok 4 Code的占位符条目,这表明基础设施已准备好立即部署。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

ad
出入金首选欧易,注册立返20%
广告
分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接