K線
數據鏈上
VIP
市值
API
排行
CoinOSNew
CoinClaw🦞
語言
  • 简体中文
  • 繁体中文
  • English
全球行情資料應用程式領跑者,致力於更有效率地提供有價值的資訊。

功能

  • 即時行情
  • 特色功能
  • AI網格

服務

  • 資訊內容
  • 開放數據(API)
  • 機構服務

軟體下載

  • PC版
  • Android版
  • iOS版

聯絡我們

  • 聊天室
  • 商務信箱
  • 官方信箱
  • 官方驗證通道

加入社區

  • Telegram
  • Twitter
  • Discord

© Copyright 2013-2026. All rights reserved.

简体繁體English
|舊版

忘记人工智能—顶级人工智能模型在数学上仍然挣扎

CN
Decrypt
關注
8 小時前
AI 總結,5秒速覽全文

人工通用智能,或称为 AGI,通常被描述为能够在多个领域像人类一样执行任务的系统。本周发布的 结果 显示,目前的模型仍未达到这一目标。


来自微软研究院、Sahara AI 和埃默里大学的研究人员测试了与通用智能相关的能力,即基于视觉信息的数学推理,包括图表、图形和示意图。


在测试的12个基础模型中,包括ChatGPT、Gemini和Claude,GPT-4视觉的得分最高,为49.9%。人类参与者的平均得分为60.3%,突显了当前AI系统与通常与AGI相关的更广泛推理能力之间的差距。





“我们希望机器能够完成普通人能够做的日常任务,”微软研究院首席研究员程浩告诉Decrypt。“这基本上就是每个人追求AGI的目标。”


通过将问题转化为图像、图表和图示,该项目测试模型是否能够正确解读视觉信息并解决多步骤的数学和逻辑问题——这些技能超出了仅仅对文本进行模式匹配的范围。


模型在这些任务中仍然存在困难,而评估这种局限性是困难的。


当程的团队回顾现有的评估数据集时,发现许多包含的问题并不需要进行视觉推理。模型往往仅凭文本就得出正确答案。


“这并不理想,”程说。


MathVista于2023年10月在GitHub和Hugging Face上推出。从那时起,微软研究院数据显示,它已被下载超过275,000次,其中过去一个月的下载超过13,000次。


然而,创建数据集不仅仅需要标准的数据标注。微软研究院需要能够处理算术、代数、几何和统计学问题的注释员,同时区分更深层次的数学推理,例如图形解读或方程求解,与更简单的任务如计算物体或读取数字。


经过试点阶段,微软选择了Sahara AI来支持该工作。该公司提供了经过培训的注释员、定制工作流程和多阶段质量检查,以生成超过6,000个在基准测试中使用的多模态示例。


根据Sahara AI首席执行官、南加州大学计算机科学副教授任Sean的说法,缺乏可靠的基准让测量朝更广泛机器智能的进展变得困难。


“数据污染有一个细微之处,一旦我们开始使用这个数据集进行测试,结果就会被吸收到下一个版本中,”任告诉Decrypt。“所以你真的不知道它们是否仅仅在解决一个数据集,或者它们是否具备这个能力。”


如果基准答案出现在模型的训练数据中,高分可能反映的是记忆而不是推理。这使得确定AI系统是否真正改进变得更加困难。


研究人员也指出训练数据的限制。可公开获取的大部分互联网内容已经被纳入模型数据集中。


“你绝对需要有某种方法将新的知识注入到这个过程中,”程说。“我认为这种情况必须来自高质量的数据,这样我们才能真正打破这个知识边界。”


一种提议的路径涉及模拟环境,其中模型可以互动、从经验中学习并通过反馈改进。


“你创建一个双胞胎世界或真实世界的镜像,在某个沙盒里面,这样模型就可以玩并做很多人类在现实生活中做的事情,从而它可以基本上突破互联网的边界,”程说。


任表示,人类在改善AI系统方面仍可能发挥重要作用。虽然模型可以快速生成内容,但人类在评估内容方面仍表现更好。


“这种人类与AI之间的差距,它们擅长的地方和不擅长的地方,可以被利用来真正改善未来的AI,”他说。


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

BitMart八周年狂欢,500USDT等你瓜分!
广告
|
|
APP下載
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

複製鏈接

|
|
APP下載
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

複製鏈接

Decrypt的精選文章

16 分鐘前
特朗普白宫注册了外星人.gov——UFO文件即将发布吗?
2 小時前
比特币,以太坊因美联储保持利率不变而波动
3 小時前
千万交易者削弱春季反弹机会,因比特币、以太坊下滑
查看更多

目錄

|
|
APP下載
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

複製鏈接

相關文章

avatar
avatarcoindesk
13 分鐘前
美国证券交易委员会批准纳斯达克支持代币化证券交易的举措
avatar
avatarDecrypt
16 分鐘前
特朗普白宫注册了外星人.gov——UFO文件即将发布吗?
avatar
avatarcoindesk
26 分鐘前
Fairshake 的一千万美元伊利诺伊州失误标志着加密政治浪潮中的第一个重大障碍
avatar
avatarbitcoin.com
37 分鐘前
美国证券交易委员会批准纳斯达克规则变更,为代币化证券交易在美国市场开辟道路
avatar
avatarcoindesk
39 分鐘前
比特币跌至七万一千美元以下,股票在交易时段收于最低点,2026年降息的希望进一步减弱。
APP下載
Windows
Mac

X

Telegram

Facebook

Reddit

複製鏈接