K线
数据链上
VIP
市值
API
排行
CoinOSNew
CoinClaw🦞
语言
  • 简体中文
  • 繁体中文
  • English
全球行情数据应用领跑者,致力于更高效地提供有价值的信息。

功能

  • 实时行情
  • 特色功能
  • AI网格

服务

  • 资讯内容
  • 开放数据(API)
  • 机构服务

软件下载

  • PC版
  • Android版
  • iOS版

联系我们

  • 聊天室
  • 商务邮箱
  • 官方邮箱
  • 官方验证通道

加入社区

  • Telegram
  • Twitter
  • Discord

© Copyright 2013-2026. All rights reserved.

简体繁體English
|旧版
BTCBTC
💲71293.44
+
1.48%
ETHETH
💲2110.11
+
2.21%
SOLSOL
💲88.92
+
2.71%
TRUMPTRUMP
💲3.87
+
33.45%
XRPXRP
💲1.40
+
2.19%
DOGEDOGE
💲0.09636
+
2.38%

0xTodd
0xTodd|2025年09月16日 13:39
Sentient 推出了一种新的 multi-agent 开源架构,叫做 ROMA,推理和搜索成绩意外地非常高。 先做个简单的科普,ROMA 这次使用的三个题库分别是什么? Seal-0 题库:它里面是精挑细选的一小套极难问题,每题都被迭代到“多款前沿模型多次尝试仍几乎全错”的强度。它考察 AI 用网页搜索/工具的模型做事实查证,在冲突、噪声或无用检索结果下的推理与去噪能力。 FRAMES 题库:Google/Harvard 提出的 RAG 统一评测集(Factuality + Retrieval + Reasoning),多跳、多约束问题(官方给出 824 题 + 论文 & 数据集)。它考察AI 检索是否找对、引用是否正确、推理是否到位。 SimpleQA 题库:OpenAI 的短事实问答基准集,题目短小、易判分、覆盖广。它主要考察 AI 是否答对且少幻觉,还能评估模型自我校准(自信度与实际正确率的匹配)。 然后聊聊它是怎么实现的? ROMA 主要通过任务拆解来做的,是三步走: 1. 判断和拆解:父节点判断任务是简单 or 复杂,如是复杂任务则拆解为若干子任务; 2. 对症下药:子节点找到最适合的 AI Agent 和工具来解决子任务; 3. 总结汇报:结果汇总+逐层上报聚合成最终答案。 这样,ROMA 得到了推理+搜索的高分(当然,缺点是也会给服务器带来更高的负载以及更长的思考时间)。 另外,过去一些 multi-agent 也采用类似的架构,但是很多会遇到一个问题,叫做“错误累积”。 举个例子,如果单个 AI 的正确率是90%,积累六层,正确率也只剩 50% 左右了。 @SentientAGI ROMA 架构的思路是把整个推理过程透明化,并且开源,这样方便后面的开发者对整个过程,有针对性地进行微调,以增加长任务的正确率。 这就是开源的好处。(0xTodd)
+6
曾提及
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

脉络

10月16日 00:00稳定币在Aptos上推出
10月15日 23:02谷歌推出Veo 3.1,与OpenAI的Sora 2竞争
10月15日 18:03推出 Universal Backlot Club 粉丝互动平台
10月15日 17:53Mina Stack正在逐步实现Zeko Bridge
10月15日 17:18gRPC在Sui上正式推出
10月15日 15:07Mind Cripto Caffe推出自动化Barista机器人
10月15日 11:24发布PunchSwap风险分析仪表盘
10月15日 03:49Jupnet推出JupVM扩展SVM功能
10月14日 21:30OpenAI计划推出新版ChatGPT
10月14日 20:30OpenAI推出Apps SDK供开发者使用

热门快讯

|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

APP下载
Windows
Mac

X

Telegram

Facebook

Reddit

复制链接

热门阅读