K线
数据链上
VIP
市值
API
排行
CoinOSNew
CoinClaw🦞
语言
  • 简体中文
  • 繁体中文
  • English
全球行情数据应用领跑者,致力于更高效地提供有价值的信息。

功能

  • 实时行情
  • 特色功能
  • AI网格

服务

  • 资讯内容
  • 开放数据(API)
  • 机构服务

软件下载

  • PC版
  • Android版
  • iOS版

联系我们

  • 聊天室
  • 商务邮箱
  • 官方邮箱
  • 官方验证通道

加入社区

  • Telegram
  • Twitter
  • Discord

© Copyright 2013-2026. All rights reserved.

简体繁體English
|旧版

人工智能仍然不能超越随叫随到的工程师:原因如下

CN
Decrypt
关注
1天前
AI 总结,5秒速览全文

人工智能公司不断推销自主的 网站可靠性工程师代理——人工智能替代人类调查生产事故。Datadog 在真实故障上进行了实际基准测试,而最好的人工智能模型尚未能超过他们应该替代的工程师。


该基准是 ARFBench(异常推理框架基准),这是 Datadog 和卡内基梅隆大学的联合项目。基于 63 个真实生产事故,提取自工程师在紧急情况下的 Slack 交流——750 道多项选择题,涵盖 142 个监控指标和 538 万个数据点,每道问题均经过人工验证。没有合成数据。没有教科书场景。


“每年由于系统故障造成的损失高达万亿美元,”研究人员写道。基准测试人工智能是否真的能帮助改变这种情况。


“尽管这种基于问题的分析在事故响应中起着核心作用,但目前尚不清楚现代基础模型是否能够可靠地回答工程师在实践中提出的时间序列问题,”论文中写道。





问题分为三个层级。层级一:此图表中是否存在异常?层级二:它何时开始,严重程度如何,是什么类型?


层级三——最难的——需要跨指标推理:这个图表是否引发了另一个图表中的问题?这就是人工智能的短板。GPT-5 在层级三问题上的 F1 分数仅为 47.5%,该指标会惩罚通过选择最常见类别来操控答案的模型。


“尽管这种基于问题的分析在事故响应中起着核心作用,但目前尚不清楚现代基础模型是否能够可靠地回答工程师在实践中提出的时间序列问题,”研究人员写道。


每个模型的表现对比


GPT-5 在所有现有模型中表现最佳,准确率为 62.7%——而随机猜测的得分为 24.5%。Gemini 3 Pro 得分 58.1%。Claude Opus 4.6: 54.8%。Claude Sonnet 4.5: 47.2%。


领域专家得分 72.7% 准确率。非领域专家——Datadog 的时间序列研究人员,缺乏广泛的可观测性经验——仍然达到了 69.7%。


没有任何人工智能模型超过这两个人工基线。



图像由 Decrypt 基于 ARFBench 排行榜 CSV 构建

实际上在完整排行榜中排名第一的模型是 Datadog 自己的混合模型:Toto——他们内部的时间序列预测模型——与 Qwen3-VL 32B 组合。Toto-1.0-QA-Experimental 的准确率为 63.9%,超越了 GPT-5,同时使用的参数远少于其一部分。在异常识别方面,它在 F1 上超越了所有其他模型至少 8.8 个百分点。


一个专门构建的领域模型,在可观测性数据上进行训练,在这个特定任务上超越一个前沿通用系统是预期的结果。这正是关键所在。


最有价值的发现并不是哪个模型得分最高。


“我们观察到领先模型与人类专家之间存在显著不同的错误特征,表明它们的优势是互补的,”研究人员写道。模型会产生幻觉、遗漏元数据,并失去领域上下文。人类会误读精确的时间戳,偶尔在复杂指令上出现失误。这些错误几乎不会重叠。


构建一个理论上的“模型-专家神谕”——一个完美的裁判,始终在人工智能和人类之间选择正确答案——得到 87.2% 的准确率和 82.8% 的 F1。远高于任何一个单独的模型。


这不是一个产品。这是一个 经过文档记录的目标——基于真实紧急情况,而不是策划的数据集——量化了人类与人工智能合作的表现可以有多好。排行榜在 Hugging Face 上实时更新。GPT-5 的得分为 62.7%。最高限度为 87.2%。


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

邀好友抽 BTC,赢限量金披萨!
广告
|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

Decrypt的精选文章

7分钟前
开放人工智能公司即将在几天内提交首次公开募股申请,目标是在九月上市:华尔街日报
48分钟前
谷歌的股票在近年来最好的I/O会议上下跌。以下是为什么美国银行仍在购买的原因。
1小时前
GitHub 确认通过被污染的 VS Code 扩展窃取了 3,800 个内部代码库
查看更多

目录

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

相关文章

avatar
avatarDecrypt
7分钟前
开放人工智能公司即将在几天内提交首次公开募股申请,目标是在九月上市:华尔街日报
avatar
avatarbitcoin.com
11分钟前
比特币为加密经济增加200亿美元,交易者捍卫$77,000 支撑位
avatar
avatarbitcoin.com
15分钟前
冬眠者推出阿米塔奇,价值100亿美元的交易网络拓展至去中心化金融借贷
avatar
avatarcoindesk
16分钟前
尽管创纪录的季度推动了公开上市计划,Securitize仍然处于亏损状态。
avatar
avatarcoindesk
46分钟前
最新的国会对加密货币税收改革的倡议将指示国税局审查微小免税额。
APP下载
Windows
Mac

X

Telegram

Facebook

Reddit

复制链接