K线
数据链上
VIP
市值
API
排行
CoinOSNew
CoinClaw🦞
语言
  • 简体中文
  • 繁体中文
  • English
全球行情数据应用领跑者,致力于更高效地提供有价值的信息。

功能

  • 实时行情
  • 特色功能
  • AI网格

服务

  • 资讯内容
  • 开放数据(API)
  • 机构服务

软件下载

  • PC版
  • Android版
  • iOS版

联系我们

  • 聊天室
  • 商务邮箱
  • 官方邮箱
  • 官方验证通道

加入社区

  • Telegram
  • Twitter
  • Discord

© Copyright 2013-2026. All rights reserved.

简体繁體English
|旧版

每小时数千万条错误,调查揭露 Google AI 搜索的「准确率幻觉」

CN
深潮TechFlow
关注
3小时前
AI 总结,5秒速览全文
即便答案正确,超过半数的引用链接也无法支撑其结论。

作者:克洛德,深潮 TechFlow

深潮导读:《纽约时报》联合 AI 初创公司 Oumi 的最新测试显示,Google 搜索的 AI 摘要功能(AI Overviews)准确率约为 91%,但以 Google 年处理 5 万亿次搜索的体量换算,这意味着每小时产生数千万条错误答案。更棘手的是,即便答案正确,超过半数的引用链接也无法支撑其结论。

Google 正在以前所未有的规模向用户输送错误信息,而大多数人毫不知情。

据《纽约时报》报道,AI 初创公司 Oumi 受其委托,使用 OpenAI 开发的行业标准测试 SimpleQA 对 Google 的 AI Overviews 功能进行了准确性评估。测试覆盖 4326 次搜索查询,分别在去年 10 月(Gemini 2 驱动)和今年 2 月(升级至 Gemini 3 后)各进行一轮。结果显示,Gemini 2 的准确率约为 85%,Gemini 3 提升至 91%。

91%听起来不错,但放到 Google 的体量上就是另一回事。Google 每年处理约 5 万亿次搜索查询,按 9%的错误率计算,AI Overviews 每小时产生超过 5700 万条不准确的答案,每分钟接近 100 万条。

答案对了,来源却是错的

比准确率更令人不安的是引用来源的「脱锚」问题。

Oumi 的数据显示,Gemini 2 时代,37%的正确回答存在「无根据引用」问题,即 AI 摘要所附链接并不支持其给出的信息。升级到 Gemini 3 后,这一比例不降反升,跳增至 56%。换言之,模型在给出正确答案的同时,越来越不会「交作业」。

Oumi CEO Manos Koukoumidis 的质疑直指要害:「即便答案是对的,你怎么知道它是对的?你怎么去验证?」

AI Overviews 大量引用低质量来源加剧了这一问题。Oumi 发现,Facebook 和 Reddit 分别是 AI Overviews 第二和第四大引用来源。在不准确的回答中,Facebook 被引用的频率达到 7%,高于准确回答中的 5%。

BBC 记者一篇假文章,24 小时内「投毒」成功

AI Overviews 的另一个严重缺陷是极易被操纵。

一名 BBC 记者用一篇刻意编造的虚假文章进行测试,不到 24 小时,Google 的 AI 摘要便将其中的虚假信息作为事实呈现给用户。

这意味着任何了解系统运作机制的人,都可能通过发布虚假内容并推高其流量来「投毒」AI 搜索结果。Google 发言人 Ned Adriance 对此的回应是,搜索 AI 功能建立在与屏蔽垃圾信息相同的排名和安全机制上,并称测试中的「大多数例子都是人们实际不会搜索的不切实际的查询」。

Google 反驳:测试本身就有问题

Google 对 Oumi 的研究提出了多项质疑。Google 发言人称该研究「存在严重漏洞」,理由包括:SimpleQA 基准测试本身包含不准确信息;Oumi 使用自家 AI 模型 HallOumi 来评判另一个 AI 的表现,可能引入额外误差;测试内容不反映用户的真实搜索行为。

Google 内部测试也显示,Gemini 3 在脱离 Google 搜索框架独立运行时,产生虚假输出的比例高达 28%。但 Google 强调,AI Overviews 借助搜索排名系统来提升准确性,表现优于模型本身。

不过,正如 PCMag 评论所指出的逻辑悖论:如果你的辩护理由是「指出我们 AI 不准确的报告本身也用了可能不准确的 AI」,这恐怕并不能增强用户对你产品准确性的信心。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

不止加密,一站式交易美股、外汇等全球资产
广告
|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

深潮TechFlow的精选文章

2小时前
Ondo Perps:把华尔街 Prime Brokerage 搬到链上?
2小时前
地缘风险退散:三星 Q1 业绩远超共识,韩股指数强力反弹
3小时前
300 年一遇?独立老矿机「一发入魂」,独揽 22 万美元比特币区块奖励
查看更多

目录

|
|
APP下载
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

复制链接

相关文章

avatar
avatar白话区块链
2小时前
比特币的多面性:风险资产受害者与避险赌注
avatar
avatar深潮TechFlow
2小时前
Ondo Perps:把华尔街 Prime Brokerage 搬到链上?
avatar
avatar深潮TechFlow
2小时前
地缘风险退散:三星 Q1 业绩远超共识,韩股指数强力反弹
avatar
avatar深潮TechFlow
3小时前
300 年一遇?独立老矿机「一发入魂」,独揽 22 万美元比特币区块奖励
APP下载
Windows
Mac

X

Telegram

Facebook

Reddit

复制链接