ChatGPT获得个人助手升级——如果你愿意每月支付200美元

CN
Decrypt
關注
7 小時前

在周四,OpenAI 发布了一项新功能,称为 Operator,它允许 ChatGPT 控制虚拟浏览器执行现实世界的任务,如订餐或预订航班。但到目前为止,它的目标是富人。

该工具目前仅对美国的专业订阅用户(每月 200 美元)开放,标志着公司首次涉足自主网页浏览。

它突显了一个分层金融系统的出现,支付更多的人可以获得最佳的 AI 功能。同时,支付较少的用户则被限制在功能受限的较低能力模型上——可以说这并不那么“民主”。

该系统通过 operator.chatgpt.com 工作,用户可以要求 ChatGPT 处理各种在线琐事。

过去曾有一些尝试做类似的事情,从 OpenAI 插件商店 到大型行动模型的承诺 由 Rabbit 推广。然而,它们对 API 的依赖使得它们不方便且难以设置。

与之前的工具不同的是它的工作方式。Operator 控制一个基于云的浏览器,像人类一样点击按钮和填写表单,而不是依赖于 API。

每当 Operator 进行操作时,它会截取屏幕截图以向您展示它正在做什么。

例如,如果您需要预订一张比赛的票,AI 会打开自己的浏览器,访问特定网站,查找相关比赛,并在询问您确认付款之前找到最佳选项。

它还会通过视觉证据向您展示其决策过程。如果事情出现问题,还有一个“接管控制”按钮,让人类可以接管。

为了在其他人失败的地方取得成功,OpenAI 必须构建自己的 AI 模型,以视觉理解网页浏览器显示的信息,并通过键盘和鼠标输入控制操作。这个新模型由 GPT-4o 驱动,名为计算机用户代理(CUA)。

这不仅仅是遵循脚本。AI 可以读取和理解网站布局,适应不同的设计,甚至处理意外的弹出窗口或错误消息。

该系统展示了一些令人印象深刻的特技。给它一张您凌乱的手写购物清单的照片,它不仅会使用 GPT-Vision 来读取它,还会实际从您首选的杂货店订购所有物品。

OpenAI 与几家公司合作,以确保在其平台上顺利操作。

在预订乘车或订餐时,AI 可以顺利导航 Uber 和 DoorDash 等服务,因为它已预先配置以理解它们的界面。

然而,对于不支持的网站,该系统仍然尝试使用其浏览器控制能力完成任务。这就是 Operator 超越其他替代方案的地方。

像往常一样,OpenAI 分享了一些基准测试:它在 OSWorld(处理标准操作系统的能力)上得分 38.1%,而最佳竞争对手为 22%;在 WebArena(处理电子商务网站)上得分 58.1%,而竞争对手为 36.2%。

尽管如此,团队强调 Operator 仍然是一个研究预览,因此预计会有错误和漏洞。

一个潜在的障碍可能会让注重安全的用户犹豫:您需要信任 Operator 处理您的登录凭据。

云浏览器需要访问您的账户才能完成任何操作,并且由于它与本地浏览器不兼容,使用远程网页浏览器登录并信任 OpenAI 不会存储敏感数据的承诺,可能会让人觉得有些不安。

该功能预计将在不久后进行更广泛的推广,Plus 订阅用户将是下一个受益者。开发者也不会被排除在外——OpenAI 计划在接下来的几周内通过其 API 发布 Operator,可能会催生新一代 AI 驱动的自动化工具。

OpenAI 表示,除了云网页浏览控制之外,还会推出更多实例。团队在演示中表示,他们还在努力扩展 AI 代理的阵容,超越当前的通用助手。

编辑:Sebastian SinclairJosh Quittner

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下載

X

Telegram

Facebook

Reddit

複製鏈接