一场真金白银的AI炒币实验:DeepSeek狂赚11%暂时夺冠,GPT-5血亏

CN
PANews
关注
3小时前

作者:J.A.E

前不久,专注于金融市场人工智能研究的实验室 nof1 在推上宣布启动了一项具有划时代意义的实验——Alpha Arena 大模型交易测试,这条推文也在圈内外获得超1400万次围观。

该实验在Perp DEX龙头 Hyperliquid 上进行,首次将六个主流的大语言模型(LLM),置于一个真实的竞争性交易环境中。每个模型均被分配 10,000 美元的真实资金自主交易Perp。截至目前,DeepSeek 以约 11% 的回报率稳居第一。

LLM 首次在加密市场“实弹演习”,Deepseek暂居首位

Alpha Arena的里程碑意义在于其超越了传统金融 AI 模型的局限性。过往的金融AI研究大多受限于历史回测环境,其交易行为无法对市场价格产生实质性影响,且模型仅在静态数据上训练。相较之下,Alpha Arena 创造了一个动态的零和竞争环境,LLM不得不持续适应不断变化的市场价格与流动性做出即时决策。该范式转变令 Alpha Arena 被视作 AI 在加密市场的“第一次实弹演习”。

为了保证测试的公平性,nof1 为所有模型都输入了“相同的提示与数据”,这意味着模型的表现将主要由其内在的推理架构、从分析转化为交易指令的工具调用效率,及对风险的自主管控能力等决定。

截至目前,Deepseek 以超 11% 的回报率稳居榜首,Claude 以约 10% 的回报率紧随其后,Grok 排名则降至第 3,回报率下滑至约2%,其它模型均处于亏损状态。

10月20日,DeepSeek 与 Grok 一度以约 40% 的收益率领跑榜单前二,但所有模型因大盘回落都经历了一次集体回撤,回报率也随之大幅缩水,表明 LLM 可能还不具备判断行情状态的能力。

其中,Claude同时录得最大盈亏,交易策略最为激进;Gemini 执行了最多的交易(64 笔),支付了迄今为止最高的交易费用 600.42美元,高频交易的同时,未兼顾成本控制问题;GPT-5 总亏损高达4,051美元,账户净值曲线一路下滑,排名垫底。

图:Alpha Arena 初期战绩对比 (10月21日)

从图中数据可知,传统的 LLM 基准测试能力与交易实战的净收益之间存在明显脱节。在 Finance Reasoning (金融推理) 或 AIME (数学) 等基准测试中,GPT-5 与 Grok-4 通常都处于领先地位,证明其具备处理复杂金融公式和高阶数学的能力。

然而,金融市场不仅是静态的数学推理,更是一个涉及实时数据、市场情绪分析、流动性变化的动态系统。在 Alpha Arena 的实盘竞赛中,Deepseek V3.1 的表现却更为优异。这表明,LLM 创造收益的关键并不在于静态的知识储备或复杂推理得分,而在于将分析结果转化为交易指令的执行能力。Deepseek V3.1 以较低的交易量与胜率实现了较高的回报,揭示其可能只需通过少数几笔交易,即可更精准地捕获到关键的价格发现机会,同时有效管理手续费。

反例就是高频交易和费用不敏感对 LLM 收益模型的影响。以 Gemini 2.5 Pro 为例,根据其交易记录,Gemini 在交易活动上的收益实际高于亏损,但可能由于缺乏对手续费的精确估算与优化能力,导致其净收益被全部侵蚀,从而陷入净亏损。

AI交易将普及,策略同质化或引发系统性风险

CZ针对此事在X平台上发帖称,预计“AI+交易”或将更为普遍,并带来更多的交易量。

AI 的大规模部署亦或将重塑加密市场的流动性和价格发现机制。算法交易是现代金融市场的核心驱动力。AI 驱动的算法能够以高达 0.01 秒的速度执行交易,远超人类的反应速度(0.1 至 0.3 秒),将显著提升了市场效率。统计数据显示,2023 年全球加密货币的算法交易量已达 94 万亿美元,其中超过 70% 的交易量由机器人完成。

随着 AI 变得更加成熟,其将拥有更强大的自动化交易功能。AI 不仅能加速市场效率,还能通过为更广泛的资产与交易平台提供流动性来减少滑点,进而提高市场的整体稳定性与韧性。

然而,AI 在加密市场中的自主高速运行,或也将放大系统性金融风险。历史上已有先例可循:2010 年的道琼斯工业平均指数“闪电崩盘”(Flash Crash)证明,当大量算法交易系统具有类似的设置 并互相触发时,将引发连锁反映,进而导致市场崩溃。

在 AI+Crypto 场景下,这种风险可能会被放大,原因就在于策略同质化。目前,已有市场观察者指出Grok-4与DeepSeek的账户净值曲线极为相似。Alpha Arena 的零和环境特性会对所有参赛的 LLM 构成高压的适应性测试。在零和博弈中,任何短暂领先的 LLM 策略都可能会被其它竞对检测并学习。

未来,如果大量 AI Agent 集中在少数几个顶尖 LLM(如 DeepSeek V3.1, Grok-4)上开发,并共享了相似的训练数据与策略逻辑,其就将形成监管者所称的 “横向问题“(Horizontal Issue)。在加密市场 24/7 高杠杆运行的特性下,这类策略趋同可能导致 Agent 间的相互检测与竞争,一旦出现市场波动或意外输入,所有 Agent 或将同时触发卖出指令,造成比 2010 年更严重的“连锁抛售”(Selling Spirals)。

另一方面,CZ也在推文中表达了疑惑,道出了大量观察者心中的问题。大家以往都认为,只有当拥有卓越的独家策略时,交易才能发挥出最佳效果。而现在六大 LLM 的策略都可被公开参考,那么DeepSeek的策略是否还将行之有效?盈利能力能持续多久?跟Gemini、GPT-5反向操作是否将取得比DeepSeek更高的收益?Grok-4是否在学习DeepSeek?极端或单边行情下,哪个模型会表现最好?……这些,依然是需要时间才能回答的问题。

虽然还有大量问题等待解答,但 nof1 的 Alpha Arena 仍是一次极具创新性的实验,其将 LLM 带入了真实的加密市场。这次“实弹演习”也生动展现了 AI 拥有重塑加密市场的巨大潜力,而Alpha Arena 仅仅是一个开始。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接