| AiCoin 實時快訊

ETH

💲1678.48

3.14%

Sam Gao|2026年05月09日 07:26

🚀 超越梯度学习 AI 学习一定要靠神经网络的梯度更新吗？前一段时间因为宿命论而爆火的OpenAI研究员翁家翌用一篇令人震惊的实验报告给出了颠覆性回答。他在博客里提到的「启发式学习（Heuristic Learning）」的概念正在重塑最近几年流行的RLVR来增强模型的路线：不训练神经网络、不更新权重，而是让编程 agent（Codex/gpt-5.4）持续读取失败记录、修改代码、添加测试、回看回放，将一套程序系统越养越强。按照他博客里的说法: "一切可以不断迭代的任务都可以解决了。" 实验结果令人瞠目： Atari Breakout：纯规则策略从 387 分一路迭代到 864 分——Atari Breakout 的理论满分。策略中逐步长出了球轨迹预测、卡死循环检测、快球特判和回归测试，远超简单的「球在左就往左移」。 MuJoCo Ant：纯 Python 策略先学会节律步态，再加入短视界模型规划，最终得分 6000+，已达主流深度强化学习水平。 Atari57 全套：在 342 条无人监督的搜索轨迹下，约 100 万环境步时的中位 HNS 已远超同步数 PPO 风格的深度强化学习基线。其核心洞察是：过去启发式规则不是不好用，而是人类维护成本太高。编程 agent 改变了这条维护成本曲线: 规则、测试、日志、记忆和补丁，现在可以组成一个持续演进的启发式系统，真正解决在线学习和持续学习长期难以攻克的问题。这或许正是继预训练、RLHF、大规模 RL 之后的下一个范式。(Sam Gao)