Sam Gao|2026年05月09日 07:26
🚀 超越梯度学习
AI 学习一定要靠神经网络的梯度更新吗?前一段时间因为宿命论而爆火的OpenAI研究员翁家翌用一篇令人震惊的实验报告给出了颠覆性回答。
他在博客里提到的「启发式学习(Heuristic Learning)」的概念正在重塑最近几年流行的RLVR来增强模型的路线:
不训练神经网络、不更新权重,而是让编程 agent(Codex/gpt-5.4)持续读取失败记录、修改代码、添加测试、回看回放,将一套程序系统越养越强。
按照他博客里的说法: "一切可以不断迭代的任务都可以解决了。"
实验结果令人瞠目:
Atari Breakout:纯规则策略从 387 分一路迭代到 864 分——Atari Breakout 的理论满分。策略中逐步长出了球轨迹预测、卡死循环检测、快球特判和回归测试,远超简单的「球在左就往左移」。
MuJoCo Ant:纯 Python 策略先学会节律步态,再加入短视界模型规划,最终得分 6000+,已达主流深度强化学习水平。
Atari57 全套:在 342 条无人监督的搜索轨迹下,约 100 万环境步时的中位 HNS 已远超同步数 PPO 风格的深度强化学习基线。
其核心洞察是:过去启发式规则不是不好用,而是人类维护成本太高。编程 agent 改变了这条维护成本曲线: 规则、测试、日志、记忆和补丁,现在可以组成一个持续演进的启发式系统,真正解决在线学习和持续学习长期难以攻克的问题。
这或许正是继预训练、RLHF、大规模 RL 之后的下一个范式。(Sam Gao)
分享至:
脉络
热门快讯
APP下载
X
Telegram
复制链接