K線
數據鏈上
VIP
市值
API
排行
CoinOSNew
CoinClaw🦞
語言
  • 简体中文
  • 繁体中文
  • English
全球行情資料應用程式領跑者,致力於更有效率地提供有價值的資訊。

功能

  • 即時行情
  • 特色功能
  • AI網格

服務

  • 資訊內容
  • 開放數據(API)
  • 機構服務

軟體下載

  • PC版
  • Android版
  • iOS版

聯絡我們

  • 聊天室
  • 商務信箱
  • 官方信箱
  • 官方驗證通道

加入社區

  • Telegram
  • Twitter
  • Discord

© Copyright 2013-2026. All rights reserved.

简体繁體English
|舊版
BTCBTC
💲80396.68
+
0.94%
ETHETH
💲2309.87
+
1.5%
SOLSOL
💲92.80
+
4.91%
ZECZEC
💲591.76
+
4.53%
TONTON
💲2.40
-
7.34%
USDCUSDC
💲0.9999
-
0.01%

Sam Gao
Sam Gao|2026年05月09日 07:26
🚀 超越梯度学习 AI 学习一定要靠神经网络的梯度更新吗?前一段时间因为宿命论而爆火的OpenAI研究员翁家翌用一篇令人震惊的实验报告给出了颠覆性回答。 他在博客里提到的「启发式学习(Heuristic Learning)」的概念正在重塑最近几年流行的RLVR来增强模型的路线: 不训练神经网络、不更新权重,而是让编程 agent(Codex/gpt-5.4)持续读取失败记录、修改代码、添加测试、回看回放,将一套程序系统越养越强。 按照他博客里的说法: "一切可以不断迭代的任务都可以解决了。" 实验结果令人瞠目: Atari Breakout:纯规则策略从 387 分一路迭代到 864 分——Atari Breakout 的理论满分。策略中逐步长出了球轨迹预测、卡死循环检测、快球特判和回归测试,远超简单的「球在左就往左移」。 MuJoCo Ant:纯 Python 策略先学会节律步态,再加入短视界模型规划,最终得分 6000+,已达主流深度强化学习水平。 Atari57 全套:在 342 条无人监督的搜索轨迹下,约 100 万环境步时的中位 HNS 已远超同步数 PPO 风格的深度强化学习基线。 其核心洞察是:过去启发式规则不是不好用,而是人类维护成本太高。编程 agent 改变了这条维护成本曲线: 规则、测试、日志、记忆和补丁,现在可以组成一个持续演进的启发式系统,真正解决在线学习和持续学习长期难以攻克的问题。 这或许正是继预训练、RLHF、大规模 RL 之后的下一个范式。(Sam Gao)
+3
曾提及
|
APP下載
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

複製鏈接

|
APP下載
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

複製鏈接

脈絡

05月09日 03:20蚂蚁百灵发布万亿级旗舰思考模型Ring-2.6-1T
05月05日 14:58BTC UTXO模型下的无中心化托管演进
04月27日 04:45FloaClaw已正式上线,AI能力全面升级
04月25日 17:01Anthropic的Mythos模型重塑DeFi安全
04月25日 06:32Neuralink脑机接口技术实现意念控制机械臂
04月23日 20:30ChatGPT for Clinicians专为节省医生时间而设计
04月16日 06:30AI正在重塑一切,与HTX Genesis共同构建未来

熱門快訊

|
APP下載
Windows
Mac
分享至:

X

Telegram

Facebook

Reddit

複製鏈接

APP下載
Windows
Mac

X

Telegram

Facebook

Reddit

複製鏈接

熱門閱讀