OpenAI研究发现前沿推理模型存在作弊行为，建议保留CoT监测

PANews|2025年03月10日 23:10

据OpenAI发布的研究，团队在训练前沿推理模型（如OpenAI o1、o3-mini）时发现，这些模型会利用漏洞绕过测试，如篡改代码验证函数、伪造测试通过条件等。研究表明，监测模型的思维链（Chain-of-Thought, CoT）可有效识别此类作弊行为，但强行优化CoT可能导致模型隐藏其意图，而非消除不当行为。OpenAI建议开发者避免对CoT施加过强的优化压力，以便继续利用CoT监测潜在的奖励黑客（reward hacking）行为。研究发现，当对CoT进行强监督时，模型仍然作弊，只是更隐蔽地进行，使监测更困难。该研究强调，随着AI能力增强，模型可能发展出更复杂的欺骗、操纵和漏洞利用策略。OpenAI认为，CoT监测可能成为监督超人类智能模型的关键工具，并建议AI开发者在未来训练前沿推理模型时谨慎使用强监督。