OpenAI 新模型在国际数学奥林匹克竞赛中取得历史性突破

     分类 [Ai资讯]
2025/7/23 14:14:54 浏览量  16 喜欢  0
导读:据报道,一个尚未发布的 OpenAI 模型在竞赛条件下成功解决了六道国际数学奥林匹克(IMO)问题中的五道。

OpenAI 新模型在国际数学奥林匹克竞赛中取得历史性突破

据报道,一个尚未发布的 OpenAI 模型在竞赛条件下成功解决了六道国际数学奥林匹克(IMO)问题中的五道。然而,这个故事的意义不仅在于它解决了什么,更在于它是如何做到的。

OpenAI 表示,一个实验性语言模型在一次内部 IMO 风格测试中获得了 42 分中的 35 分,足以获得一枚金牌。三位前 IMO 获奖者独立对该模型的自然语言证明进行了评分,评分标准与人类参赛者的提交内容完全一致。据该公司称,测试模拟了真实的 IMO 规则:两场各四个半小时的比赛,没有互联网,没有外部工具或代码——只有文本。

OpenAI 声称该模型并非专门针对 IMO 任务进行训练。相反,它被开发为一个 通用推理模型,借鉴了强化学习的最新进展,并在推理过程中使用了大量的计算资源。研究员 Alexander Wei 在 X 上发帖强调,这不是一个针对特定任务的系统,而是一个能够自主生成复杂、多页证明的系统。有迹象表明它甚至可能是一个多智能体系统。

 

无工具的持续推理

 

这项成就之所以引人注目,是因为该模型在没有任何符号工具(如代码解释器或数学软件)的情况下,能够持续推理数小时。这使其有别于其他高性能系统,例如 DeepMind 的 AlphaProof,后者依赖于混合神经符号方法。

直到最近,人们普遍认为语言模型无法在长时间会话中保持持续的数学推理。就在今年 6 月,数学家 陶哲轩 在 Lex Fridman 播客上表示,IMO 级别的难题对于人工智能来说难以实时解决。Tao 提到了强化学习训练中耗时的人工验证长证明,他说:“你不可能雇佣足够的人来批改这些。”

这个结果出人意料,甚至连预测市场也感到惊讶,他们此前认为人工智能在 2025 年底前赢得 IMO 金牌的几率不到 20%(这些预测采用了更严格的标准)。市场和 陶哲轩 似乎都认为像 o3 这样的推理模型需要为 IMO 证明进行明确训练,并在每一步获得专家反馈。然而,OpenAI 似乎找到了一种更通用的方法来引发这种行为。OpenAI 研究员 Alexander Wei还强调,该模型并非针对这项任务量身定制,而是一个通用的推理系统。

OpenAI 研究员 Jerry Tworek 表示,这里使用的强化学习系统也帮助训练了 ChatGPT Agent 和最近在 AtCoder 的启发式世界总决赛中获得第二名的模型,该模型连续生成代码近十小时。

 

可扩展的推理方法?

 

在最近的一篇文章“o3 和 Grok 4 如何意外地证实了神经符号人工智能”中,文章认为现代人工智能模型越来越依赖于像代码解释器这样的符号工具来克服纯语言模型的局限性。

另一方面,OpenAI 的 IMO 系统完全以文本形式工作——没有工具——如果结果成立,这将是一个显著的例外。如果该模型的泛化能力得到证实,它可能会部分质疑 现在主流的的论点。尽管如此,他的主要批评依然存在:如果没有方法论的透明度,很难解释这些成就

目前,OpenAI 似乎已经构建了一个可以持续推理数小时的语言模型——而且无需任何外部工具。这在不久前是难以想象的。通用推理方法似乎可以扩展,至少目前如此。根据 OpenAI 的说法,下一步是持续数天的推理会话。

感谢阅读,您的分享和订阅是对我最大的鼓励和支持:
 

 

微信扫一扫,分享到朋友圈

微信公众号
 苹果iOS虚拟币充值(抖音钻石、快币、薯币、比心币、他趣币、陌陌币充值)

相关推荐