不刷真题,在虚拟沙盒里"玩"出来的AI,竟然比刷题选手考得更好

四季读书网 1 0
不刷真题,在虚拟沙盒里"玩"出来的AI,竟然比刷题选手考得更好

你可能听过一种说法:做题百遍,其义自见。

这话搁在人类身上还算靠谱。但如果告诉你,有一个AI从来没见过一道真正的物理竞赛题,只在一个虚拟的物理沙盘里"玩"了一阵——滑轮、斜面、弹簧、碰撞——然后直接去考国际物理奥林匹克竞赛(IPhO),成绩反而比那些拿真题喂出来的模型高出一截?

这事儿真的发生了。

📄 论文来源标题: Solving Physics Olympiad via Reinforcement Learning on Physics Simulators

作者/机构: Mihir Prabhudesai、Aryan Satpathy 等 / 卡内基梅隆大学(CMU)& Lambda

发表时间: 2026年4月13日

原文摘要: "We show that physics simulators can serve as a powerful alternative source of supervision for training LLMs for physical reasoning. Models exhibit zero-shot sim-to-real transfer: training solely on synthetic simulated data improves IPhO performance by 5-10 percentage points."

真题不够用,AI学物理卡在哪了?

过去一年,大语言模型(LLM)的推理能力突飞猛进。DeepSeek-R1出来的时候,大家觉得AI做数学题已经很像回事了。

但物理呢?差远了。

原因很直白:数学在互联网上有海量的题库和标准答案,模型可以疯狂"刷题"。物理不一样——高质量的物理问答数据少得可怜。DeepSeek-R1训练用的80万道题里,物理相关的不到1%。而且这些题分散在各个细分领域,既不成体系,质量也参差不齐。

想象一下,你要训练一个学生参加高考物理,手头只有零星几套模拟题,还不是同一个省份出的。这学生能考好才怪。

卡内基梅隆大学的团队换了一个思路:既然真题不够用——那我们自己"造"。

物理模拟器变身"出题机器"

他们的方案叫 Sim2Reason,核心想法异常简洁:把物理模拟器变成一台取之不竭的出题机器。

具体怎么做?分四步。

第一步,用一套专门设计的"领域特定语言"(DSL,你可以理解为一套搭积木的语法规则),在虚拟世界里随机搭建物理场景——这里放一个滑轮,那里挂一个弹簧,再来几个质量不同的方块。每次组合都不一样,排列组合下来能产生几百万种独特的物理系统。

第二步,扔进 MuJoCo——一个被机器人研究领域广泛使用的物理引擎——让它模拟运行,记录下每个物体在每个时刻的速度、加速度、力等数据。

第三步,自动生成问答题。比如:"3秒后方块A的速度是多少?""如果方块A在3秒后速度是5米/秒,那它的质量是多少?"甚至还有符号推导题。三种题型,分别考查正向推理、逆向推理和抽象推理。

第四步——也是最有意思的——过滤掉"偷懒题"。什么是偷懒题?就是那些看上去涉及多个物体的复杂互动,但实际上删掉几个物体也能蒙对答案的题。团队专门设计了一套"消融测试":把场景中的物体或连接一个个拿掉,如果答案不变,说明这道题太简单了,AI可能靠"抄近路"就答对了,不能算真本事。

这个过滤环节有多关键?不过滤的话,IPhO成绩从13.15%跌到7.14%——差了将近一倍。

从来没见过真题,却考得比"刷题选手"好

数据造好了,下一个问题:怎么教?

团队尝试了两条路。一条是SFT(监督微调)——用GPT-4这类强模型先把题做一遍,拿到标准解题过程,再让小模型去模仿。另一条是RLVR(基于可验证奖励的强化学习)——不给解题过程,只告诉模型"你的最终答案对不对",让它自己摸索出解题策略。

结果很有意思。

SFT在模拟器生成的题目上确实有提升,但一拿去考真正的IPhO——成绩反而下降了3.9%。模型学会了"答题的样子",却没学会"思考的方式"。这就好像学生只背了答题模板,换个问法就懵了。

RLVR则完全不同。模型在IPhO力学题上的准确率,从3B参数到32B参数的各个规模上都稳定提升了5到10个百分点。Qwen3-30B经过训练后,IPhO准确率达到了40%。

40%听起来不高?对比一下就知道了:用5000多道真实物理竞赛题训练出来的Prime P1模型,成绩是38.6%;用真实数学题训练的DAPO-32B和LIMO-32B,分别只有24.7%和25.5%。

一个从未见过任何真题的模型,靠"玩模拟器"就超过了所有拿真题训练的对手。

而且这种能力不是死记硬背——团队在JEE Advanced(印度顶级理工入学考试)上测试,成绩飙升了17.9个百分点;在涵盖不同难度等级的PHYSICS基准测试上,研究生级别的难题提升最为显著,达到5.6%。甚至连数学竞赛(AIME 2025和MATH 500)的成绩也跟着涨了——物理推理训练似乎顺带强化了AI的代数和多步推理能力。

模拟器教会了AI什么?

论文里有一个特别直观的对比。

一道改编自IPhO 2012的抛体运动题,问的是如何用初速度和重力加速度表示一条抛物线边界的参数。训练前的模型上来就假设发射角是45度——这是一个经典的"模板思维"错误,把"最远射程"的常见条件套到了完全不同的问题上。

训练后的模型呢?它先分析物理含义:最大高度对应竖直上抛,最大水平距离对应45度发射。然后分别求解,再代入边界方程验证。整个推理过程,更像一个真正理解物理的学生在做题。

还有一道JEE 2017的火箭逃逸速度题。训练前的模型犯了一个物理上很基础的错误:把太阳和地球的逃逸速度直接相加(11.2 + 54.78 = 65.98 km/s)。但逃逸速度涉及的是能量,不能简单相加——得用勾股定理算合速度。训练后的模型正确地使用了能量叠加方法,得出约42 km/s的答案。

这说明模拟器训练教给AI的不是物理公式本身,而是三种更底层的能力:准确的算术运算、正确的物理推理(把文字条件映射到方程和边界条件),以及合理的解题策略规划。

写在最后

Sim2Reason的故事揭示了一个令人兴奋的可能:我们未必需要海量的人工标注数据来教AI做科学推理。物理模拟器本身就是一本"无穷厚的习题集"——每一页都是全新的题目,每一个答案都有物理引擎担保正确。

当然,目前这套方案还集中在经典力学领域。电磁学、热力学、量子力学……更广阔的物理世界还等着被"模拟"。而且一个更深远的问题是:如果模拟器能教AI学物理,那化学呢?生物呢?所有能被计算机模拟的自然科学,是否都能用类似的思路突破数据瓶颈?

抱歉,评论功能暂时关闭!