不刷真题,在虚拟沙盒里＂玩＂出来的AI,竟然比刷题选手考得更好

四季读书网 2026-04-16 09:56:25 7 0

你可能听过一种说法：做题百遍，其义自见。

这话搁在人类身上还算靠谱。但如果告诉你，有一个AI从来没见过一道真正的物理竞赛题，只在一个虚拟的物理沙盘里"玩"了一阵——滑轮、斜面、弹簧、碰撞——然后直接去考国际物理奥林匹克竞赛（IPhO），成绩反而比那些拿真题喂出来的模型高出一截？

这事儿真的发生了。

📄 论文来源标题： Solving Physics Olympiad via Reinforcement Learning on Physics Simulators
作者/机构： Mihir Prabhudesai、Aryan Satpathy 等 / 卡内基梅隆大学（CMU）& Lambda
发表时间： 2026年4月13日
原文摘要： "We show that physics simulators can serve as a powerful alternative source of supervision for training LLMs for physical reasoning. Models exhibit zero-shot sim-to-real transfer: training solely on synthetic simulated data improves IPhO performance by 5-10 percentage points."

真题不够用，AI学物理卡在哪了？

过去一年，大语言模型（LLM）的推理能力突飞猛进。DeepSeek-R1出来的时候，大家觉得AI做数学题已经很像回事了。

但物理呢？差远了。

原因很直白：数学在互联网上有海量的题库和标准答案，模型可以疯狂"刷题"。物理不一样——高质量的物理问答数据少得可怜。DeepSeek-R1训练用的80万道题里，物理相关的不到1%。而且这些题分散在各个细分领域，既不成体系，质量也参差不齐。

想象一下，你要训练一个学生参加高考物理，手头只有零星几套模拟题，还不是同一个省份出的。这学生能考好才怪。

卡内基梅隆大学的团队换了一个思路：既然真题不够用——那我们自己"造"。

物理模拟器变身"出题机器"

他们的方案叫 Sim2Reason，核心想法异常简洁：把物理模拟器变成一台取之不竭的出题机器。

具体怎么做？分四步。

第一步，用一套专门设计的"领域特定语言"（DSL，你可以理解为一套搭积木的语法规则），在虚拟世界里随机搭建物理场景——这里放一个滑轮，那里挂一个弹簧，再来几个质量不同的方块。每次组合都不一样，排列组合下来能产生几百万种独特的物理系统。

第二步，扔进 MuJoCo——一个被机器人研究领域广泛使用的物理引擎——让它模拟运行，记录下每个物体在每个时刻的速度、加速度、力等数据。

第三步，自动生成问答题。比如："3秒后方块A的速度是多少？""如果方块A在3秒后速度是5米/秒，那它的质量是多少？"甚至还有符号推导题。三种题型，分别考查正向推理、逆向推理和抽象推理。

第四步——也是最有意思的——过滤掉"偷懒题"。什么是偷懒题？就是那些看上去涉及多个物体的复杂互动，但实际上删掉几个物体也能蒙对答案的题。团队专门设计了一套"消融测试"：把场景中的物体或连接一个个拿掉，如果答案不变，说明这道题太简单了，AI可能靠"抄近路"就答对了，不能算真本事。

这个过滤环节有多关键？不过滤的话，IPhO成绩从13.15%跌到7.14%——差了将近一倍。

从来没见过真题，却考得比"刷题选手"好

数据造好了，下一个问题：怎么教？

团队尝试了两条路。一条是SFT（监督微调）——用GPT-4这类强模型先把题做一遍，拿到标准解题过程，再让小模型去模仿。另一条是RLVR（基于可验证奖励的强化学习）——不给解题过程，只告诉模型"你的最终答案对不对"，让它自己摸索出解题策略。

结果很有意思。

SFT在模拟器生成的题目上确实有提升，但一拿去考真正的IPhO——成绩反而下降了3.9%。模型学会了"答题的样子"，却没学会"思考的方式"。这就好像学生只背了答题模板，换个问法就懵了。

RLVR则完全不同。模型在IPhO力学题上的准确率，从3B参数到32B参数的各个规模上都稳定提升了5到10个百分点。Qwen3-30B经过训练后，IPhO准确率达到了40%。

40%听起来不高？对比一下就知道了：用5000多道真实物理竞赛题训练出来的Prime P1模型，成绩是38.6%；用真实数学题训练的DAPO-32B和LIMO-32B，分别只有24.7%和25.5%。

一个从未见过任何真题的模型，靠"玩模拟器"就超过了所有拿真题训练的对手。

而且这种能力不是死记硬背——团队在JEE Advanced（印度顶级理工入学考试）上测试，成绩飙升了17.9个百分点；在涵盖不同难度等级的PHYSICS基准测试上，研究生级别的难题提升最为显著，达到5.6%。甚至连数学竞赛（AIME 2025和MATH 500）的成绩也跟着涨了——物理推理训练似乎顺带强化了AI的代数和多步推理能力。

模拟器教会了AI什么？

论文里有一个特别直观的对比。

一道改编自IPhO 2012的抛体运动题，问的是如何用初速度和重力加速度表示一条抛物线边界的参数。训练前的模型上来就假设发射角是45度——这是一个经典的"模板思维"错误，把"最远射程"的常见条件套到了完全不同的问题上。

训练后的模型呢？它先分析物理含义：最大高度对应竖直上抛，最大水平距离对应45度发射。然后分别求解，再代入边界方程验证。整个推理过程，更像一个真正理解物理的学生在做题。

还有一道JEE 2017的火箭逃逸速度题。训练前的模型犯了一个物理上很基础的错误：把太阳和地球的逃逸速度直接相加（11.2 + 54.78 = 65.98 km/s）。但逃逸速度涉及的是能量，不能简单相加——得用勾股定理算合速度。训练后的模型正确地使用了能量叠加方法，得出约42 km/s的答案。

这说明模拟器训练教给AI的不是物理公式本身，而是三种更底层的能力：准确的算术运算、正确的物理推理（把文字条件映射到方程和边界条件），以及合理的解题策略规划。

写在最后

Sim2Reason的故事揭示了一个令人兴奋的可能：我们未必需要海量的人工标注数据来教AI做科学推理。物理模拟器本身就是一本"无穷厚的习题集"——每一页都是全新的题目，每一个答案都有物理引擎担保正确。

当然，目前这套方案还集中在经典力学领域。电磁学、热力学、量子力学……更广阔的物理世界还等着被"模拟"。而且一个更深远的问题是：如果模拟器能教AI学物理，那化学呢？生物呢？所有能被计算机模拟的自然科学，是否都能用类似的思路突破数据瓶颈？

本文地址： https://sjds.net/635792.html

文章来源：四季读书网