过去两年,多模态大模型在化学领域的应用越来越密集。从分子设计、反应预测到合成规划,各类Benchmark成绩不断刷新。但这些任务大多建立在SMILES、SELFIES或分子图等结构化输入之上,而真实科研场景中的化学信息往往散落在论文的反应式、图表和正文之中。
对于研究者而言,阅读一篇JACS或Angew论文是一种跨模态的信息整合过程;对于AI而言,这可能比识别单个分子困难得多。近期,深势科技联合上交、清华、北大等多所高校团队,在JCIM发表RxnBench对此进行了系统评测。研究团队利用1525道单图问题和540道全文档问题测试了41个主流多模态模型,结果显示:单图任务中最佳模型准确率达到96.23%,而到了全文任务,没有任何模型能够突破50%。

图1:RxnBench双层级评测框架

论文来源:https://doi.org/10.1021/acs.jcim.6c00286

RxnBench首先设计了SF-QA(Single-Figure QA)任务,专门考察模型对单张反应图的理解能力。题目覆盖事实提取、试剂角色判断、机理理解、对比推理、全局理解和结构识别六类能力,并通过引入E/Z异构体、区域异构体和对映异构体等“硬负例”,避免模型依靠排除法猜测答案。
在这一任务中,多模态模型表现相当出色。Gemini-3-Flash-preview取得了96.23%的平均准确率,开源模型Qwen3-VL-235B-Think也达到91.77%。如果只看总成绩,很容易得出一个结论:AI已经能够阅读化学文献。但当作者进一步拆解不同题型后,一个明显的能力断层开始出现。

图2:SF-QA数据构建流程
把六类任务拆开分析后,当前模型的能力边界变得十分清晰。
(1)事实提取:接近满分
对于催化剂、温度、收率等直接标注在反应图中的信息,头部模型准确率普遍超过94%,Gemini-3-Pro-preview达到96.48%。只要答案明确写在图中,模型通常能够稳定识别。
(2)机理推理:Think模式带来真实增益
以Qwen3-VL系列为例,不开启Think时总成绩为85.84%,开启后提升至91.77%。增益主要集中在反应路径分析和过程推导任务中,说明推理链能够帮助模型更好地组织已有信息。
(3)结构识别:全员掉队
真正的问题出现在结构识别任务。Gemini-3-Pro-preview的准确率下降到74.63%,GPT-4o仅有52.24%。
模型能够准确识别“Pd(PPh₃)₄”这样的催化剂名称,却未必能够判断一个手性中心究竟是R构型还是S构型;能够读出“95% ee”,却不一定理解这种立体选择性对应的结构差异。
更重要的是,Think模式几乎无法改善结构识别成绩。同一组模型在机理推理任务上获得明显提升,在结构识别任务上却原地踏步。简单来说就是:推理能补“不理解”的缺,却补不了“看不清”的缺。

图3:不同题型表现对比
如果说SF-QA考察的是“看图能力”,那么FD-QA(Full-Document QA)考察的则是“科研阅读能力”。结果非常直接:单图任务中最佳模型准确率达到96.23%,而到了全文任务,表现最好的模型也只有约46%。
问题显然不只是论文变长了。在真实科研场景中,一个问题的答案往往分散在多个位置。对于研究人员而言,这些信息会被自然整合;对于模型而言,则需要额外完成多个步骤,任何一个环节出现偏差,最终答案都可能出错:
定位相关信息;
关联文本、图片和表格;
确认不同页面中的结构是否一致;
整合证据并完成推理。
作者进一步比较了上下文推理(Context Reasoning)和结构推理(Structure Reasoning)的表现。以Gemini-2.5-Pro为例:
上下文推理准确率:56.82%
结构推理准确率:36.52%
这一趋势几乎出现在所有参测模型中。模型已经能够完成一定程度的信息检索和整合,却仍然难以完成真正依赖分子结构的推导。从96%到46%,失去的并不是阅读能力,而是结构理解能力。

图4:FD-QA上下文推理与结构推理对比
很多Benchmark关注的是模型排名,而RxnBench更重要的价值在于画出了一张能力地图。
从结果来看,当前多模态模型已经形成了比较清晰的三层结构:
第一层:文本信息提取
实验条件、催化剂和收率识别已经接近实用水平。
第二层:机理推理
推理模型正在快速缩小与专业研究者之间的差距。
第三层:结构理解
结构视觉识别和结构推理仍然是统一短板,也是全文理解能力难以继续提升的主要原因。
对于AI制药领域而言,这个结论可能比排行榜更有价值。它告诉我们:现阶段模型最可靠的是信息整理和文献阅读,而涉及结构判断和复杂化学推导的环节,仍然需要研究人员保持谨慎。
如果把化学文献理解拆成“读文字、做推理、看结构”三个层次,那么今天的大模型已经基本跨过了前两关,却仍然卡在第三关。RxnBench最大的价值,不是重新排了一次模型名次,而是把这条能力边界画得足够清楚:AI已经学会阅读化学信息,但距离像化学家一样理解结构,仍然还有一段距离。

知识点睛
A: SF-QA是RxnBench设计的单图问答任务,专门评估模型对单张化学反应图的理解能力。题目覆盖事实提取、试剂角色判断、机理分析、对比推理和结构识别等多个层面,要求模型仅依据一张Reaction Scheme完成作答。它更接近研究者“看图读结果”的场景,因此主要考察模型的信息提取和局部推理能力。本研究中最佳模型在SF-QA上的准确率达到96.23%。
A:FD-QA是RxnBench构建的全文档问答任务,要求模型基于完整PDF论文回答问题。与SF-QA不同,答案往往分散在正文、反应式和表格等多个位置,模型不仅需要定位信息,还要完成跨模态关联和逻辑整合。它更接近真实科研阅读场景,因此被认为是衡量化学文献理解能力的重要指标。本研究中所有模型在FD-QA上的表现均明显低于SF-QA。
A:对抗性编辑是一种数据集构建策略,其核心思想不是随机生成错误选项,而是刻意设计“看起来合理”的干扰项。例如同时提供E/Z异构体、区域异构体或对映异构体作为候选答案,使模型无法依靠表面特征排除错误选项。这种设计能够更真实地评估模型是否真正理解化学结构,而不仅仅是在进行模式匹配,因此已成为高质量化学Benchmark的重要构建方法。
A:推理时思考是指模型在生成最终答案之前,先构建中间推理过程,再完成作答的机制,也常被称为Think模式或Reasoning模式。其作用类似于研究者在草稿纸上先推导再写出结论。RxnBench数据显示,该机制能够显著提升机理分析和过程推理能力,但对结构识别帮助有限。这说明当前模型的主要瓶颈并非完全来自推理能力,而更多来自化学结构视觉理解能力本身。
