一张试卷,看穿AI化学功底

四季读书网 2 0
一张试卷,看穿AI化学功底

过去两年,多模态大模型在化学领域的应用越来越密集。从分子设计、反应预测到合成规划,各类Benchmark成绩不断刷新。但这些任务大多建立在SMILES、SELFIES或分子图等结构化输入之上,而真实科研场景中的化学信息往往散落在论文的反应式、图表和正文之中。

  对于研究者而言,阅读一篇JACS或Angew论文是一种跨模态的信息整合过程;对于AI而言,这可能比识别单个分子困难得多。近期,深势科技联合上交、清华、北大等多所高校团队,在JCIM发表RxnBench对此进行了系统评测。研究团队利用1525道单图问题和540道全文档问题测试了41个主流多模态模型,结果显示:单图任务中最佳模型准确率达到96.23%,而到了全文任务,没有任何模型能够突破50%

一张试卷,看穿AI化学功底-第1张图片-四季读书网

图1:RxnBench双层级评测框架

一张试卷,看穿AI化学功底-第2张图片-四季读书网

论文来源:https://doi.org/10.1021/acs.jcim.6c00286

全文总览
一张试卷,看穿AI化学功底-第3张图片-四季读书网
01
一张反应图,AI已经学会了什么?

RxnBench首先设计了SF-QA(Single-Figure QA)任务,专门考察模型对单张反应图的理解能力。题目覆盖事实提取、试剂角色判断、机理理解、对比推理、全局理解和结构识别六类能力,并通过引入E/Z异构体、区域异构体和对映异构体等“硬负例”,避免模型依靠排除法猜测答案。

  在这一任务中,多模态模型表现相当出色。Gemini-3-Flash-preview取得了96.23%的平均准确率,开源模型Qwen3-VL-235B-Think也达到91.77%如果只看总成绩,很容易得出一个结论:AI已经能够阅读化学文献。但当作者进一步拆解不同题型后,一个明显的能力断层开始出现。

一张试卷,看穿AI化学功底-第4张图片-四季读书网

图2:SF-QA数据构建流程

02
AI不是文盲,而是“视盲”

把六类任务拆开分析后,当前模型的能力边界变得十分清晰。 

(1)事实提取:接近满分

  对于催化剂、温度、收率等直接标注在反应图中的信息,头部模型准确率普遍超过94%,Gemini-3-Pro-preview达到96.48%。只要答案明确写在图中,模型通常能够稳定识别。

(2)机理推理:Think模式带来真实增益

  以Qwen3-VL系列为例,不开启Think时总成绩为85.84%,开启后提升至91.77%。增益主要集中在反应路径分析和过程推导任务中,说明推理链能够帮助模型更好地组织已有信息。

(3)结构识别:全员掉队

  真正的问题出现在结构识别任务。Gemini-3-Pro-preview的准确率下降到74.63%,GPT-4o仅有52.24%

  模型能够准确识别“Pd(PPh₃)₄”这样的催化剂名称,却未必能够判断一个手性中心究竟是R构型还是S构型;能够读出“95% ee”,却不一定理解这种立体选择性对应的结构差异。

  更重要的是,Think模式几乎无法改善结构识别成绩。同一组模型在机理推理任务上获得明显提升,在结构识别任务上却原地踏步。简单来说就是:推理能补“不理解”的缺,却补不了“看不清”的缺。

一张试卷,看穿AI化学功底-第5张图片-四季读书网

图3:不同题型表现对比

03
为什么一读整篇论文就崩了?

如果说SF-QA考察的是“看图能力”,那么FD-QA(Full-Document QA)考察的则是“科研阅读能力”。结果非常直接:单图任务中最佳模型准确率达到96.23%,而到了全文任务,表现最好的模型也只有约46%

  问题显然不只是论文变长了。在真实科研场景中,一个问题的答案往往分散在多个位置。对于研究人员而言,这些信息会被自然整合;对于模型而言,则需要额外完成多个步骤,任何一个环节出现偏差,最终答案都可能出错:

  • 定位相关信息;

  • 关联文本、图片和表格;

  • 确认不同页面中的结构是否一致;

  • 整合证据并完成推理。

  作者进一步比较了上下文推理(Context Reasoning)和结构推理(Structure Reasoning)的表现。以Gemini-2.5-Pro为例:

  • 上下文推理准确率:56.82%

  • 结构推理准确率:36.52%

  这一趋势几乎出现在所有参测模型中。模型已经能够完成一定程度的信息检索和整合,却仍然难以完成真正依赖分子结构的推导。从96%到46%,失去的并不是阅读能力,而是结构理解能力。

一张试卷,看穿AI化学功底-第6张图片-四季读书网

图4:FD-QA上下文推理与结构推理对比

04
RxnBench真正测出了什么?

很多Benchmark关注的是模型排名,而RxnBench更重要的价值在于画出了一张能力地图。

  从结果来看,当前多模态模型已经形成了比较清晰的三层结构:

第一层:文本信息提取

实验条件、催化剂和收率识别已经接近实用水平。

第二层:机理推理

推理模型正在快速缩小与专业研究者之间的差距。

第三层:结构理解

结构视觉识别和结构推理仍然是统一短板,也是全文理解能力难以继续提升的主要原因。

  对于AI制药领域而言,这个结论可能比排行榜更有价值。它告诉我们:现阶段模型最可靠的是信息整理和文献阅读,而涉及结构判断复杂化学推导的环节,仍然需要研究人员保持谨慎。

05
总结

如果把化学文献理解拆成“读文字、做推理、看结构”三个层次,那么今天的大模型已经基本跨过了前两关,却仍然卡在第三关。RxnBench最大的价值,不是重新排了一次模型名次,而是把这条能力边界画得足够清楚:AI已经学会阅读化学信息,但距离像化学家一样理解结构,仍然还有一段距离。

一张试卷,看穿AI化学功底-第7张图片-四季读书网

知识点睛

Q
什么是什么是SF-QA(Single-Figure QA)?

A: SF-QA是RxnBench设计的单图问答任务,专门评估模型对单张化学反应图的理解能力。题目覆盖事实提取、试剂角色判断、机理分析、对比推理和结构识别等多个层面,要求模型仅依据一张Reaction Scheme完成作答。它更接近研究者“看图读结果”的场景,因此主要考察模型的信息提取和局部推理能力。本研究中最佳模型在SF-QA上的准确率达到96.23%。

Q
什么是FD-QA(Full-Document QA)?

A:FD-QA是RxnBench构建的全文档问答任务,要求模型基于完整PDF论文回答问题。与SF-QA不同,答案往往分散在正文、反应式和表格等多个位置,模型不仅需要定位信息,还要完成跨模态关联和逻辑整合。它更接近真实科研阅读场景,因此被认为是衡量化学文献理解能力的重要指标。本研究中所有模型在FD-QA上的表现均明显低于SF-QA。

Q
什么是对抗性编辑(Adversarial Curation)?

A:对抗性编辑是一种数据集构建策略,其核心思想不是随机生成错误选项,而是刻意设计“看起来合理”的干扰项。例如同时提供E/Z异构体、区域异构体或对映异构体作为候选答案,使模型无法依靠表面特征排除错误选项。这种设计能够更真实地评估模型是否真正理解化学结构,而不仅仅是在进行模式匹配,因此已成为高质量化学Benchmark的重要构建方法。

Q
什么是推理时思考(Inference-time Reasoning)?

A:推理时思考是指模型在生成最终答案之前,先构建中间推理过程,再完成作答的机制,也常被称为Think模式或Reasoning模式。其作用类似于研究者在草稿纸上先推导再写出结论。RxnBench数据显示,该机制能够显著提升机理分析和过程推理能力,但对结构识别帮助有限。这说明当前模型的主要瓶颈并非完全来自推理能力,而更多来自化学结构视觉理解能力本身。

一张试卷,看穿AI化学功底-第8张图片-四季读书网
获取医药·AI前沿资讯
公众号:PharmaX

抱歉,评论功能暂时关闭!