一张试卷,看穿AI化学功底

四季读书网 2026-06-07 00:36:54 2 0

一张试卷,看穿AI化学功底

过去两年，多模态大模型在化学领域的应用越来越密集。从分子设计、反应预测到合成规划，各类Benchmark成绩不断刷新。但这些任务大多建立在SMILES、SELFIES或分子图等结构化输入之上，而真实科研场景中的化学信息往往散落在论文的反应式、图表和正文之中。

对于研究者而言，阅读一篇JACS或Angew论文是一种跨模态的信息整合过程；对于AI而言，这可能比识别单个分子困难得多。近期，深势科技联合上交、清华、北大等多所高校团队，在JCIM发表RxnBench对此进行了系统评测。研究团队利用1525道单图问题和540道全文档问题测试了41个主流多模态模型，结果显示：单图任务中最佳模型准确率达到96.23%，而到了全文任务，没有任何模型能够突破50%。

一张试卷,看穿AI化学功底-第1张图片-四季读书网

图1：RxnBench双层级评测框架

论文来源：https://doi.org/10.1021/acs.jcim.6c00286

全文总览

一张反应图，AI已经学会了什么？

RxnBench首先设计了SF-QA（Single-Figure QA）任务，专门考察模型对单张反应图的理解能力。题目覆盖事实提取、试剂角色判断、机理理解、对比推理、全局理解和结构识别六类能力，并通过引入E/Z异构体、区域异构体和对映异构体等“硬负例”，避免模型依靠排除法猜测答案。

在这一任务中，多模态模型表现相当出色。Gemini-3-Flash-preview取得了96.23%的平均准确率，开源模型Qwen3-VL-235B-Think也达到91.77%。如果只看总成绩，很容易得出一个结论：AI已经能够阅读化学文献。但当作者进一步拆解不同题型后，一个明显的能力断层开始出现。

图2：SF-QA数据构建流程

AI不是文盲，而是“视盲”

把六类任务拆开分析后，当前模型的能力边界变得十分清晰。

（1）事实提取：接近满分

对于催化剂、温度、收率等直接标注在反应图中的信息，头部模型准确率普遍超过94%，Gemini-3-Pro-preview达到96.48%。只要答案明确写在图中，模型通常能够稳定识别。

（2）机理推理：Think模式带来真实增益

以Qwen3-VL系列为例，不开启Think时总成绩为85.84%，开启后提升至91.77%。增益主要集中在反应路径分析和过程推导任务中，说明推理链能够帮助模型更好地组织已有信息。

（3）结构识别：全员掉队

真正的问题出现在结构识别任务。Gemini-3-Pro-preview的准确率下降到74.63%，GPT-4o仅有52.24%。

模型能够准确识别“Pd(PPh₃)₄”这样的催化剂名称，却未必能够判断一个手性中心究竟是R构型还是S构型；能够读出“95% ee”，却不一定理解这种立体选择性对应的结构差异。

更重要的是，Think模式几乎无法改善结构识别成绩。同一组模型在机理推理任务上获得明显提升，在结构识别任务上却原地踏步。简单来说就是：推理能补“不理解”的缺，却补不了“看不清”的缺。

图3：不同题型表现对比

为什么一读整篇论文就崩了？

如果说SF-QA考察的是“看图能力”，那么FD-QA（Full-Document QA）考察的则是“科研阅读能力”。结果非常直接：单图任务中最佳模型准确率达到96.23%，而到了全文任务，表现最好的模型也只有约46%。

问题显然不只是论文变长了。在真实科研场景中，一个问题的答案往往分散在多个位置。对于研究人员而言，这些信息会被自然整合；对于模型而言，则需要额外完成多个步骤，任何一个环节出现偏差，最终答案都可能出错：

定位相关信息；
关联文本、图片和表格；
确认不同页面中的结构是否一致；
整合证据并完成推理。

作者进一步比较了上下文推理（Context Reasoning）和结构推理（Structure Reasoning）的表现。以Gemini-2.5-Pro为例：

上下文推理准确率：56.82%
结构推理准确率：36.52%

这一趋势几乎出现在所有参测模型中。模型已经能够完成一定程度的信息检索和整合，却仍然难以完成真正依赖分子结构的推导。从96%到46%，失去的并不是阅读能力，而是结构理解能力。

图4：FD-QA上下文推理与结构推理对比

RxnBench真正测出了什么？

很多Benchmark关注的是模型排名，而RxnBench更重要的价值在于画出了一张能力地图。

从结果来看，当前多模态模型已经形成了比较清晰的三层结构：

第一层：文本信息提取

实验条件、催化剂和收率识别已经接近实用水平。

第二层：机理推理

推理模型正在快速缩小与专业研究者之间的差距。

第三层：结构理解

结构视觉识别和结构推理仍然是统一短板，也是全文理解能力难以继续提升的主要原因。

对于AI制药领域而言，这个结论可能比排行榜更有价值。它告诉我们：现阶段模型最可靠的是信息整理和文献阅读，而涉及结构判断和复杂化学推导的环节，仍然需要研究人员保持谨慎。

总结

如果把化学文献理解拆成“读文字、做推理、看结构”三个层次，那么今天的大模型已经基本跨过了前两关，却仍然卡在第三关。RxnBench最大的价值，不是重新排了一次模型名次，而是把这条能力边界画得足够清楚：AI已经学会阅读化学信息，但距离像化学家一样理解结构，仍然还有一段距离。

知识点睛

什么是什么是SF-QA（Single-Figure QA）？

A: SF-QA是RxnBench设计的单图问答任务，专门评估模型对单张化学反应图的理解能力。题目覆盖事实提取、试剂角色判断、机理分析、对比推理和结构识别等多个层面，要求模型仅依据一张Reaction Scheme完成作答。它更接近研究者“看图读结果”的场景，因此主要考察模型的信息提取和局部推理能力。本研究中最佳模型在SF-QA上的准确率达到96.23%。

什么是FD-QA（Full-Document QA）？

A:FD-QA是RxnBench构建的全文档问答任务，要求模型基于完整PDF论文回答问题。与SF-QA不同，答案往往分散在正文、反应式和表格等多个位置，模型不仅需要定位信息，还要完成跨模态关联和逻辑整合。它更接近真实科研阅读场景，因此被认为是衡量化学文献理解能力的重要指标。本研究中所有模型在FD-QA上的表现均明显低于SF-QA。

什么是对抗性编辑（Adversarial Curation）？

A:对抗性编辑是一种数据集构建策略，其核心思想不是随机生成错误选项，而是刻意设计“看起来合理”的干扰项。例如同时提供E/Z异构体、区域异构体或对映异构体作为候选答案，使模型无法依靠表面特征排除错误选项。这种设计能够更真实地评估模型是否真正理解化学结构，而不仅仅是在进行模式匹配，因此已成为高质量化学Benchmark的重要构建方法。

什么是推理时思考（Inference-time Reasoning）？

A:推理时思考是指模型在生成最终答案之前，先构建中间推理过程，再完成作答的机制，也常被称为Think模式或Reasoning模式。其作用类似于研究者在草稿纸上先推导再写出结论。RxnBench数据显示，该机制能够显著提升机理分析和过程推理能力，但对结构识别帮助有限。这说明当前模型的主要瓶颈并非完全来自推理能力，而更多来自化学结构视觉理解能力本身。

获取医药·AI前沿资讯

公众号：PharmaX

本文地址： https://sjds.net/735342.html

文章来源：四季读书网