医疗AI在试卷上满分,进了医院就废了——问题出在哪?

四季读书网 2026-03-16 10:31:02 19 0

给医疗AI做"驾驶模拟器"——《Nature Medicine》这篇文章说出了我憋了很久的话

上周刷到一篇刚发在 Nature Medicine上的文章，看完整个人有点激动，因为它把我在项目里遇到过的一个核心问题，用一个非常工程化的方式给讲清楚了。

文章标题叫《A clinical environment simulator for dynamic AI evaluation》，来自哈佛医学院、斯坦福等一帮人，3月12号刚发出来，涉及Google Research和Microsoft Research的作者也在列。够重量级。

先说问题是什么。

我在做儿童健康相关的AI项目时，有一个困扰了我很久的事：你训练出来的模型，在数据集上测试表现很好，真到了医院场景就开始出问题。不是说它不准，而是它根本就不知道当下是什么"状态"。

比如你问它：这个小孩现在要不要做一个进一步的影像检查？它给你一个答案，但这个答案是基于这个孩子一个人的情况得出来的，完全不考虑当时急诊室已经排了40个人，CT机就一台，技师快下班了。

在实际的临床里，这就是个很真实的问题，但大多数AI Benchmark根本就不测这个。

这篇文章的核心提案是什么

他们提出了一个叫 CES（Clinical Environment Simulator，临床环境模拟器） 的框架。

原文的核心描述是这样的：

"a framework that evaluates clinical LLMs within digital hospital environments where every decision dynamically alters future states"

（一个在数字医院环境中评估临床大模型的框架，其中每一个决策都会动态地改变未来的状态）

听起来有点像游戏引擎，或者——对搞AI的人来说——更像强化学习里的环境仿真。

本质上他们想做的事是：不要再用"试卷"来测医疗AI了，要给它造一个"模拟医院"，让它真的去"上班"，看它能不能撑住。

整个架构分两部分，他们叫做"双引擎并行仿真"（parallel simulation architecture）：

一个是 hospital engine，负责追踪床位、人员工作量、设备状态，这东西实时变化；另一个是patient engine，负责模拟病人的疾病进展和对治疗的响应，这个响应会根据AI的干预决策而改变。

两个引擎跑在一起，AI的每一步操作都会同时影响这两个状态。

为什么这个思路我觉得对

我认为很多人容易忽略的一点是：医疗决策从来不是单点的，它是有时序的，有资源约束的，而且上一步的错误会在若干小时后以一种你预想不到的方式爆发出来。

文章里举了一个很典型的场景——

假设急诊来了一个患者，AI建议做一套比较积极的检查流程，把当天的检查资源都消耗掉了。结果下午又来了一个更急的病人，设备排不上队，延误了关键时间窗口。

这个情况，传统的Benchmark根本测不出来，因为那些测试都是"把病历给你，你给我诊断"，没有时间、没有资源、没有后续状态。

原文说他们要评测三类能力，在国内大多数医疗AI产品里几乎没人考虑过：

第一类是时序推理（temporal reasoning under evolving constraints）——AI的延误决策会导致病人状况恶化，要测它有没有时间感；

第二类是资源感知决策（resource-aware decision-making）——对一个患者的激进方案可能耗尽整个系统的余量，要测它有没有系统意识；

第三类是运营韧性（operational resilience）——通过同时制造紧急事件和系统故障来测对抗条件下的表现，相当于给AI做"压力测试"。

对比国内的情况，说几句实话

国内这几年医疗AI的投入不少，很多大厂和创业公司都在做，但我观察下来，大多数产品在评估阶段用的还是静态数据集或者单轮问答的方式，做到多轮对话已经算不错了，做到真正的动态环境仿真——几乎没有。

这不是技术不行，是没有人往这个方向建基础设施。

CES这个框架如果真的实现出来，其实对国内医疗AI评测有个非常现实的意义：中国的医院，尤其是三甲医院，资源紧张程度远超大多数西方医院。一个AI在美国的场景里表现还不错，到了国内大医院日均门诊5000的环境下，那套逻辑很可能就撑不住。

所以CES这个"把AI扔进拥挤医院环境里测"的思路，对国内其实更有参考价值，不是更少。

文章用了一个类比，我觉得非常准

他们把这套系统类比为飞行模拟器（flight simulator）——飞行员在上真飞机之前，要在模拟器里飞够足够的小时数。医疗AI在进入真实临床之前，为什么不做同样的事？

这个类比说服了我。我在之前做儿科监测设备项目的时候，其实也有类似的想法，但一直没有找到一个足够工程化的表达方式。他们这篇文章帮我补上了这个缺口。

几点局限性，不能不说

这篇是Perspective类型的文章，也就是说——它目前还是一个框架提案，不是已经跑通的系统。引用这篇文章说"他们做了一个CES"是不准确的，他们做的是"他们提出了CES应该是什么样的"。

实现难度也不低。hospital engine要模拟真实医院的资源调度，本身就是个复杂系统建模问题；patient engine要能合理地模拟疾病对不同干预的响应，背后需要大量真实数据支撑，比如MIMIC-III/IV那类数据库的深度集成。

还有就是，这套框架目前没有开源实现，只是一个思想框架。不过光是把这个问题说清楚、提出来，已经有价值了。

最后说一点我比较在意的东西

医疗AI这个方向，我跟进了将近十年，见过太多"在论文里很厉害，在医院里没用"的案例。根本原因不是模型不准，是评估方式脱离真实场景太远。

CES这个框架如果能推进落地，哪怕只是部分实现，都是一个很有意义的基础设施。对于我们这些做AI落地的人来说，能有一个更接近真实的"靶场"，比做一百个benchmark更值钱。

我个人判断，这个方向在未来两三年内会有人真正去实现。国内有这个能力的机构也有，医疗数据积累其实不差，就看有没有人愿意去做这个"不太容易出论文"但真正有用的基础工作。

原文链接：https://www.nature.com/articles/s41591-026-04252-6

Published: Nature Medicine, March 12, 2026

本文地址： https://sjds.net/579497.html

文章来源：四季读书网