基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

张开发

• 2026/4/19 11:52:14 • 15 分钟阅读

分享文章

来源专知本文约2500字建议阅读5分钟本综述阐明了医疗推理 LLMs 的当前能力与持续存在的差距。大语言模型LLMs在医疗考试类任务中展现出强劲性能激发了学术界与工业界对其部署于真实临床环境的广泛兴趣。然而临床决策本质上具有高安全性要求、上下文依赖性且需在动态演进的证据支持下进行。在这些复杂场景中大语言模型的可靠性并非仅取决于事实检索能力更取决于稳健的医疗推理能力。在本研究中我们对基于大语言模型的医疗推理进行了全面的综述。立足于临床推理的认知理论我们将医疗推理概念化为一个包含**溯因Abduction、演绎Deduction及归纳Induction**的迭代过程并将现有方法归纳为涵盖“基于训练”与“免训练”方式的七大技术路线。此外我们在统一的实验设置下对具有代表性的医疗推理模型进行了跨基准评估从而对现有方法的经验影响实现了更为系统化且具可比性的评价。为了更好地评估基于临床实证的推理能力我们推出了MR-Bench这是一个源自真实医院数据的基准测试集。在 MR-Bench 上的评估结果揭示了模型在考试级表现与真实临床决策任务准确率之间存在显著差距。总体而言本综述为现有的医疗推理方法、基准测试及评估实践提供了统一的视角并重点指出了当前模型性能与实际临床推理需求之间的关键缺口。代码地址https://github.com/RXH04-USTC/Medical-Reasoning-Survey关键词临床决策跨基准评估大语言模型医疗推理1 引言大语言模型LLMs的最新进展表明通用基座模型在标准化医疗考试中已能达到及格甚至接近专家的水平 [1,2,3]。在此基础上Med-PaLM 和 Med-PaLM 2 [4,5] 等领域专用医疗 LLMs 通过医疗特定数据微调与对齐进一步强化了这一能力在考试类基准测试benchmarks中表现优异。因此LLMs 正日益广泛地部署于各类医疗工作流包括电子病历摘要生成 [6]、自动化临床文档撰写 [7]、医患对话系统 [8] 以及初级临床决策支持 [9,10]。这些应用的广泛性与关键性不仅彰显了 LLMs 在医学领域的变革潜力也对其可靠性与安全性提出了更高要求。因此使 LLMs 在此类场景中安全有效地运行是临床部署面临的核心挑战直接关乎患者安全、临床责任归属以及医疗服务体系层面的信任 [11,12]。然而在静态且以考试为导向的评估中取得成功并不意味着能可靠地转化为现实世界的医学实践 [1,2]。临床决策本质上是动态且安全敏感的要求推理过程能够处理不完整且不断演进的证据、适应患者特定的上下文并与持续更新的临床指南及社会约束保持一致。针对这一差距实证研究表明LLM 在涉及多步推理 [13]、因果推断 [14] 或显式不确定性管理 [3,15] 的任务中性能会显著下降。在缺乏稳健医疗推理的情况下这些局限性表现为临床不安全行为包括幻觉出的临床细节、不当的泛化以及失准的置信度 [16,17]。因此强大的医疗推理能力对于缓解此类风险、实现安全可靠的临床部署至关重要。基于这一需求我们提出了一个规范化框架旨在指导 LLMs 医疗推理能力的发展。医疗推理是一个复杂的认知过程涉及为临床决策进行的迭代信息采集、假设生成与证据综合 [18]。假说-演绎模型Hypothetico-deductive model[19] 将推理过程规范化为“溯因性假设生成、演绎性测试和归纳性验证”的循环。借鉴这一视角我们将医疗推理划分为三个互补维度医疗溯因Medical Abduction即根据初始临床发现生成合理的鉴别诊断 [20]医疗演绎Medical Deduction即通过预测预期表现或选择判别性检查来评估这些假设 [21]以及医疗归纳Medical Induction即综合积累的证据以确定最可能的诊断 [22]。然而目前基于 LLM 的方法在多大程度上接近了这一理想化的推理过程尚不明确。尽管 LLM 医疗推理受到了越来越多的关注但现有技术及其评估仍处于碎片化状态。先前的研究 [23,24,25,26] 通常孤立地考察单一方法且依赖不同的基准测试和实验设置这使得评估不同方法之间性能提升的真实幅度和一致性变得十分困难 [27]。为了弥补这一空白我们对基于 LLM 的医疗推理进行了结构化综述。我们将现有方法系统地组织为七大技术路线并关键性地开展了全面的跨基准评估cross-benchmark evaluation以在统一且可复现的实验设置下量化其性能。通过在尽可能多的常用医疗基准上评估代表性方法我们旨在为当前技术究竟能带来多少提升提供一个更清晰、更具可比性的全貌。此外我们对现有基准进行了批判性分析并引入了两个更具挑战性、更贴近临床实证的基准以更好地探测现实世界的医疗推理。具体而言我们首先将现有方法分为两大范式基于训练的方法包括持续预训练 [28]、有监督微调 [29,30] 和强化学习 [31,32]以及免训练方法涵盖提示工程 [33]、测试时推理策略 [34,35]、检索增强生成 [36] 和智能体推理流水线 [37]。在方法论综述的基础上我们分析了广泛采用的基准测试并对代表性医疗推理模型进行了统一的跨基准评估从而实现跨方法、跨设置的系统性比较。此外我们进一步识别了流行基准测试的局限性。通过对 MedQA [38] 和 HealthBench [39] 等代表性基准的针对性分析我们发现考试类问答QA基准往往缺乏临床必需的上下文而基于判断器的开放式评估可能会引入受评价者影响的变数从而偏离现实临床决策的约束。为解决这些问题我们引入了MR-Bench这是一个源自真实医院数据的临床实证基准 [40,41]它将医疗推理具象化为具有安全敏感性的临床决策过程。实证结果显示即使是先进的基座模型在标准考试表现与真实临床任务准确率之间仍存在巨大差距这突显了开发更符合临床实践的评估方式的必要性。总之虽然 LLMs 在医疗知识基准上取得了令人印象深刻的进展但实现可靠且临床可用的医疗推理仍是一个开放性挑战。通过统一综述、跨基准评估以及临床实证基准的引入本综述阐明了医疗推理 LLMs 的当前能力与持续存在的差距。展望未来该领域的发展将需要向临床实证评估、主动及工具增强型推理以及可靠且具备安全意识的决策支持转变。我们希望本工作能提供一个结构化的基础引导未来研究开发出不仅强大而且可验证、可交互且符合医疗实践的医疗推理系统。关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU

更多文章

前端开发 2026/4/19 11:51:01

【机密计算×AGI】：Intel SGX与AMD SEV在千亿参数模型中的隐私守门人实测（独家性能衰减对照表）

第一章：AGI与数据隐私保护的平衡 2026奇点智能技术大会(https://ml-summit.org) 通用人工智能（AGI）系统在训练与推理过程中高度依赖海量、多源、细粒度的个人数据，而用户对数据主权、最小化收集与可解释性控制的需求正以前所未有…

从BJT到MOSFET：LDO内部功率管演变史及其对现代电路设计的影响在电源管理芯片的演进历程中，低压差线性稳压器（LDO）始终扮演着关键角色。这种看似简单的稳压电路，其核心功率调整管的技术变迁却深刻影响了整个电子行业的…

张开发

前端开发 2026/4/19 11:35:15

TsubakiTranslator：终极Galgame实时翻译解决方案完整指南

TsubakiTranslator：终极Galgame实时翻译解决方案完整指南【免费下载链接】TsubakiTranslator 一款Galgame文本翻译工具，支持Textractor/剪切板/OCR翻译项目地址: https://gitcode.com/gh_mirrors/ts/TsubakiTranslator 还在为日语Galgame的剧情…

张开发

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

最新文章

3步完成华硕路由器AdGuard Home安装：打造纯净家庭网络的终极方案

如何快速配置Unity模组框架：5步安装BepInEx完整指南

从零到一：用CH32V103和逐飞库搞定智能车循迹（附完整代码和避坑指南）

B站直播推流码获取终极方案：三步解锁专业直播自由

为什么选择智能EFI构建工具：3大技术突破完全解析

软件领域驱动设计管理化的领域建模

推荐文章

VisionMaster企业实操训练系列课程

Python实现基于DD驱动的键盘R键连发功能

如何实现SQL视图的灰度发布_版本兼容与双重定义方案

别再只靠复位了！Xilinx FIFO IP核清空的三种实战方法（附Verilog代码）

在Ubuntu 20.04上为MT7628开发板搭建OpenWrt编译环境（含64位系统避坑指南）

告别砖头！华大HC32F系列MCU IAP升级中的安全校验与故障恢复机制设计

相关文章

科研绘图不止Origin：聊聊OriginPro 2021与Python/Matlab的共存与选择

StructBERT在客服系统中的实战应用：智能情绪分析与工单分类

30元玩客云变身全能软路由：手把手教你用Docker部署AllinOne直播服务

FinalBurn Neo终极指南：开源街机模拟器的技术架构与实战应用

OpCore-Simplify终极指南：10分钟完成黑苹果配置的完整解决方案

Qwen3.5-9B成本优化实践：Spot实例调度+自动启停+GPU资源弹性伸缩

分享文章

更多文章

【机密计算×AGI】：Intel SGX与AMD SEV在千亿参数模型中的隐私守门人实测（独家性能衰减对照表）

保姆级教程：SSD202开发板从零到一，用TFTP网络刷写OpenWrt系统（含Ubuntu环境搭建）

钢铁工厂数字化转型全解析：从“铁疙瘩“到智慧工厂，这套方案值得每个工业人深读（PPT）

终极B站直播推流码获取方案：告别官方限制的专业直播工具

【PPT教程-2018】WRF-STILT 传输模型与足迹 Footprint 库基础教程

OneDrive彻底卸载终极指南：释放Windows 10系统资源的完整教程

ClawdBot进阶配置：Telegram频道对接、代理设置、高级参数调整

抖音批量下载器终极指南：免费获取高清无水印视频的完整教程

嵌入式开发必看：手把手教你读懂Hex文件里的地址与数据（附STM32实例）

Onvif + RTSP 双剑合璧：用Python同时控制摄像头和拉取视频流的完整方案

从BJT到MOSFET：LDO内部功率管演变史及其对现代电路设计的影响

TsubakiTranslator：终极Galgame实时翻译解决方案完整指南