写点什么

百川开源医疗增强大模型 Baichuan-M2:更符合中国临床诊疗场景,可 4090 单卡部署

  • 2025-08-11
    北京
  • 本文字数:2716 字

    阅读完需:约 9 分钟

大小:1.34M时长:07:47
百川开源医疗增强大模型Baichuan-M2:更符合中国临床诊疗场景,可4090单卡部署

OpenAI 于 8 月 6 日开源两款大模型,主打部署成本超低和医疗能力最强。仅仅 5 天后,百川智能发布并开源了医疗增强大模型 Baichuan-M2,以更小尺寸模型并实现医疗能力反超。

 

M2 Model: https://huggingface.co/baichuan-inc/Baichuan-M2-32B

M2 GPTQ-4bit: https://huggingface.co/baichuan-inc/Baichuan-M2-32B-GPTQ-Int4

Huawei Ascend 8bit: https://modelers.cn/models/Baichuan/Baichuan-M2-32B-W8A8

 

今年 1 月,百川在行业内首发“AI 患者模拟器”,用真实数据构造上万个不同年龄性别症状的 AI 患者,模拟了数百万次诊疗过程,基于该范式开源的 Baichuan-M1,为行业首个医疗增强模型。7 个月后,百川升级患者模拟器并引入模型端到端强化学习,训练的 Baichuan-M2 在 HealthBench 等评测上取得更大突破。

 

Baichuan-M2 在 HealthBench 上得到 60.1 的高分,以 32B 的较小尺寸不仅反超 OpenAI 最新开源模型 gpt-oss120b(得分 57.6),更是力压 Qwen3-235B、Deepseek R1、Kimi K2 等开源大模型。

 


针对医疗领域用户隐私考虑下的模型私有化部署需求,百川智能对 Baichuan-M2 进行了极致轻量化,量化后的模型精度接近无损,可以在 RTX4090 上单卡部署,相比 DeepSeek-R1 H20 双节点部署的方式,成本降低了 57 倍。针对国产主流芯片的开发和适配,多数医疗机构可利用现有硬件条件既可实现快速部署。


 

此外,面向急诊、门诊等对于交互速度要求更高的场景,基于 Eagle-3 架构优化的 Baichuan-M2 MTP 版本在单用户场景下实现了 74.9%的 token 速度跃升。


 

据介绍,头部大模型企业主要用数学和代码数据进行强化学习,百川是首个将医疗数据用作强化学习的中国团队,同时也验证了高质量医疗数据对于模型通用能力的增长具有较高价值。通用能力方面,M2 模型在数学、指令遵循、写作等通用核心性能上不降反升。

 

值得注意的是,HealthBench 医疗健康评测集是今年 5 月 OpenAI 发布的,研究团队招募了 262 位医生,来自 60 个国家、涉及 26 个医学专科、精通 49 种语言,他们生产了 48562 条评价标准,其中 86%是实例特定标准(针对单个对话由医生撰写),14%是共识标准。OpenAI 从 HealthBench 整体数据中选出 1000 个特别困难的复杂问题作为 Hard 子集,用于验证模型多维度、全景化解决疑难复杂医学问题的能力。

 

医疗方向越来越受到重视。OpenAI 自 2024 年下半年起将医疗作为模型能力提升的首要方向,投入大量人力、算力和精力。

 

开源 gpt-oss 系列模型过程中,OpenAI 首次将医疗作为第一重要的评测标准。GPT-5 发布时 OpenAI 特别强调,其是 HealthBench Hard 评测全球唯一超过 32 分的模型,发布时请到现场的唯一使用者是抗癌患者。Baichuan-M2 以 34.7 分成为全球第二款超过 32 分的模型。


 

尽管真实医疗场景中还存在大量 HealthBench Hard 评测尚未包含的因素,但至少已经证明在多数医疗场景上的问答质量,GPT-5 和 Baichuan-M2 已经超越资深医生,特别是在知识更新速度和全面性上,可以给人类医生强大支持。相比 GPT-5,Baichuan-M2 免费开源。

 

AI 患者模拟器“立功”

 

据介绍,百川技术团队在大型验证系统(Large Verifier System)、端到端强化学习、AI 患者模拟器、多类型医疗数据用于深度推理等 4 个方面的创新探索,是 Baichuan-M2 模型取得飞跃式进步的关键。

 

过去一年,可验证奖励强化学习(RLVR)方法被头部大模型企业广泛使用,在数学、代码领域显著提升了模型性能。百川技术团队在这一过程中认识到,提高复杂现实问题的可验证性是进一步提升模型性能的关键。由此,他们构建了大型验证系统,在通用验证器之外还设计了一套全面的医学验证系统。

 

如果将未经过医疗强化学习的大模型比作一位医学实习生,这个系统则像一个要求极高、异常挑剔的医疗专家。它会从医疗正确性、完备性、安全性以及对患者的友好性等多个维度,细致地评估模型的输出,指出其不足并引导模型改正,使其思维方式更贴近专业医生。

 

在这个强大验证系统的基础上,团队采用多阶段强化学习策略(Multi- Stage RL),将复杂的强化学习任务分解为几个易于管理的、分层的训练阶段,逐步引导模型能力演变。

 

人类医生在听取患者描述病情时,很容易分辨患者描述中的逻辑漏洞、从含混不清的表达中辨别出真实病因。现实中患者几乎无法全面准确表达自己的症状,仅基于静态的病例、指南等医疗数据训练,模型无法掌握人类医生的这一能力。为了突破这一瓶颈,百川技术团队升级迭代了今年初首创的 AI 患者模拟器。这个模型器是使用真实病例构建的 AI 系统,能够模拟千差万别的患者、症状、表达,特别是包含错误噪声的表达,最大程度还原了真实医疗场景。



在强化学习的多轮对话中,AI 患者与 AI 医生快速生成数百万条贴近真实的交互信息,验证器充当裁判实时打分评估,根据打分结果模型策略动态优化,形成了一个具有规模化可监督信号的训练闭环,让训练过程与效果如“飞轮”般效率倍增。

 

百川智能还构建了一个以天为频率更新的权威医学数据库,涵盖病例、论文、文献、指南、药学、生物学、合成数据等。为防止综合能力退化,采用医学数据、通用数据、数学推理数据 2:2:1 的比例,并引入领域自我约束训练机制,确保模型是一个具有通识、推理等综合能力的高水平医生,避免成为只会医学知识考试的高分低能者。

 

更多技术创新点详见:https://www.baichuan-ai.com/blog/baichuan-M2

 

更符合中国临床诊疗场景

 

医疗大模型能否将全球医学知识、医学证据转化为符合本地优势特长的临床决策,也是为医生和患者提供切实服务能力的关键,百川从中国医学指南对齐、医疗政策适配和患者需求洞察等多个维度进行了深度优化。

 

官方表示,在中国临床诊疗场景的问题评测中,对比 gpt 系列模型,Baichuan-M2 展现出更明显的可用性优势。

 

据悉,中外患者人群特点不同、医疗服务资源与优势有所差异。例如,对于肝细胞肝癌,中国以乙肝相关肝癌为主,西方更多是酒精或丙肝相关患者,不同类型患者的的手术风险不同;加上中国外科手术经验丰富、手术期管理成熟,因此,在同一疾病遇到多种治疗方案时,中西方指南对于优选哪种治疗方案存在差异。

 

在一个具体的真实案例中,针对 CNLC IIa 期(BCLC B 期)的肝细胞肝癌患者,Baichuan-M2 首推在具备手术条件的情况下进行解剖性肝右叶切除手术(或根据肿瘤具体位置,可考虑扩大右半肝切除、右三叶切除等),目标是 R0 切除。在国家卫健委最新发布的《原发性肝癌诊疗指南》(2024 版)中,肝切除术是潜在根治性治疗,可提供最佳的长期生存获益,Baichuan-M2 严格遵循这一方案。

 

同一病症 gpt-oss-120b 则建议首选经动脉化疗栓塞术(TACE),理由是符合 BCLCB 期治疗指南。


 

临床医学专家认为,类似的情况还有很多。仅就这个案例来说,手术切除或 TACE 都是可选方案,只是中西方指南不同,不是医学上的高下之分,而是基于本地患者特点、医疗资源与当前医学发展水平权衡之下的最优解。

 

2025-08-11 15:244673

评论

发布
暂无评论

程序员大佬怎么跳槽?

程序员干货站

Python 人工智能 程序员 后端

乞丐版英制单位转换

escray

学习 CSD 认证实战营

面试考试可用,十大排序算法

我不自豪谁志豪

学习 面试 算法

字节流(InputStream/OutputStream)

Howe

Java 工作流

Bash 的4种运行模式

Megatron7

bash Linux DevOps Shell

回"疫"录(8):我怀疑我病了

小天同学

疫情 心理 回忆录 现实纪录 纪实

如何在“写作平台”做一个读者

小天同学

思考 写作平台 建议 读者 阅读量

七大查找算法,面试考试皆可用

我不自豪谁志豪

Java 面试 算法

快捷考勤打卡设置

Megatron7

ios

python 之 「奶茶名字」的词云展示

小匚

Python python 爬虫 python教程

书籍推荐

蛤蟆先生

读书

Kubernetes 将迎来首个 LTS 版本

倪朋飞

Kubernetes 容器 微服务

有节制的设计

胖鱼2号

微信 设计 無印良品

maven私服搭建

kcnf

maven

pip 配置路径要死记硬背?

风起帆扬了

Python Linux windows pip

Flutter引擎源码解读-内存管理篇

Geek_70xtik

flutter ios android 跨平台 dart

我们有来生吗?

Janenesome

读书 碎碎念 猎奇

一次生产事故导致系统崩溃的原因排查过程

hellocj

取舍与可测试

孙苏勇

产品 产品设计 产品开发

理解 KL 散度的近似

Neil

人工智能 学习 Deep learning Machine Learning

Redis学习笔记(字符串类型)

编程随想曲

redis

一次线上服务高 CPU 占用优化实践

挖坑的张师傅

性能优化 JVM cpu

利用goaccess分析nginx日志

Megatron7

nginx Linux

《零基础学Java》 FAQ 之 1-HelloWorld程序发生了ClassNotFound错误怎么解决

臧萌

Java Hello World !

《零基础学Java》 FAQ 之 2-Java版本那点事儿

臧萌

Java

Graylog部署文档

勤而行之

Linux 开源 工具 日志分析

JAVA 程序展示时间与数据表保存的时间相差了 13 个小时!

我不自豪谁志豪

MySQL 学习 后端

聊聊我的程序员下属

程序员干货站

Python 人工智能 程序员 程序人生

低代码是什么鬼

Jeff Kit

低代码 全栈 开发

Java并发编程基础--volatile

Java收录阁

volatile 线程

1分钟系列-Elastic Stack(ELK)简介

Yezhiwei

Logstash Kibana ELK

百川开源医疗增强大模型Baichuan-M2:更符合中国临床诊疗场景,可4090单卡部署_AI&大模型_褚杏娟_InfoQ精选文章