50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

百川发布循证增强大模型 M2 Plus,幻觉率相比 DeepSeek 降低 3 倍

  • 2025-10-22
    北京
  • 本文字数:1976 字

    阅读完需:约 6 分钟

大小:1001.58K时长:05:41
百川发布循证增强大模型M2 Plus,幻觉率相比DeepSeek降低3倍

10 月 22 日,百川智能发布循证增强医疗大模型 Baichuan-M2 Plus,同步升级配套应用百小应并开放 API。这是百川自 8 月开源 Baichuan-M2 以来的又一次重要动作。评测显示,M2 Plus 的医疗幻觉率较通用大模型显著降低,相比 DeepSeek 低约 3 倍,优于美国最火医疗产品 OpenEvidence,可信度比肩资深临床医生水准。

首创六源循证推理范式

 

据悉,百川 M2 Plus 首创六源循证推理(EAR)范式,打造“医生版 ChatGPT”,让大模型技术在辅助临床诊疗场景迈过“敢用、可用”关键门槛,除中国医疗环境外,在美、日、英的医疗评测中均超过 OpenEvidence。


六源循证:打造完整知识体系

 

循证医学(Evidence-Based Medicine, EBM)作为现代医学知识体系的核心范式,是确保医疗决策可信的关键。

 

据悉,百川主动屏蔽了互联网的非专业信息来源,只使用权威来源的医学证据,规避通用大模型知识来源混杂导致的不符合循证医学范式问题。此外,百川在此基础上构建了从证据、到实践、再到真实世界反馈六层证据类型的知识体系:

 

  • 原始研究层:索引海量医学期刊论文 4000 余万篇,超过 PubMed 收录数量,涵盖基础与临床研究成果,是循证链条的起点。这层主要回答“事实是否存在”问题。

  • 证据综述层:整合系统评价和 Meta 分析等高等级证据,提供经过汇总的研究结论。这层主要回答“结论是否一致”。

  • 指南规范层:引入国际和国内权威机构发布的临床指南、专家共识和行业标准,确保回答符合最新规范。这层回答了“行业如何规范”问题。

  • 实践知识层:包含临床病例报道、一线专家经验和诊疗技巧等实用知识,贴近医疗实践场景。这层回答了“医生应如何决策”问题。

  • 公共健康教育层:汇集权威科普和公共卫生知识,如疾病预防宣教、健康指导等内容,服务大众健康教育;这层回答“患者应如何理解”问题。

  • 监管与真实世界层:涵盖药监部门公告、临床试验登记及大规模真实世界研究数据等信息,以反映最新的监管动态与人群研究结果;这层回答了“是否存在新风险”问题。


 

循证检索:从“找得到”跃升到“找得准”

 

传统的 RAG 检索往往追求“找得到”,而循证检索追求“找得准”。

 

M2 Plus 采用 PICO 框架(人群 Population、干预 Intervention、对照 Comparison、结局 Outcome)思维,将查询转化为结构化医学问题,并在六源数据库中进行分层匹配。

 

例如:当输入“老年 OSA 患者使用 CPAP 能否改善高血压?”时,系统优先在高等级证据(系统综述、RCT 元分析)中搜索,并自动辨识研究质量、样本量、置信区间与结局指标。

 

百川表示,这种方法克服了通用 RAG 的两大缺陷:一是缺乏医学语义理解(无法区分 CPAP 疗效与依从性分析);二是无法辨别文献可靠性(新闻与指南同权)。在此基础上,M2 Plus 能够三步精准锁定“铁证”。第一步,智能提问:自动将用户问题拆解成多个专业的 PICO 查询,进行“地毯式”证据搜索,兼顾精度与广度;第二步,精准锁定:通过自研的 Medical Contextual Retrieval 技术,完整保留文献的临床因果链,避免信息割裂;第三步,证据排序:内置“审稿人”模型,自动评估证据等级(如 RCT、Meta 分析),将最可信、最相关的“铁证”优先呈现。

 

循证推理:让模型“像医生一样思考”

 

在解决了医疗 AI 知识从哪来的问题后,“PICO 智能检索”解决了如何快速找到正确证据的问题,最关键的一步是如何确保 AI 在手握证据时,不会“自由发挥”、脱离事实胡乱回答。为此,百川智能在 M2 Plus 中引入“循证增强训练”机制。

 

首先,在训练中奖励“引用”,惩罚“臆测”,准确引用权威来源(如指南、文献)时会获得高分,一旦回答脱离了检索到的证据就会受到惩罚;其次,内置“证据评估器”,模型被训练得能够自动评估检索到的证据质量,优先采纳高可信度的信息(如 RCT、Meta 分析),并将其无缝嵌入到推理链中;最后,在输出关键结论时,会自动附上参考文献、指南出处等来源。



“达到与人类资深临床专家同等可信度”


百川智能表示,这种“循证驱动”的生成逻辑,让 M2 Plus 几乎杜绝了无中生有的内容。在多场景评测中,其综合幻觉率在所有大模型当中最低,相较 DeepSeek R1 最新版降低 3 倍,显著领先 OpenEvidence。不仅如此,在病史分析、诊断思路、治疗方案等真实复杂的核心医疗场景中,达到了与人类资深临床专家同等的可信度。


美国执业医师资格考试(USMLE)是评估临床知识和推理能力的黄金标准,即便是经验丰富的临床专家,要突破 90 分也极具挑战。在此项考试中,M2-Plus 取得了 97 分,远超人类考生平均水平,更与 GPT-5 的成绩持平。

 

在中国执业医师资格考试(NMLE)中,M2 Plus 取得了 568 分的“碾压级”成绩,在所有公开测试的主流大模型中位列第一,该考试及格线为 360 分。

 

目前,接入 M2 Plus 的百小应已在各大手机应用商店更新,成为"医生版 ChatGPT"。为方便电脑端使用,网页版(ying.ai)也同步上线。Baichuan-M2 Plus 也面向医院信息化部门、互联网医疗、大健康服务等各类泛医学机构,以及从事医疗 AI 行业的开发者,提供了标准化 API 接口。

2025-10-22 14:533

评论

发布
暂无评论

架构实战营第 4 期 -- 模块二作业

烈火干柴烛灭田边残月

架构实战营

当诗人遇到熟读2600亿中文参数的大模型

白洞计划

Helm 快速入门

xcbeyond

Helm 28天写作 12月日更

你不得不掌握的前端提交规范(git cz)

你好bk

JavaScript 前端 代码注释 代码规范 12月日更

Prometheus Exporter (二十二)Infiniband Exporter

耳东@Erdong

Prometheus 28天写作 exporter 12月日更 Infiniband

升级你的高手秘籍,在找到规律的同时,你需要把时间整个明白。

叶小鍵

中小型研发团队的一种考核思路

wood

团队管理 28天写作 研发考核

团队基建系列 - 组织知识传承 5 底层逻辑

搬砖的周狮傅

团队 团队成长

「如何从0到1实现一个基于vite的前端基础库👾」

速冻鱼

前端 Node 签约计划第二季 12月日更

hmily学习笔记

风翱

12月日更 Hmily

记录-最骄傲的事(3)

将军-技术演讲力教练

.NET内存管理必备知识

喵叔

28天写作 12月日更

解决:standard_init_linux.go:219: exec user process caused

liuzhen007

28天写作 12月日更

什么是网络安全?网络安全威胁存在哪些?

喀拉峻

网络安全

Eureka基础

李子捌

微服务 28天写作 12月日更

zookeeper的数据同步是如何完成的?

卢卡多多

zookeeper 28天写作 12月日更

9.《重学 JAVA》-- 控制语句(一)

杨鹏Geek

Java 25 周年 28天写作 12月日更

[Pulsar] Batch message的确认

Zike Yang

Apache Pulsar 12月日更

聊聊今天 log4j 的大瓜

Justin

漏洞 闲聊 28天写作

设计消息队列存储消息数据的 MySQL 表格

胡颖

我们一起,盘点 2021 十大技术领域的全部精彩

InfoQ写作社区官方

大数据 云原生 编程语言 话题讨论 2021年度技术盘点与展望

Spring AOP(二) 修饰者模式和JDK Proxy

程序员历小冰

spring Java、 28天写作 spring aop 12月日更

在线将JS/JavaScript-Object转JSON工具

入门小站

工具

想象与实践的过程

Nydia

设计电商秒杀系统

Rabbit

RPC学习笔记

风翱

RPC 12月日更

盘点2021:一年读完的50本书

石云升

书单 年终总结 28天写作 12月日更 盘点2021

Hoo虎符研究院 | 币海寻珠——2021年区块链投融大事记

区块链前沿News

区块链 虎符 Hoo虎符 Hoo 虎符交易所

JavaScript 中8 个最佳电子邮件库

devpoint

JavaScript nodejs 12月日更 email pop3

Volatile 原理(二)

悟空聊架构

volatile 28天写作 可见性 悟空聊架构 12月日更

Maven进阶(四):Maven 常用命令

No Silver Bullet

maven 12月日更

百川发布循证增强大模型M2 Plus,幻觉率相比DeepSeek降低3倍_AI&大模型_褚杏娟_InfoQ精选文章