大咖直播-鸿蒙原生开发与智能提效实战!>>> 了解详情
写点什么

百川发布循证增强大模型 M2 Plus,幻觉率相比 DeepSeek 降低 3 倍

  • 2025-10-22
    北京
  • 本文字数:1976 字

    阅读完需:约 6 分钟

大小:1001.58K时长:05:41
百川发布循证增强大模型M2 Plus,幻觉率相比DeepSeek降低3倍

10 月 22 日,百川智能发布循证增强医疗大模型 Baichuan-M2 Plus,同步升级配套应用百小应并开放 API。这是百川自 8 月开源 Baichuan-M2 以来的又一次重要动作。评测显示,M2 Plus 的医疗幻觉率较通用大模型显著降低,相比 DeepSeek 低约 3 倍,优于美国最火医疗产品 OpenEvidence,可信度比肩资深临床医生水准。

首创六源循证推理范式

 

据悉,百川 M2 Plus 首创六源循证推理(EAR)范式,打造“医生版 ChatGPT”,让大模型技术在辅助临床诊疗场景迈过“敢用、可用”关键门槛,除中国医疗环境外,在美、日、英的医疗评测中均超过 OpenEvidence。


六源循证:打造完整知识体系

 

循证医学(Evidence-Based Medicine, EBM)作为现代医学知识体系的核心范式,是确保医疗决策可信的关键。

 

据悉,百川主动屏蔽了互联网的非专业信息来源,只使用权威来源的医学证据,规避通用大模型知识来源混杂导致的不符合循证医学范式问题。此外,百川在此基础上构建了从证据、到实践、再到真实世界反馈六层证据类型的知识体系:

 

  • 原始研究层:索引海量医学期刊论文 4000 余万篇,超过 PubMed 收录数量,涵盖基础与临床研究成果,是循证链条的起点。这层主要回答“事实是否存在”问题。

  • 证据综述层:整合系统评价和 Meta 分析等高等级证据,提供经过汇总的研究结论。这层主要回答“结论是否一致”。

  • 指南规范层:引入国际和国内权威机构发布的临床指南、专家共识和行业标准,确保回答符合最新规范。这层回答了“行业如何规范”问题。

  • 实践知识层:包含临床病例报道、一线专家经验和诊疗技巧等实用知识,贴近医疗实践场景。这层回答了“医生应如何决策”问题。

  • 公共健康教育层:汇集权威科普和公共卫生知识,如疾病预防宣教、健康指导等内容,服务大众健康教育;这层回答“患者应如何理解”问题。

  • 监管与真实世界层:涵盖药监部门公告、临床试验登记及大规模真实世界研究数据等信息,以反映最新的监管动态与人群研究结果;这层回答了“是否存在新风险”问题。


 

循证检索:从“找得到”跃升到“找得准”

 

传统的 RAG 检索往往追求“找得到”,而循证检索追求“找得准”。

 

M2 Plus 采用 PICO 框架(人群 Population、干预 Intervention、对照 Comparison、结局 Outcome)思维,将查询转化为结构化医学问题,并在六源数据库中进行分层匹配。

 

例如:当输入“老年 OSA 患者使用 CPAP 能否改善高血压?”时,系统优先在高等级证据(系统综述、RCT 元分析)中搜索,并自动辨识研究质量、样本量、置信区间与结局指标。

 

百川表示,这种方法克服了通用 RAG 的两大缺陷:一是缺乏医学语义理解(无法区分 CPAP 疗效与依从性分析);二是无法辨别文献可靠性(新闻与指南同权)。在此基础上,M2 Plus 能够三步精准锁定“铁证”。第一步,智能提问:自动将用户问题拆解成多个专业的 PICO 查询,进行“地毯式”证据搜索,兼顾精度与广度;第二步,精准锁定:通过自研的 Medical Contextual Retrieval 技术,完整保留文献的临床因果链,避免信息割裂;第三步,证据排序:内置“审稿人”模型,自动评估证据等级(如 RCT、Meta 分析),将最可信、最相关的“铁证”优先呈现。

 

循证推理:让模型“像医生一样思考”

 

在解决了医疗 AI 知识从哪来的问题后,“PICO 智能检索”解决了如何快速找到正确证据的问题,最关键的一步是如何确保 AI 在手握证据时,不会“自由发挥”、脱离事实胡乱回答。为此,百川智能在 M2 Plus 中引入“循证增强训练”机制。

 

首先,在训练中奖励“引用”,惩罚“臆测”,准确引用权威来源(如指南、文献)时会获得高分,一旦回答脱离了检索到的证据就会受到惩罚;其次,内置“证据评估器”,模型被训练得能够自动评估检索到的证据质量,优先采纳高可信度的信息(如 RCT、Meta 分析),并将其无缝嵌入到推理链中;最后,在输出关键结论时,会自动附上参考文献、指南出处等来源。



“达到与人类资深临床专家同等可信度”


百川智能表示,这种“循证驱动”的生成逻辑,让 M2 Plus 几乎杜绝了无中生有的内容。在多场景评测中,其综合幻觉率在所有大模型当中最低,相较 DeepSeek R1 最新版降低 3 倍,显著领先 OpenEvidence。不仅如此,在病史分析、诊断思路、治疗方案等真实复杂的核心医疗场景中,达到了与人类资深临床专家同等的可信度。


美国执业医师资格考试(USMLE)是评估临床知识和推理能力的黄金标准,即便是经验丰富的临床专家,要突破 90 分也极具挑战。在此项考试中,M2-Plus 取得了 97 分,远超人类考生平均水平,更与 GPT-5 的成绩持平。

 

在中国执业医师资格考试(NMLE)中,M2 Plus 取得了 568 分的“碾压级”成绩,在所有公开测试的主流大模型中位列第一,该考试及格线为 360 分。

 

目前,接入 M2 Plus 的百小应已在各大手机应用商店更新,成为"医生版 ChatGPT"。为方便电脑端使用,网页版(ying.ai)也同步上线。Baichuan-M2 Plus 也面向医院信息化部门、互联网医疗、大健康服务等各类泛医学机构,以及从事医疗 AI 行业的开发者,提供了标准化 API 接口。

2025-10-22 14:534715

评论

发布
暂无评论

2023年知名国产数据库厂家汇总

行云管家

数据库 国产化 数据运维 数据安全运维 信创国产化

黄金眼PAAS化数据服务DIFF测试工具的建设实践 | 京东云技术团队

京东科技开发者

测试 PaaS 回归测试 企业号10月PK榜

AIGC立法和相关版权案例分享-“心寄源”法律沙龙(2023第五期 | 总第十期)成功召开

开放原子开源基金会

Mac移植版 Nebula街机模拟器最新汉化包

胖墩儿不胖y

mac游戏 游戏推荐

技术同学如何设计职业规划

老张

职业规划 职场成长 职场发展

从理论到实践,实时湖仓功能架构设计与落地实战

袋鼠云数栈

数据中台 数据仓库 数据湖 湖仓一体 实时湖仓

架构师日记-聊聊开发必掌握的那些实践技能 | 京东云技术团队

京东科技开发者

软件开发 代码注释 开发技能 企业号10月PK榜

活动回顾 | MatrixOne 在 SaaS 企服领域的应用解读

MatrixOrigin

数据库 分布式 HTAP MatrixOrigin MatrixOne

Node.js 21 版本已发布!

南城FE

JavaScript 前端 nodejs

「爱嗨游」发布会剧透|应用出海十大难题,全景方案一次解决

融云 RongCloud

产品 社交 泛娱乐 GenAI 爱嗨游

面试多起来了

王磊

Java

华为云GaussDB亮相金融业数据库技术大会

华为云开发者联盟

数据库 后端 华为云 资讯 华为云开发者联盟

倒计时 2 天!聚焦 Arm 性能提升,助力龙蜥生态落地应用

OpenAnolis小助手

开源 芯片 arm Meetup 龙蜥社区

第1期 | GPTSecurity周报

云起无垠

欢迎来到 GPTSecurity!共建知识库

云起无垠

GPTSecurity

精彩回顾|【ACDU 中国行·成都站】数据库主题交流活动成功举办!

墨天轮

MySQL 数据库 oracle postgresql zabbix

腾讯大数据 x StarRocks|构建新一代实时湖仓

StarRocks

大数据 腾讯 StarRocks 湖仓

Ask Milvus Anything!聊聊被社区反复@的那些事儿ⅠⅠ

Zilliz

Milvus Zilliz AIGC 向量数据库

九章云极DataCanvas多模态大模型平台实践与思考

九章云极DataCanvas

SOA认知和方法论 | 京东物流技术团队

京东科技开发者

架构 软件架构 SOA 企业号10月PK榜

低代码平台探讨-MetaStore元数据缓存 | 京东云技术团队

京东科技开发者

缓存 低代码 元数据 企业号10月PK榜

最全数据安全评估标准汇编,你应该需要!(附下载)

极盾科技

数据安全

深入剖析 API 安全防护的最佳实践策略

Apifox

程序员 API 接口安全 接口工具 API 安全

iPhone 15 拆机调查来了;小米澎湃 OS 彻底重写底层架构丨 RTE 开发者日报 Vol.69

声网

百川发布循证增强大模型M2 Plus,幻觉率相比DeepSeek降低3倍_AI&大模型_褚杏娟_InfoQ精选文章