百川发布循证增强大模型M2 Plus，幻觉率相比DeepSeek降低3倍

10 月 22 日，百川智能发布循证增强医疗大模型 Baichuan-M2 Plus，同步升级配套应用百小应并开放 API。这是百川自 8 月开源 Baichuan-M2 以来的又一次重要动作。评测显示，M2 Plus 的医疗幻觉率较通用大模型显著降低，相比 DeepSeek 低约 3 倍，优于美国最火医疗产品 OpenEvidence，可信度比肩资深临床医生水准。

首创六源循证推理范式

据悉，百川 M2 Plus 首创六源循证推理（EAR）范式，打造“医生版 ChatGPT”，让大模型技术在辅助临床诊疗场景迈过“敢用、可用”关键门槛，除中国医疗环境外，在美、日、英的医疗评测中均超过 OpenEvidence。

六源循证：打造完整知识体系

循证医学（Evidence-Based Medicine, EBM）作为现代医学知识体系的核心范式，是确保医疗决策可信的关键。

据悉，百川主动屏蔽了互联网的非专业信息来源，只使用权威来源的医学证据，规避通用大模型知识来源混杂导致的不符合循证医学范式问题。此外，百川在此基础上构建了从证据、到实践、再到真实世界反馈六层证据类型的知识体系：

原始研究层：索引海量医学期刊论文 4000 余万篇，超过 PubMed 收录数量，涵盖基础与临床研究成果，是循证链条的起点。这层主要回答“事实是否存在”问题。
证据综述层：整合系统评价和 Meta 分析等高等级证据，提供经过汇总的研究结论。这层主要回答“结论是否一致”。
指南规范层：引入国际和国内权威机构发布的临床指南、专家共识和行业标准，确保回答符合最新规范。这层回答了“行业如何规范”问题。
实践知识层：包含临床病例报道、一线专家经验和诊疗技巧等实用知识，贴近医疗实践场景。这层回答了“医生应如何决策”问题。
公共健康教育层：汇集权威科普和公共卫生知识，如疾病预防宣教、健康指导等内容，服务大众健康教育；这层回答“患者应如何理解”问题。
监管与真实世界层：涵盖药监部门公告、临床试验登记及大规模真实世界研究数据等信息，以反映最新的监管动态与人群研究结果；这层回答了“是否存在新风险”问题。

循证检索：从“找得到”跃升到“找得准”

传统的 RAG 检索往往追求“找得到”，而循证检索追求“找得准”。

M2 Plus 采用 PICO 框架（人群 Population、干预 Intervention、对照 Comparison、结局 Outcome）思维，将查询转化为结构化医学问题，并在六源数据库中进行分层匹配。

例如：当输入“老年 OSA 患者使用 CPAP 能否改善高血压？”时，系统优先在高等级证据（系统综述、RCT 元分析）中搜索，并自动辨识研究质量、样本量、置信区间与结局指标。

百川表示，这种方法克服了通用 RAG 的两大缺陷：一是缺乏医学语义理解（无法区分 CPAP 疗效与依从性分析）；二是无法辨别文献可靠性（新闻与指南同权）。在此基础上，M2 Plus 能够三步精准锁定“铁证”。第一步，智能提问：自动将用户问题拆解成多个专业的 PICO 查询，进行“地毯式”证据搜索，兼顾精度与广度；第二步，精准锁定：通过自研的 Medical Contextual Retrieval 技术，完整保留文献的临床因果链，避免信息割裂；第三步，证据排序：内置“审稿人”模型，自动评估证据等级（如 RCT、Meta 分析），将最可信、最相关的“铁证”优先呈现。

循证推理：让模型“像医生一样思考”

在解决了医疗 AI 知识从哪来的问题后，“PICO 智能检索”解决了如何快速找到正确证据的问题，最关键的一步是如何确保 AI 在手握证据时，不会“自由发挥”、脱离事实胡乱回答。为此，百川智能在 M2 Plus 中引入“循证增强训练”机制。

首先，在训练中奖励“引用”，惩罚“臆测”，准确引用权威来源（如指南、文献）时会获得高分，一旦回答脱离了检索到的证据就会受到惩罚；其次，内置“证据评估器”，模型被训练得能够自动评估检索到的证据质量，优先采纳高可信度的信息（如 RCT、Meta 分析），并将其无缝嵌入到推理链中；最后，在输出关键结论时，会自动附上参考文献、指南出处等来源。

“达到与人类资深临床专家同等可信度”

百川智能表示，这种“循证驱动”的生成逻辑，让 M2 Plus 几乎杜绝了无中生有的内容。在多场景评测中，其综合幻觉率在所有大模型当中最低，相较 DeepSeek R1 最新版降低 3 倍，显著领先 OpenEvidence。不仅如此，在病史分析、诊断思路、治疗方案等真实复杂的核心医疗场景中，达到了与人类资深临床专家同等的可信度。

美国执业医师资格考试（USMLE）是评估临床知识和推理能力的黄金标准，即便是经验丰富的临床专家，要突破 90 分也极具挑战。在此项考试中，M2-Plus 取得了 97 分，远超人类考生平均水平，更与 GPT-5 的成绩持平。

在中国执业医师资格考试（NMLE）中，M2 Plus 取得了 568 分的“碾压级”成绩，在所有公开测试的主流大模型中位列第一，该考试及格线为 360 分。

目前，接入 M2 Plus 的百小应已在各大手机应用商店更新，成为"医生版 ChatGPT"。为方便电脑端使用，网页版（ying.ai）也同步上线。Baichuan-M2 Plus 也面向医院信息化部门、互联网医疗、大健康服务等各类泛医学机构，以及从事医疗 AI 行业的开发者，提供了标准化 API 接口。

创作场景

百川发布循证增强大模型 M2 Plus，幻觉率相比 DeepSeek 降低 3 倍

首创六源循证推理范式

六源循证：打造完整知识体系

循证检索：从“找得到”跃升到“找得准”

循证推理：让模型“像医生一样思考”

“达到与人类资深临床专家同等可信度”