写点什么

Baichuan-M1-preview 发布!集齐语言、视觉、搜索三大推理能力,解锁医疗循证模式

  • 2025-01-24
    北京
  • 本文字数:4368 字

    阅读完需:约 14 分钟

大小:2.14M时长:12:27
Baichuan-M1-preview 发布!集齐语言、视觉、搜索三大推理能力,解锁医疗循证模式

2025 伊始,大模型厂商们仿佛约定好了一样,纷纷带着各自的推理模型,走上台前。


1 月 24 日,作为 AI 六小虎之一的百川智能,正式发布了首个深度思考模型 Baichuan-M1-preview,该模型是国内唯一一个同时具备语言推理、视觉推理、搜索推理三项能力的模型,并且解锁了医疗循证模式,不仅各项推理能力行业领先,在医疗健康场景上更是一骑绝尘。


此外,为了推动 AI 技术在医疗领域的创新与应用,百川智能还开源了 Baichuan-M1 的小尺寸版模型 Baichuan-M1-14B,该模型为行业首个医疗增强开源模型。


百川智能的首个推理模型,实力怎么样?


去年 9 月,百川智能创始人 & CEO 王小川在采访中表示,“在下场时,如何理解模型和应用之间的关系,还有大厂跟创业公司的关系这些问题,那会都已经想明白了。在应用驱动侧,我认为医疗是这波变革中最大的,甚至是唯一的应用”,并提出了百川智能要“用大模型造医生”。


随着 Baichuan-M1-preview 的发布,百川智能“大模型造医生”正在开花结果。


通用能力成绩不俗


从模型能力来看,此次发布的 Baichuan-M1-preview 在语言推理、视觉推理、搜索推理能力方面表现优异。




语言推理方面,在 AIME 和 Math 等数学基准测试,以及 LiveCodeBench 代码任务上,Baichuan-M1-preview 的成绩均超越了 o1-preview 等模型;视觉推理方面,在 MMMU-val、MathVista、MathVision 等权威视觉评测中,Baichuan-M1-preview 同样领先于 GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview 等模型。



据介绍,Baichuan-M1-preview 的深度思考能力在多个领域具备独特优势:


  • 学术研究:在数学推理和跨学科知识处理方面表现卓越,能够解决复杂理论问题;

  • 软件开发:深入理解代码结构,提供精准的优化建议和调试方案,显著提升开发效率;

  • 医疗健康:通过严谨的病程推理,协助医生进行诊断决策,为患者提供全面的分析和个性化建议。


解锁医疗循证模式


医疗是百川智能的核心领域,但想要将 AI 落地到医疗场景,必须要解决结果的准确性与可解释性这两大难点。


一方面,医疗数据存在来源广、格式与标准不统一、存在缺失或错误值等问题,数据质量参差不齐、标注困难。另外由于医疗问题涉及多因素相互作用,相对复杂,且存在模型过拟合风险, AI 模型难以精准处理医疗信息;另一方面,AI 模型自身的“黑箱”特性,往往难以呈现因果关系,而医疗责任重大,医生需明确决策依据,患者也希望了解诊断和治疗缘由,可解释性成了又一挑战。


为了应对上述挑战,百川智能解锁了「医疗循证模式」,这一模式借鉴了“循证医学”的理念,在面对复杂医学问题时,会将专业可靠的医疗知识作为推理依据,帮助用户做出最佳的医疗决策


为了实现这一能力,百川智能自建了涵盖亿级条目的循证医学知识库,囊括了国内外海量医学论文、权威指南、专家共识、疾病与症状解析、药品说明等专业医疗内容,并以天为单位进行动态更新,及时收录医疗领域的新突破、新进展。同时,针对海量的医学信息,百川智能构建了多层级证据分级体系,从期刊质量、研究方法、同行评审严谨度等多个维度进行统一甄别、溯源与评级,提供从基础科研到临床实践的整合式循证支持,确保为医学问答、科学研究和临床决策提供最准确、最新、最权威的信息。


值得一提的是,作为“最懂搜索的大模型”, Baichuan-M1-preview 还能够自主调用搜索能力,在互联网上实时获取权威医学证据、临床指南和研究进展。


从医疗知识库和互联网上获取到医疗信息之后,模型在推理过程中,如果发现数据存在潜在的冲突和不一致,会主动运用医学知识和证据评估标准,对证据进行分级判断,避免因信息混杂导致对病情误判,进而形成全面、连贯的医学结论。



Baichuan-M1-Preview 的医疗循证模式,最大优势在于能够连接医疗证据与实际需求,解决医疗场景中信息过载、不确定性和碎片化的痛点。无论是医生面对复杂病案,还是患者寻求权威建议,模型都能通过“摆事实、讲道理”的循证方式提供言之有物、有理有据的解答。


对于医疗专业人士而言,M1 在临床场景中能帮助他们快速获取跨学科、病种复杂临床问题的最新科研成果与权威指南,为疑难病症诊疗提供有力支撑,提升临床决策效率;在科研场景下,M1 可迅速检索前沿、相关且权威的研究成果,助力用户高效搭建完整领域知识体系,缩短科研探索时长,推动研究进展。


对患者来说,基于权威指南和科学研究推理总结的结论,可以作为可靠的第二诊疗意见,增强对诊断和治疗的确定性;也能帮助患者更好地理解自身病情,提升与医生沟通的质量,积极参与治疗决策;此外,清晰权威的信息也能为患者提供科普支持,助力其科学管理健康,提高治疗效果等。


在模型的可解释性方面,Baichuan-M1-preview 采用了显式思维链方式去推理并呈现答案。模型可以逐步分析问题,在每一步进行自我校验,从而提高答案的准确性;同时模型推理的过程也变得透明,用户能够理解模型是如何得出最终答案的,进而增加了模型结果的可信度。


开源 M1-14B,想做医疗健康行业的“送铲人”?


事实上,黄仁勋、扎克伯格、Anthropic 创始人达里奥·阿莫迪都曾在不同场合肯定了 AI 在医疗健康、生命科学领域的价值与前景。但医疗健康行业复杂且严谨、数据烟囱现象严重、技术资源也有限。想让 AI 医疗惠及大众,非一日之功,亦非一家之功。因此,构建医疗健康行业的技术生态也就变得尤为关键。


为了推动 AI 技术在医疗领域的创新发展和普惠,增强 AI 医疗技术的透明度和可信性,提高医疗服务的可及性,繁荣 AI 医疗生态,百川智能开源了 Baichuan-M1 的小尺寸版模型 Baichuan-M1-14B。


尽管 M1-14B 是小尺寸版模型,但是其实力同样不容小觑。不仅在 cmexam、clinicalbench_hos、clinicalbench_hos、erke 等权威医学知识和临床能力评测上的成绩超越了 Qwen2.5-72B-Instruct ,并且与 o1-mini 也非常接近。



数据处理花苦功夫


在数据收集阶段百川智能花费了大量时间,针对医疗场景做了非常细致的数据收集。据介绍,M1-14B 原始语料包含:


  • 千万级中 / 英文专业医疗论文

  • 千万级院内真实中 / 英文医疗病例

  • 万本医疗教材、几十万级医疗书籍

  • 千万级知识图谱医疗实体、百万级医疗词条

  • 百万级指南、专家共识、知识库等专业数据

  • 亿级医疗问答、医疗问诊、临床看病数据

  • 总量万亿级 token 的严肃医疗数据


值得一提的是,除了对数据进行详尽收集外,百川智能还进一步对数据进行了分类、评估,包括医疗科室、医疗内容以及医疗价值的分类和评分。并且在预训练过程中,实施了严格的数据筛选策略,以确保各科室数据分布均衡,同时保证模型能够学习到真正正确且具有医疗价值的信息。



对于互联网上的海量医疗数据,百川智能动用了大量医疗专家资源,整理出了可能是目前最全面的,包含中英双语二百余个权威知识源的医疗数据库,覆盖了从宏观到微观,从科研到临床的医疗全链路、全谱系知识。在此基础之上,再将数据源分为海量医学知识、医疗知识图谱、临床病例文本三大类,并针对每一类针对性的设计数据利用策略。


同时,百川智能通过自我反思机制和奖励模型(Reward Model)不断迭代合成数据质量,合成超百 b token 高质量医疗推理数据。这些多样化的知识呈现形式和思维过程的补充有效强化了模型的医学能力,显著提升了其医疗推理能力。


分级训练高效对齐


在模型训练方面,百川智能运用行业首创的「多阶段领域提升方案」,将整个训练分为三个阶段,依次提升基础语言、高阶及疑难病症应对等能力。


  • 阶段 1- 通识能力提升阶段:基础语言模型建模阶段,提升模型的基础语言能力、常识等能力。

  • 阶段 2- 医疗基础知识提升阶段:不断提升模型高阶能力、如推理,数学等,并显著提升医疗数据的比例。

  • 阶段 3- 医疗进阶知识提升阶段:进一步提升数据质量和难度,对更高阶的医疗能力、如推理、逻辑、疑难杂症等进行进一步优化。


「多阶段领域提升方案」训练出的模型具有诸多优势。首先,它能够以类似婴儿学步的方式,循序渐进地帮助模型构建知识体系,使其能从基础到高阶逐步掌握专业知识;其次,通过分阶段有针对性训练,能够提高模型在不同层次任务上的准确性和针对性;再次,借助通识阶段的广泛学习,模型的泛化能力得到了极大提升,能更好地应对不同类型的医疗任务和应用场景;此外,分阶段训练意味着后续可以针对各阶段进行单独优化和更新,比如当新出现的医疗知识或技术出现后,可以在医疗进阶知识提升阶段进行针对性的训练和调整,并且不会影响到模型的整体结构和基础能力等。


为了进一步提升模型的生成质量、逻辑推理能力和用户偏好贴合度,百川智能设计了一套系统化的强化学习(RL)训练流程。在 SFT(Supervised Fine-Tuning)模型基础上,分三步逐步优化,充分结合了思维链探索、偏好对优化以及策略梯度优化的优势。具体流程如下:



值得一提的是,百川智能在 CoT(Chain of Thought)训练框架中,创新性地引入了 ELO(Exploratory log-likelihood optimization)强化学习方法,优化了思维链路径,避免了传统奖励模型的偏差,有效提升了模型的生成质量与逻辑推理能力。


不久前,《2024 中国医学界十大年度人物》出炉,王小川凭借百川智能在用 AI “造医生、改路径、促医学”方面的探索与成果,成为了该榜单唯一的“跨界”获奖人。这既是对百川智能的技术路线的认可,也凸显了用 AI 变革医疗这一时代的需求。


Baichuan-M1-14B 模型的开源,对于医疗行业而言,无疑是一场及时雨。在医疗效率提升上,它能助力医生快速处理海量医疗数据,从诊断辅助到治疗方案制定,大幅缩短时间,让患者得到更及时的救治。通过开源,不同医疗机构、科研团队能基于此模型共享研究成果,打破数据烟囱现象,实现医疗知识的广泛传播与交流,加速医疗创新的步伐。对于医疗资源有限的地区,开源模型则极大地降低了技术门槛,使其能利用这一先进技术,提升本地医疗服务水平,缩小地区间的医疗差距。同时,模型辅助的智能诊断等功能,也能减少了不必要的检查和人力投入,一定程度上降低了医疗成本,让医疗服务更加普惠大众。


目前 Baichuan-M1-preview 已在百小应上线,由此百小应具备了深度思考模式,不仅能准确解答数学、代码、逻辑推理问题,还能会像资深医疗专家一样,进行深度思考,构建严谨的医学推理过程。此外,开源模型 Baichuan-M1-14B 也已上线 GitHub。


毋庸置疑的是,Baichuan-M1-preview 是百川智能在“造医生、改路径、促医学”愿景征程中的一次重要突破,Baichuan-M1-14B 开源模型也将为中国 AI 医疗健康生态建设注入了新的生机。我们无法预见这两颗石头会给行业带来怎样的涟漪。但可以确定的是,只要生根发芽,终会开花结果。


相关链接:

Baichuan-M1-14B 下载地址:

Github: https://github.com/baichuan-inc/Baichuan-M1-14B

Huggingface(base): https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Base

Huggingface(Instruct): https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Instruct

NPU 版本支持 BF16 推理:https://modelers.cn/models/MindIE/Baichuan-M1-14B-Base

2025-01-24 15:379223

评论

发布
暂无评论

wallys/new product/DR7915/MT7915+MT7975/WiFi6 MiniPCIe Module 2T2R

wallys-wifi6

跟我读论文丨Multi-Model Text Recognition Network

华为云开发者联盟

人工智能 文字识别 语言模型 视觉特征

膜拜~ 终于拿到了美团老大哥分享的 Netty 源码剖析与应用 PDF

程序知音

Java 程序员 架构 Netty 后端技术

带你认识8个软件设计中的谬误

华为云开发者联盟

后端 分层架构 开发

个人实战经验:数据建模 “账户数据是属于维度还是账户域 ”

松子(李博源)

数据仓库 数据建模 数据中台场景实践

Spirng之Annotation注解与AOP使用

echoes

这次和GrowingIO工程师一起搞事情 | StartDT Hackathon

奇点云

想要制作沙盒游戏?那么这一款插件你一定不能错过(Unity3D)

恬静的小魔龙

Unity

同构+跨端,懂得小程序+kbone+小程序容器就够了!

Geek_99967b

小程序容器

你离「TDengine 开发者大会」只差一条 SQL 语句!

TDengine

tdengine 开源 时序数据库

还在用 ListView?使用 AnimatedList 让列表元素动起来

岛上码农

flutter ios 安卓开发 跨平台开发 7月月更

tsconfig.json在配置文件中找不到任何输入,怎么办?

华为云开发者联盟

JavaScript 前端

极客星球丨字节跳动一站式数据治理解决方案及平台架构

MobTech袤博科技

架构 运维 数据治理 全链路

用Unity做仿真,这款图表插件我不允许你不知道

恬静的小魔龙

Unity

还在被电影中吧爆炸的画面震撼?那你一定不要错过这款Unity的爆炸插件

恬静的小魔龙

Unity

开发动态 | StoneDB 2022年版本发布里程碑

StoneDB

云原生 #数据库 大数据 开源 #开源

void 0 有什么意义?undefined竟然是可变的?

南极一块修炼千年的大冰块

7月月更

2022年中国第三方支付市场专题分析

易观分析

第三方支付

运行时,物体移动旋转缩放插件,“RuntimeTransformGizmos插件”使用教程(Unity3D)

恬静的小魔龙

游戏开发 Unity 插件 虚拟仿真 游戏引擎

易观分析《2022年中国数据安全市场数据监测报告》正式启动

易观分析

技术

同城订单同城送,爆单依旧得心应手!

CRMEB

IP地址分类及范围

郑州埃文科技

IP地址 IP地址分类 IP地址范围

还在用Unity开发游戏?那你就out了,试试用Unity做一个答题系统吧

恬静的小魔龙

Unity

浅谈负载

Damon

7月月更

饿了么为啥给你推荐这个?本地生活搜索算法解密

阿里技术

算法 性能提升

2022年中国人工智能产业生态图谱

易观分析

人工智能

Tapdata 与优炫数据库完成产品兼容性互认证

tapdata

数据库 Tapdata 实时数据 交互式 优炫数据库

26岁从计算机视觉界“黄埔军校”博士毕业,他想为车打造一双慧眼

华为云开发者联盟

人工智能 计算机视觉 天才少年 激光感知

hive数据导入:Python脚本

怀瑾握瑜的嘉与嘉

Python hive 7月月更

深入理解完美哈希

C++后台开发

hash 后端开发 C++后台开发 哈希函数 C++开发

EMQ映云科技荣登《中国企业家》2022年度“新锐100”榜单

EMQ映云科技

开源 物联网 IoT emq 7月月更

Baichuan-M1-preview 发布!集齐语言、视觉、搜索三大推理能力,解锁医疗循证模式_AI&大模型_付秋伟_InfoQ精选文章