写点什么

首个千亿医药对话大模型来了,要打破医药研发“三十定律”

  • 2023-09-26
    北京
  • 本文字数:4069 字

    阅读完需:约 13 分钟

大小:2.19M时长:12:45
首个千亿医药对话大模型来了,要打破医药研发“三十定律”

10 年时间,投入超 10 亿美金,但成功率只有 10%——这是医药研发领域的“三十定律”。从某种程度来说,它像是医药行业的一个“魔咒”。


一个药物在正式上市之前,需要经过立项调研、早期药物发现、早期临床前研究、临床试验药物重定位等各个流程。对于药企而言,整个过程存在三大痛点:第一,信息繁杂,对专家依赖度极高;第二,探索空间有限,湿实验(*注)迭代慢;第三,投入成本高,失败风险大。


为了打破这个“魔咒”,近日水木分子发布了新一代对话式药物研发助手 ChatDD (Drug Design) 和全球首个千亿参数多模态生物医药对话大模型ChatDD-FM 100B。其中,ChatDD 能够在立项、临床前研究、临床试验各环节提供服务,预计将于 10 月中下旬邀请基础版本内测;ChatDD-FM 100B 在 C-Eval 评测中达到全部医学 4 项专业第一,是唯一在该 4 项评测中平均分超过 90 分的模型。

从人工炼药到人机交互,医药研发经历四个阶段


回顾研发模式的发展历程,水木分子首次定义了医药研发的四个阶段:


第一阶段称为 TMDD(Traditional Manual Drug Design),从远古时代一直持续到 19 世纪末,主要以手工合成、提取和筛选为主,基于大量试验、错误和经验主义,缺点是低通量、缺乏系统性、耗时长且成本高;


第二阶段称为 CADD(Computer-Aided Drug Design),从 20 世纪中叶到 21 世纪初,计算机的出现开始辅助加速药物发现和设计,底层有物理化学规则做支持,在一定程度上实现了高通量,但是计算机只具有工具属性,因此只能解决单个问题,在研究过程中,仍然在很大程度上依赖研究人员经验;


第三阶段称为 AIDD(AI Drug Design),从 21 世纪初至今,人工智能技术的成熟发展和应用,开始改变药物研发,研究人员可以从训练数据中挖掘药物发现和设计,优点是能够满足超高通量,实现流程化,但是缺乏模型与专家交互,依赖大规模高质量标注数据,面临信息与知识分离,工具服务分散,处理模态单一等挑战;


第四阶段称为 ChatDD(Chat Drug Design),即基于当下的大模型能力,对多模态数据进行融合理解,与专家自然交互人机协作,重新定义药物研发模式。


在整个过程中,每个阶段的技术革新都带来了不同程度的效率提升和科学发展,为药物研发带来了新的机遇和挑战。“但是,目前市场上至少还有超过 1/ 3 的药还是通过 TMDD 研发设计的。”清华智能产业研究院(AIR)首席研究员、水木分子首席科学家聂再清教授表示,这正是如今医药研发周期长、投入大、风险高很重要的原因。


虽然计算机、人工智能技术能够起到一定的研发辅助作用,但是仍然停留在工具阶段,研发过程很难摆脱对专家的知识依赖。“并且专家的知识储备也是有限的,无法掌握所有的文章、专利、数据。我们认为,把专家知识与大模型知识联结,二者进行协作,这才是药物研发现在和未来应该有的模式。”聂再清教授强调。


除此之外,利用此前的技术辅助医药研发还面临两个挑战:一方面,海量的实时数据散落在各处;另一方面,生物医药涉及大量细分领域,每个领域需要配备对应工具,这些工具的使用门槛和成本也相对较高。“这也是我们发布 ChatDD 的原因,希望通过一个自然语言的交互界面,能够把专家从繁琐的数据处理和工具使用工作当中解放出来,把更多的精力放在更加开创性的、更有价值的工作上。”

搞定立项、临床前研究、临床试验难题,ChatDD 的三个场景应用


水木分子在此次发布会上展示了 ChatDD 的在医药研发环节的三个具体应用场景,包括 ChatDD-BI 立项场景、ChatDD-Discovery 研发探索场景和 ChatDD-Trail 临床试验场景应用。  


  • ChatDD-BI:辅助立项调研


和仿制药生产制造不同,在药物研发过程中,立项环节极为重要,甚至一个错误的决定都可能导致巨大的经济损失。


在传统模式下,这一工作存在三个主要痛点:第一,信息繁杂,涉及对大量数据的搜集、整理和分析,比如病人需求、疾病机制、医药行业现状、专利和文献检索等等,并且这些数据散落各处,收集难度大、耗费时间长,一份高质量的立项报告的输出需要专家投入大量精力。第二,这一工作是非标准化的,对专家依赖极高,还存在信息不全面的问题,可能对项目的决策和发展产生负面影响。第三,立项涉及企业商业秘密难以外包,这也增加了信息搜集的难度。


针对这一问题,ChatDD-BI 的角色是作为立项助手,通过与专家的数轮对话辅助立项调研,从而提升立项的效率和质量。


  • ChatDD-Discovery :启发研发灵感,提高工具使用效率和体验


针对临床前研究场景,传统的做法是做湿实验,然后根据结果不断迭代。但是随着时间的推移,找到针对已知靶点的药物越来越难。因此,科学家们需要更大的探索空间来寻找新的靶点和治疗方案。 对此,水木分子认为,大模型的幻觉在科学研究探索性中可能会带来“意外”的灵感。 


以针对渐冻症治疗方案的探索场景为例,研发人员可以通过对话获得“渐冻症”疾病画像,包含疾病的描述、已有治疗方案等等,如下图:



同时,ChatDD 还会通过查询外部数据库,如 ClinicalTrails,给出渐冻症在研药物进展。 以“利司扑兰”为例,研发人员可以利用 ChatDD 进一步探究其作用靶点,ChatDD 找到利司扑兰的作用靶点“SMN2”,通过建立疾病、靶点、药物之间的潜在链条关系,发现并建议“SMN2 是渐冻症的潜在靶点,可进行下一步探究探索”。根据已发表的多项研究成果,证明了 ChatDD 推断的合理性。




除了“灵感激发”之外,ChatDD-Discovery 同样可以提高研究人员的研发效率。在医药研发过程中,研究人员需要查询大量文献和检索专利等,这需要高频使用各种工具,学习成本高且难以与专家知识互动融合。而 ChatDD-Discovery 采用自然语言交互方式,将专家知识模型参数化,只需简单回答问题,就能使用虚拟筛选功能,使研究人员更高效地完成任务。


值得一提的是,ChatDD-Discovery 研发助手可以处理生物医药多模态数据,如分子、蛋白质、基因序列以及多样的生物医药下游任务,如 DDI(药物-药物相互作用计算)、亲和力计算、药物敏感性预测、单细胞类型注释等。 例如,输入分子式 ChatDD-Discovery 就可以生成该分子的完整描述信息,并且支持用户针对该分子进行进一步提问。


  • ChatDD-Trial:提高临床试验成功率


在药物研发的全流程中,临床试验是耗资最多、风险最大的那一环,因此,想要打破“三十定律”,提高临床试验成功率是重中之重。换个角度来看,由于成本巨大,所以,在这个环节只要有一点点的提升,就能带来可观的经济效益。


对此,水木分子 ChatDD 目前主要关注四个小场景:药物生物标记物发现、临床试验入组设计、临床试验报告撰写、药物重定位和适应症扩展。


比如,ChatDD-Trial 可以辅助临床试验研究人员找到最适合入组的患者人群;比如,通过发现药物敏感的生物标志物,更好地理解疾病亚型,实现精准的患者分类,确保患者与试验药物更匹配,减少不必要的变量干扰,提高临床试验成功率;再比如,作为临床试验设计助手,帮助研究团队优化试验设计,通过分析大量的相关数据,提供有关患者选择、临床试验阶段和标准化流程的建议,确保试验的科学性和可行性,减少不必要的误差和风险。


据聂再清教授介绍,目前 ChatDD 提供了三类服务方式:一是订阅服务,支持企业账户;二是 API 服务,支持高速推理服务,提供开发者培训;三是私有化部署,支持本地数据微调,定制场景方案。

三级淬炼出千亿级生物医药行业大模型


ChatDD 的底层,基于的是水木分子千亿参数多模态生物医药对话大模型 ChatDD-FM。



上图是 ChatDD-FM 多模态生物医药大模型的架构图:首先,对生物医药垂直领域的知识图谱、分子、蛋白质、单细胞测序、文本等多模态进行编码;然后,将各种不同模态对齐到统一的特征空间,进行模态融合、专业领域指令微调;最后,在产品端支撑 ChatDD-BI、ChatDD-Discovery 和 ChatDD-Trail 三大应用。



水木分子首席技术官、联合创始人乔木博士强调,ChatDD-FM 是一个灵活、可扩展的架构,在当下版本基础上,还可以持续增加其它不同模态。而对于用户而言,可以通过自然语言对话方式与大模型进行交互。其背后,是 ChatDD-FM 对数千篇中英文生物医药文献、千万级通用场景对话、数十万个工具调用指令集等高质量数据的预训练,以及指令微调和智能工具调用。


水木分子由 AIR 孵化,在今年 6 月份成立,主要专注于生物医药垂直行业大模型的研发与应用。而早在今年 4 月,聂再清教授团队就已经开源了生物医药版 GPT BioMedGPT1.6B,从研究层面验证了将文献、分子、蛋白、测序、知识图谱等数据压缩到统一的多模态大模型框架内,可使模型具备“融会贯通”的能力,在分子性质预测、药物-靶点亲和力预测、性质预测、药物敏感性预测、分子-文本跨模态检索、分子-文本跨模态信息生成等多项任务上优于单一专用模型,从研究层面验证了技术可行性。


8 月,水木分子又开源了全球首个可商用的百亿级参数规模多模态生物医药大模型 BioMedGPT-10B。其中,首次提出了分子 QA 和蛋白质 QA 任务,给定特定分子/蛋白质,可以用自然语言回答相关功能、属性等问题,有效评估模型在自然语言和生物编码语言之间的翻译能力。


据聂再清教授介绍,虽然 BioMedGPT 已经实现商用,但由于是科研项目,所以使用的仍然是英文界面,中文对话能力较弱,因此在国内市场实现商用普及有限。这便是水木分子成立背后的原因之一。


“接下来,BioMedGPT 仍然会继续往前推进,作为科研品牌继续开源。而此次 ChatDD 和 ChatDD-FM 的孵化,则是大模型都科研迈向产业化,是产学研结合的关键一步。”聂再清教授强调,“我们认为大模型未来必将成为 AI 时代的操作系统,就像我们 PC 时代的 Windows,移动互联时代的 Android、iOS。而现在我们正在做的生物医药大模型,未来在整个 AI for science 领域都有可能用上。对此,我们充满了期待。”


而现下,ChatDD 和 ChatDD-FM 的发布,已然重新定义了医药研发模式,不仅可以提高研究人员的工作效率,还可以为研发新药提供更多的可能性。未来,随着技术的持续迭代革新,医药研发的效率和成功率将会得到显著提高,打破“三十定律”的“魔咒”指日可待。


*注:

“湿”实验指的是将待测样本利用实验室方法进行核酸提取、文库构建(包括片段化、富集、扩增等一系列过程)到完成上机测序的实验过程;“干”实验则是从得到下机数据开始,到完成生信分析和报告解读的整个过程。

2023-09-26 10:158235

评论

发布
暂无评论
发现更多内容

数字知识库-知识图谱管理系统

金陵老街

Java 数字化 知识图谱 企事业系统

一文带你认知定时消息发布RocketMQ

华为云开发者联盟

云计算 后端

如何避免数据湖变成数据沼泽

Kyligence

数据湖 数据管理 智能多维数据库

7 天能找到 Go 工作吗?学学 Go 数组和指针试试

梦想橡皮擦

Python 爬虫 8月月更

四个层次管好设备,为生产保驾护航

PreMaint

预测性维护 设备管理 设备预测性维护

开源一夏 | 在 STM32L051 上使用 RT-Thread (三、无线温湿度传感器 之 I2C通讯)

矜辰所致

开源 RT-Thread 8月月更 STM32L051

修筑产学研用一体化的通衢,从一场比赛背后瞭望苏州园区人才培养新范式

脑极体

Python图像处理丨基于OpenCV和像素处理的图像灰度化处理

华为云开发者联盟

Python 人工智能 图像

字节一面:HTTPS 一定安全可靠吗?

程序员小毕

Java 程序员 面试 https 校招

高效完成需求计划的四个关键 | 敏捷开发

LigaAI

Scrum 敏捷开发 Sprint LigaAI spring event

开源一夏 | 在 STM32L051 上使用 RT-Thread (四、无线温湿度传感器 之 串口通讯)

矜辰所致

开源 RT-Thread 8月月更 STM32L051

【8.12-8.19】写作社区精彩技术博文回顾

InfoQ写作社区官方

优质创作周报

Meta项目功能测试 | 开启PrestoDB和Aria扫描优化

Alluxio

hive presto Alluxio 大数据 开源 8月月更

SAP ABAP 和 Java 里的弱引用(WeakReference)和软引用(SoftReference)

汪子熙

Java 引用 SAP abap 8月月更

云图说丨初识可信分布式身份服务

华为云开发者联盟

云计算 安全 后端

优雅,永不过时!SpringBoot中这样编写Controller层代码,那叫一个完美

Java永远的神

Java 程序员 面试 程序人生 springboot

当内卷风波及代码领域,看Alluxio将会采取怎样的块分配策略

Alluxio

腾讯 存储 Alluxio block 8月月更

数据中台逼近炒作顶峰之际,Gartner给想建数据中台的一些建议

雨果

数据中台 Gartner

5分钟,带你看完24岁60W年薪架构师的简历,上面竟然写着精通JVM

收到请回复

Java JVM java面试 简历模板 金九银十

前端监控系列3 | 如何衡量一个站点的性能好坏

字节跳动终端技术

字节跳动 前端 性能监控 火山引擎 站点性能

ABAP 一组关键字 IS BOUND, IS NOT INITIAL 和 IS ASSIGNED 的用法辨析

汪子熙

指针 应用 SAP abap 8月月更

马拉车算法 (最长回文串 例题 密码截获)

Five

算法 8月月更

OpenHarmony有氧拳击之设备端开发

OpenHarmony开发者

OpenHarmony

20万字的《Kafka运维实战宝典》PDF现在免费下载了

石臻臻的杂货铺

大数据 kafka

打了15天,如何做到在容器权限上不失一分?

青藤云安全

容器安全 攻防演练

故障处理 | DM 搭建 MySQL 8.0 同步链路报错:code=26005

TiDB 社区干货传送门

安装 & 部署 TiDB 源码解读

基于RPC接口的业务侧流量回放

转转技术团队

测试工具 流量回放 测试方案

前半个月的行动中,整个圈子都在疯传的“内网King”到底是个啥?

青藤云安全

网络安全 主机安全 攻防演练

Web3.0 DAPP项目智能合约系统开发技术详情

开发微hkkf5566

九章云极DataCanvas公司与中国信通院完成可信AI基础软件战略合作

九章云极DataCanvas

人工智能 数据智能 数智化 可信AI

如何在企业数字化团队内部实现数据分析建模成果的结构化整合沉淀

ModelWhale

工作流 数字化转型 数字化 案例分享 提高效率

首个千亿医药对话大模型来了,要打破医药研发“三十定律”_医疗_高玉娴_InfoQ精选文章