阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

首个千亿医药对话大模型来了,要打破医药研发“三十定律”

  • 2023-09-26
    北京
  • 本文字数:4069 字

    阅读完需:约 13 分钟

大小:2.19M时长:12:45
首个千亿医药对话大模型来了,要打破医药研发“三十定律”

10 年时间,投入超 10 亿美金,但成功率只有 10%——这是医药研发领域的“三十定律”。从某种程度来说,它像是医药行业的一个“魔咒”。


一个药物在正式上市之前,需要经过立项调研、早期药物发现、早期临床前研究、临床试验药物重定位等各个流程。对于药企而言,整个过程存在三大痛点:第一,信息繁杂,对专家依赖度极高;第二,探索空间有限,湿实验(*注)迭代慢;第三,投入成本高,失败风险大。


为了打破这个“魔咒”,近日水木分子发布了新一代对话式药物研发助手 ChatDD (Drug Design) 和全球首个千亿参数多模态生物医药对话大模型ChatDD-FM 100B。其中,ChatDD 能够在立项、临床前研究、临床试验各环节提供服务,预计将于 10 月中下旬邀请基础版本内测;ChatDD-FM 100B 在 C-Eval 评测中达到全部医学 4 项专业第一,是唯一在该 4 项评测中平均分超过 90 分的模型。

从人工炼药到人机交互,医药研发经历四个阶段


回顾研发模式的发展历程,水木分子首次定义了医药研发的四个阶段:


第一阶段称为 TMDD(Traditional Manual Drug Design),从远古时代一直持续到 19 世纪末,主要以手工合成、提取和筛选为主,基于大量试验、错误和经验主义,缺点是低通量、缺乏系统性、耗时长且成本高;


第二阶段称为 CADD(Computer-Aided Drug Design),从 20 世纪中叶到 21 世纪初,计算机的出现开始辅助加速药物发现和设计,底层有物理化学规则做支持,在一定程度上实现了高通量,但是计算机只具有工具属性,因此只能解决单个问题,在研究过程中,仍然在很大程度上依赖研究人员经验;


第三阶段称为 AIDD(AI Drug Design),从 21 世纪初至今,人工智能技术的成熟发展和应用,开始改变药物研发,研究人员可以从训练数据中挖掘药物发现和设计,优点是能够满足超高通量,实现流程化,但是缺乏模型与专家交互,依赖大规模高质量标注数据,面临信息与知识分离,工具服务分散,处理模态单一等挑战;


第四阶段称为 ChatDD(Chat Drug Design),即基于当下的大模型能力,对多模态数据进行融合理解,与专家自然交互人机协作,重新定义药物研发模式。


在整个过程中,每个阶段的技术革新都带来了不同程度的效率提升和科学发展,为药物研发带来了新的机遇和挑战。“但是,目前市场上至少还有超过 1/ 3 的药还是通过 TMDD 研发设计的。”清华智能产业研究院(AIR)首席研究员、水木分子首席科学家聂再清教授表示,这正是如今医药研发周期长、投入大、风险高很重要的原因。


虽然计算机、人工智能技术能够起到一定的研发辅助作用,但是仍然停留在工具阶段,研发过程很难摆脱对专家的知识依赖。“并且专家的知识储备也是有限的,无法掌握所有的文章、专利、数据。我们认为,把专家知识与大模型知识联结,二者进行协作,这才是药物研发现在和未来应该有的模式。”聂再清教授强调。


除此之外,利用此前的技术辅助医药研发还面临两个挑战:一方面,海量的实时数据散落在各处;另一方面,生物医药涉及大量细分领域,每个领域需要配备对应工具,这些工具的使用门槛和成本也相对较高。“这也是我们发布 ChatDD 的原因,希望通过一个自然语言的交互界面,能够把专家从繁琐的数据处理和工具使用工作当中解放出来,把更多的精力放在更加开创性的、更有价值的工作上。”

搞定立项、临床前研究、临床试验难题,ChatDD 的三个场景应用


水木分子在此次发布会上展示了 ChatDD 的在医药研发环节的三个具体应用场景,包括 ChatDD-BI 立项场景、ChatDD-Discovery 研发探索场景和 ChatDD-Trail 临床试验场景应用。  


  • ChatDD-BI:辅助立项调研


和仿制药生产制造不同,在药物研发过程中,立项环节极为重要,甚至一个错误的决定都可能导致巨大的经济损失。


在传统模式下,这一工作存在三个主要痛点:第一,信息繁杂,涉及对大量数据的搜集、整理和分析,比如病人需求、疾病机制、医药行业现状、专利和文献检索等等,并且这些数据散落各处,收集难度大、耗费时间长,一份高质量的立项报告的输出需要专家投入大量精力。第二,这一工作是非标准化的,对专家依赖极高,还存在信息不全面的问题,可能对项目的决策和发展产生负面影响。第三,立项涉及企业商业秘密难以外包,这也增加了信息搜集的难度。


针对这一问题,ChatDD-BI 的角色是作为立项助手,通过与专家的数轮对话辅助立项调研,从而提升立项的效率和质量。


  • ChatDD-Discovery :启发研发灵感,提高工具使用效率和体验


针对临床前研究场景,传统的做法是做湿实验,然后根据结果不断迭代。但是随着时间的推移,找到针对已知靶点的药物越来越难。因此,科学家们需要更大的探索空间来寻找新的靶点和治疗方案。 对此,水木分子认为,大模型的幻觉在科学研究探索性中可能会带来“意外”的灵感。 


以针对渐冻症治疗方案的探索场景为例,研发人员可以通过对话获得“渐冻症”疾病画像,包含疾病的描述、已有治疗方案等等,如下图:



同时,ChatDD 还会通过查询外部数据库,如 ClinicalTrails,给出渐冻症在研药物进展。 以“利司扑兰”为例,研发人员可以利用 ChatDD 进一步探究其作用靶点,ChatDD 找到利司扑兰的作用靶点“SMN2”,通过建立疾病、靶点、药物之间的潜在链条关系,发现并建议“SMN2 是渐冻症的潜在靶点,可进行下一步探究探索”。根据已发表的多项研究成果,证明了 ChatDD 推断的合理性。




除了“灵感激发”之外,ChatDD-Discovery 同样可以提高研究人员的研发效率。在医药研发过程中,研究人员需要查询大量文献和检索专利等,这需要高频使用各种工具,学习成本高且难以与专家知识互动融合。而 ChatDD-Discovery 采用自然语言交互方式,将专家知识模型参数化,只需简单回答问题,就能使用虚拟筛选功能,使研究人员更高效地完成任务。


值得一提的是,ChatDD-Discovery 研发助手可以处理生物医药多模态数据,如分子、蛋白质、基因序列以及多样的生物医药下游任务,如 DDI(药物-药物相互作用计算)、亲和力计算、药物敏感性预测、单细胞类型注释等。 例如,输入分子式 ChatDD-Discovery 就可以生成该分子的完整描述信息,并且支持用户针对该分子进行进一步提问。


  • ChatDD-Trial:提高临床试验成功率


在药物研发的全流程中,临床试验是耗资最多、风险最大的那一环,因此,想要打破“三十定律”,提高临床试验成功率是重中之重。换个角度来看,由于成本巨大,所以,在这个环节只要有一点点的提升,就能带来可观的经济效益。


对此,水木分子 ChatDD 目前主要关注四个小场景:药物生物标记物发现、临床试验入组设计、临床试验报告撰写、药物重定位和适应症扩展。


比如,ChatDD-Trial 可以辅助临床试验研究人员找到最适合入组的患者人群;比如,通过发现药物敏感的生物标志物,更好地理解疾病亚型,实现精准的患者分类,确保患者与试验药物更匹配,减少不必要的变量干扰,提高临床试验成功率;再比如,作为临床试验设计助手,帮助研究团队优化试验设计,通过分析大量的相关数据,提供有关患者选择、临床试验阶段和标准化流程的建议,确保试验的科学性和可行性,减少不必要的误差和风险。


据聂再清教授介绍,目前 ChatDD 提供了三类服务方式:一是订阅服务,支持企业账户;二是 API 服务,支持高速推理服务,提供开发者培训;三是私有化部署,支持本地数据微调,定制场景方案。

三级淬炼出千亿级生物医药行业大模型


ChatDD 的底层,基于的是水木分子千亿参数多模态生物医药对话大模型 ChatDD-FM。



上图是 ChatDD-FM 多模态生物医药大模型的架构图:首先,对生物医药垂直领域的知识图谱、分子、蛋白质、单细胞测序、文本等多模态进行编码;然后,将各种不同模态对齐到统一的特征空间,进行模态融合、专业领域指令微调;最后,在产品端支撑 ChatDD-BI、ChatDD-Discovery 和 ChatDD-Trail 三大应用。



水木分子首席技术官、联合创始人乔木博士强调,ChatDD-FM 是一个灵活、可扩展的架构,在当下版本基础上,还可以持续增加其它不同模态。而对于用户而言,可以通过自然语言对话方式与大模型进行交互。其背后,是 ChatDD-FM 对数千篇中英文生物医药文献、千万级通用场景对话、数十万个工具调用指令集等高质量数据的预训练,以及指令微调和智能工具调用。


水木分子由 AIR 孵化,在今年 6 月份成立,主要专注于生物医药垂直行业大模型的研发与应用。而早在今年 4 月,聂再清教授团队就已经开源了生物医药版 GPT BioMedGPT1.6B,从研究层面验证了将文献、分子、蛋白、测序、知识图谱等数据压缩到统一的多模态大模型框架内,可使模型具备“融会贯通”的能力,在分子性质预测、药物-靶点亲和力预测、性质预测、药物敏感性预测、分子-文本跨模态检索、分子-文本跨模态信息生成等多项任务上优于单一专用模型,从研究层面验证了技术可行性。


8 月,水木分子又开源了全球首个可商用的百亿级参数规模多模态生物医药大模型 BioMedGPT-10B。其中,首次提出了分子 QA 和蛋白质 QA 任务,给定特定分子/蛋白质,可以用自然语言回答相关功能、属性等问题,有效评估模型在自然语言和生物编码语言之间的翻译能力。


据聂再清教授介绍,虽然 BioMedGPT 已经实现商用,但由于是科研项目,所以使用的仍然是英文界面,中文对话能力较弱,因此在国内市场实现商用普及有限。这便是水木分子成立背后的原因之一。


“接下来,BioMedGPT 仍然会继续往前推进,作为科研品牌继续开源。而此次 ChatDD 和 ChatDD-FM 的孵化,则是大模型都科研迈向产业化,是产学研结合的关键一步。”聂再清教授强调,“我们认为大模型未来必将成为 AI 时代的操作系统,就像我们 PC 时代的 Windows,移动互联时代的 Android、iOS。而现在我们正在做的生物医药大模型,未来在整个 AI for science 领域都有可能用上。对此,我们充满了期待。”


而现下,ChatDD 和 ChatDD-FM 的发布,已然重新定义了医药研发模式,不仅可以提高研究人员的工作效率,还可以为研发新药提供更多的可能性。未来,随着技术的持续迭代革新,医药研发的效率和成功率将会得到显著提高,打破“三十定律”的“魔咒”指日可待。


*注:

“湿”实验指的是将待测样本利用实验室方法进行核酸提取、文库构建(包括片段化、富集、扩增等一系列过程)到完成上机测序的实验过程;“干”实验则是从得到下机数据开始,到完成生信分析和报告解读的整个过程。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-09-26 10:155105

评论

发布
暂无评论
发现更多内容

不同的子序列 II

掘金安东尼

算法 10月月更

React组件之间的通信方式总结(下)

beifeng1996

React

react高频面试题自测

beifeng1996

React

开源无国界,从openEuler Maintainer到Spark Committer的贡献开源之路

openEuler

spark 开源 openEuler

【LeetCode】合并两个有序链表Java题解

Albert

算法 LeetCode 10月月更

流程引擎的架构设计

京东科技开发者

架构设计 报表 workflow BPM 流程引擎

【一Go到底】第十四天---break快速入门

指剑

Go golang 10月月更

Jib使用小结(Maven插件版)

程序员欣宸

Docker 10月月更 Jib

C++使用protobuf嵌套结构体总结

中国好公民st

c++ protobuf 10月月更

React循环DOM时为什么需要添加key

beifeng1996

React

SAST + SCA: 结合使用安全升级

SEAL安全

SCA 安全测试 攻击 SAST 应用安全测试

Python进阶(十九)Python3安装第三方爬虫库BeautifulSoup4

No Silver Bullet

Python 字符串 10月月更 BeautifulSoup4

Python进阶(二十)Python爬虫实例讲解

No Silver Bullet

Python 数据分析 10月月更

腾讯云继续加码布局云原生,将披露全新产品战略

科技热闻

资源成本降低80%!Serverless云函数的弹性架构实践

Geek_2d6073

金九银十前端面试题总结(附答案)

loveX001

JavaScript

面向对象思想和Java中类的定义

共饮一杯无

Java 面向对象 10月月更

数据中台选型前必读:数据中台与大数据平台有什么区别

雨果

数据中台 大数据平台

80%的前端开发都答不上来的js异步面试题

loveX001

JavaScript

Java对象的使用和对象内存图解

共饮一杯无

Java 对象 10月月更

为什么编程第一课都要学Hello World?

博文视点Broadview

给 SAP BTP 创建的 Java 应用添加 Custom Event Handler 支持创建功能

Jerry Wang

spring 云原生 Cloud SAP 10月月更

带你认识JDK8中超nice的Native Memory Tracking

华为云开发者联盟

开发 华为云

聚焦六大典型应用场景,博云金融行业容器解决方案更新发布!

BoCloud博云

云计算 云原生 容器云

「Hive进阶篇」二、万字长文超详述hive企业级优化

大数据阶梯之路

大数据 hive 面试 hive优化

大数据ELK(二十四):安装Kibana

Lansonli

10月月更 安装Kibana

22道js输出顺序问题,你能做出几道

loveX001

JavaScript

国产分布式数据库发展趋势与难点

亚信AntDB数据库

AntDB 国产数据库 AntDB数据库 企业号十月PK榜 企业号十月 PK 榜

JVM诊断工具中的深堆、浅堆、支配树,你都明白吗

JAVA旭阳

Java JVM 10月月更

PriorityQueue源码-成员变量解析

知识浅谈

Priority Queue 10月月更

深度解析:智能合约DAPP(bsc)币安链系统项目开发解决方案

I8O28578624

首个千亿医药对话大模型来了,要打破医药研发“三十定律”_医疗_高玉娴_InfoQ精选文章