10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

腾讯 scBERT 算法模型登上《Nature》子刊,能辅助医生精准治癌

  • 2022-09-27
    北京
  • 本文字数:1415 字

    阅读完需:约 5 分钟

腾讯 scBERT 算法模型登上《Nature》子刊,能辅助医生精准治癌

InfoQ 获悉,9 月 27 日,腾讯在人工智能、生命科学跨学科应用领域的最新研究成果《scBERT as a Large-scale Pretrained Deep Language Model for Cell Type Annotation of Single-cell RNA-seq Data》(《基于大规模预训练语言模型的单细胞转录组细胞类型注释算法》),登上国际顶级学术期刊《Nature》子刊《Nature Machine Intelligence》。


据悉,单细胞测序技术是生命科学领域的一项革命性技术。可以细粒度地观察和刻画各个物种中组织、器官和有机体中单细胞分子图谱(细胞表达),便于更好地了解肿瘤微环境,以达到精细分析病因、精准匹配治疗方案的效果,对于“精准医疗”具有极高的应用价值。


值得注意的是,受数据样本量小、人工干预多、过度依赖 marker gene(已报道的特异性基因)等因素的影响,单细胞测序细胞类型注释技术一直面临着泛化性、可解释性、稳定性均比较低的问题,现存的算法难以有更广泛的应用。其中,人工注释费时、主观、误差大、无法发现新的细胞类型;机器注释经常出现在一个检测组织里有效,在另外一个检测组织里就没效的情况,还是需要人工参与。


1.0 人工注释。marker gene(标记基因)注释法:首先对单细胞测序数据进行聚类,然后可视化聚类结果中的 marker gene,然后根据人工判读注释。marker gene 一般会发表在各大文献里,相当于某个细胞类群的标志基因,知道了它就知道了这个细胞类群的身份。人工判读,就是查找资料进行注释。就好比:将基因比作一行文字,要识别出来,便要去逐个字查字典,看这行文字是什么意思。


2.0 机器注释。目前使用的深度学习技术较为原始,通常只采用几层全连接网络作为深度学习模型,这就限制了模型对高维度数据提取整体有效表征的能力。没有充分发挥深度学习基于数据驱动发现的能力,泛化能力差。就好比:一个初代翻译机,只能识别出一些文字的内容,比如含“人”偏旁。遇到不认识的字,也没办法。对这一行文字的理解并不清晰。


3.0 基于大规模预训练语言模型的单细胞转录组细胞类型注释算法。即“scBERT”模型,首次将“Transformer”(自然语言处理算法经典计算单元)运用到单细胞转录组测序数据分析领域。该模型基于 BERT 范式,将细胞中基因的表达信息转化成可被计算机理解、学习的“语言”,并对细胞进行精准标注。


开源地址:https://github.com/TencentAILabHealthcare/scBERT


为了保证全基因组内基因级别的可解释性,“scBERT”在预训练数据上没有做任何的降维或筛选处理,最大程度上保留数据本身的特性和信息。此外,该模型复用了大规模的公开数据集,包含不同实验来源、批次和组织类型的单细胞数据,以保证模型能学习到更为“通用”的知识,精准捕获单个基因的表达信息及两两基因之间的作用关系。


从结果上来看,“scBERT”模型实现了高解释性、高泛化性、高稳定性的单细胞类型注释技术。截至目前,通过了 9 个独立数据集、超过 50 万个细胞、覆盖 17 种主要人体器官和主流测序技术组成的大规模 benchmarking 测试数据集上,该算法模型的优越性均得以验证。其中,在极具挑战的外周血细胞亚型细分任务上,相较现有最优方法的 70%准确度提升了 7%。


在应用价值层面,该项技术能给细胞中的每个基因都印上专属“身份证”,可用于临床单细胞测序数据,并辅助医生描述准确的肿瘤微环境、检测出微量癌细胞,从而实现个性化治疗方案或者癌症早筛。同时,对疾病致病机制分析、耐药性、药物靶点发现、预后分析、免疫疗法设计等领域都具有极其重要的作用。目前,单细胞测序技术正处于向临床应用转化的阶段。

2022-09-27 14:184968

评论

发布
暂无评论
发现更多内容

从人员外包到测试工具、测试平台,提供全方位的测试解决方案~

测吧(北京)科技有限公司

测试

1 月比特币 ETF 终上市,公链稳健发展

Footprint Analytics

区块链 公链 BTC

Sora:新一轮产业技术革命的爆发点

老张

人工智能 sora

Python可视化工具集合来报道(上)

小齐写代码

SQL注入有什么办法防范

德迅云安全杨德俊

WorkPlus Meet助力企业建立安全可靠的私有化视频会议平台

BeeWorks

利用预训练模型优化大模型训练

百度开发者中心

人工智能 深度学习 大模型

LLMops:大模型时代的运维与部署之道

百度开发者中心

人工智能 运维 大模型 LLM

从人员外包到测试工具、测试平台,提供全方位的测试解决方案

测试人

外包 软件测试 测试工具 测试平台

基于Doris构建亿级数据实时数据分析系统

不在线第一只蜗牛

MySQL 数据库 Doris

第十三周作业

大肚皮狒狒

高防云服务器租用常见问题解答:确保顺畅的租用体验

一只扑棱蛾子

高防服务器 高防云服务器

跨境云手机如何简化tiktok运营流程

Ogcloud

TikTok 云手机 海外云手机 Tik Tok直播 tiktok云手机

云手机在引流方面有什么优势?

Ogcloud

云手机 海外云手机 云手机海外版 电商云手机

适用于 Amazon Step Functions 的低代码可视化新工作流 Workflow Studio, 现已在 Amazon Application Composer 正式发布!

亚马逊云科技 (Amazon Web Services)

低代码 亚马逊云科技 Amazon Lambda Amazon Step Functions

WorkPlus构建安全高效的内网通信平台,助力企业内部协作

BeeWorks

WorkPlus AI助理提供智能化客服解决方案,助力企业高效沟通

BeeWorks

从差旅申请到易快报,企业如何通过聚道云实现流程自动化?

聚道云软件连接器

案例分享

云手机受欢迎背后的原因及未来展望

Ogcloud

云手机 海外云手机 云手机海外版 国外云手机

腾讯 scBERT 算法模型登上《Nature》子刊,能辅助医生精准治癌_文化 & 方法_凌敏_InfoQ精选文章