2020 Google开发者大会重磅开幕 了解详情

全球新冠病毒COVID-19研究数据集正式开放,内含近3万篇论文和所需AI工具

2020 年 3 月 17 日

全球新冠病毒COVID-19研究数据集正式开放,内含近3万篇论文和所需AI工具

如今,这场疫情早已开始在全球范围内传播,全球数十家实验室陆续关闭,这对冠状病毒的研究工作进展十分不利。与此同时,全球众多国家和地区联合签名要求共享 COVID-19 研究数据集以及相关论文,并建议发布者同时提供 AI 软件和其他计算机系统可以直接使用的数据格式,以加速研究过程。


全球 COVID-19 研究数据集正式开放


近日,科技界、学术界正式宣布了一个公开数据集 CORD-19,内含截至 3 月 13 日的所有新型冠状病毒的论文,并包含针对文本进行优化的文本处理工具包 SciSpacy、在科学文本上进行预训练的 BERT 模型 SciBERT、开放研究语料库和 API 等,汇集了有关 SARS-CoV-2 病毒内容在内的共计近 3 万篇文献。



根据相关人员介绍,新的数据集是机器可读的,可以轻松进行解析以用于机器学习目的。为了让研究人员可以快速梳理清楚数据,美国国家科学、工程和医学研究院与世界卫生组织合作,提出了与冠状病毒有关的“高优先级”问题,这些问题与遗传、治疗、症状和预防等相关。


此前,全球已有包含美国、意大利、韩国、英国等在内的 11 个国家和地区要求相关机构开放这些数据集,以供研究。这里的相关机构包括 PubMed Central(美国国立卫生研究院提供的一项服务, 存档生物医学, 生命科学科研文献)和世界卫生组织的 Covid 数据库。在呼吁开放数据集的公开信中写道:


希望发布者可以提供相关的 AI 软件和计算机系统可以直接读取和使用的数据格式,而不是一个简单的 PDF 文档。


除了用于研究,相关机构也需要对内容进行筛选。此前,很多研究人员已经发布了不少与疫情相关的研究成果,但由于时间问题,不少论文都属于“预印本”状态,未经同行评审,可能存在一些问题,需要审查。《新英格兰医学杂志 (NEJM)》执行主编 Edward Campion 就曾表示:


我们每天收到多达 20 份关于冠状病毒的报告,坦率地说, 其中一些并不是高质量的文章。我们的部分责任是选择我们认为对临床受众和公共卫生受众最重要的内容。


值得注意的是,Kaggle 还围绕此主持了一场 COVID-19 开放研究数据集挑战赛,旨在激发开发人员使用 CORD-19 来寻找有关本次疫情如此大规模流行的新见解,包括该病毒的历史、传播和诊断,人畜接触的管理措施,先前流行病学研究的经验教训等。Kaggle 为获奖者提供了每项任务 1000 美元的奖励,其他奖品和详细信息参照挑战赛官网说明。


COVID-19 开放研究数据集地址:


https://pages.semanticscholar.org/coronavirus-research


疫情致许多实验室关闭,开放可提高生产力


因新冠病毒疫情影响,哈佛最近在陆续关闭实验室或大规模缩减实验室成员,这样的事情同样发生在其他实验室,这导致疫情相关的很多研究开展受阻,业界需要开放数据集进一步提高生产力。


通常,实验室是根据当地爆发的程度来决定运营方式,但目前全球疫情爆发严重,有些实验室陆续关闭,有些不鼓励继续研究,开放的一些机构虽然允许人员进入实验室,但也在控制人数,最大程度避免聚集在建筑物中的人数。爱荷华大学长期致力于冠状病毒研究的研究员 Stanley Perlman 表示:


已经不再允许学生在实验室里工作,而且研究生有一定的限制。这样一来,可以同时限制人数,并减少有人传播 SARS-CoV-2 病毒的机会。


这也在一定程度上影响了疫情的相关研究,研究人员表示,公共卫生和实验室成员的安全至高无上,但他们仍然担心离开实验室数周或数月将意味着必须重新启动某些项目或放弃实验,浪费时间和资源。约翰霍普金斯大学彭博公共卫生学院分子微生物学和免疫学教授 Arturo Casadevall 表示:到目前为止,我们保持开放状态,但情况非常不稳定。据了解,他正在研究针对 Covid-19 的治疗方法。


中国科学家贡献了大量研究和数据


早在一月份,在疫情被宣布为国际公共卫生紧急事件前,中国科学家就快速分享了 SARS-CoV-2 病毒首个基因组信息。去年 12 月底,武汉首次报告了新型冠状病毒肺炎。1 月 8 日,中国科学家完成了病毒基因组测序,并将其公开,以便让全世界的科学家投入到对抗 SARS-CoV-2 的战役中。


今年 1 月 31 日,也就是新型冠状病毒成为全球关注的突发公共卫生事件的第二天,94 家学术期刊、学会、研究机构和公司就曾签署了一项协议, 承诺至少在疫情爆发期间免费提供有关该疾病的研究和数据。


签署了这项协议的《公共科学图书馆(PLOS)》一直是开放获取,他们向作者而不是读者收取费用。PLOS 的主编 Joerg Heber 表示:


公共科学图书馆已做好应对任何疫情的准备。除了开放获取外,该期刊还要求复制研究所需的所有数据与之一起发表。尽管如此,同行评议研究仍然需要时间,因此 PLOS 强烈鼓励所有提交与冠状病毒相关论文的研究人员将这些论文作为预印本发表,以便尽快获得。


如今,汇集了所有研究成果的数据集正式开放,这不仅可以加速疫情的研究过程,同样可以对相关传染病的研究提供经验。如果开发者感兴趣,可以访问 COVID-19 数据集的官网进行下载,同意相关许可即可。


相关链接:


COVID-19 开放研究数据集地址:


https://pages.semanticscholar.org/coronavirus-research


COVID-19 开放研究数据集挑战赛地址:


https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge


2020 年 3 月 17 日 14:12 3352
用户头像
赵钰莹 InfoQ高级编辑

发布了 623 篇内容, 共 375.7 次阅读, 收获喜欢 2032 次。

关注

评论

发布
暂无评论
发现更多内容

不变的是什么?

zhongzhq

依道而行 规律 变化

程序员都应该知道的数据库避坑指南

Phoenix

MySQL 数据库 事务隔离级别

使用 Docker 部署 Django + MySQL 8 开发环境

AlwaysBeta

MySQL django Docker Dockerfile Docker-compose

架构师训练营第六周课后总结

Cloud.

手写一个Vue风格组件

林浩

JavaScript webpack 前端进阶训练营

你以为你真的理解 Closure 吗

大导演

JavaScript 前端进阶训练营

Java 基础知识整理

多选参数

Java

追光逐影:曝光相对论(1)

北风

摄影 影调 曝光 黑白

负载均衡+分布式数据库

王鹏飞

ARTS Week7

丽子

ARTS 打卡计划

第7周笔记:性能优化

Melo

普本毕业三年,四面华为,因精通这6大知识点拿到25*16薪offer

互联网架构师小马

Java 程序员 面试 求职 找工作

Android | Glide细枝篇

哈利迪

android 源码

Debug ArrayList源码

Noneplus

Java

《架构师训练营》第七周总结

Week7 作业

Shawn

raft协议中, 候选人角色能参与投票吗

王传义

raft

Flink 生态:Pulsar Connector 机制剖析

Apache Flink

flink

浪潮信息推动AI在线教育实现全面应用

Geek_116789

《架构师训练营》第七周命题作业

流量控制算法

架构 流量控制 流控算法

LeetCode题解:1051. 高度检查器,JavaScript,桶排序,详细注释

Lee Chen

LeetCode 前端进阶训练营

写一个并发测试工具

罗亮

ARTS打卡第3周

Scotty

架构师训练营第六周-总结

人世间

tcpdump 实例-获取网络包的50种方法

Rayjun

TCP/IP tcpdump

IDEA命令行缩短器助你解决此问题:Command line is too long. Shorten command line...

YourBatman

intellij-idea spring IDEA springboot

WordPress插件设计

心平气和

php 插件设计 插件系统 WordPress

第七周作业

田振宇

第7周作业:web性能测压工具

Melo

CAP原理

王鹏飞

全球首发的中国原创--“飞算全自动软件工程平台”产品发布会

全球首发的中国原创--“飞算全自动软件工程平台”产品发布会

全球新冠病毒COVID-19研究数据集正式开放,内含近3万篇论文和所需AI工具-InfoQ