14 天,几十个志愿者:开源疫情防护语料库“疫战 2020”发布

阅读数:2 2020 年 2 月 14 日 13:18

14天,几十个志愿者:开源疫情防护语料库“疫战 2020”发布

春节至今,疫情实时牵动着所有人的神经。除了奋战在一线的医护人员,越来越多的科技公司和技术人员希望尽自己的一份力,通过技术手段为社会提供可能的帮助。作为一家技术媒体,InfoQ 记录着每一个为之努力的技术人和背后的故事。

14天,几十个志愿者:开源疫情防护语料库“疫战 2020”发布

头图寄语:翻过这座山,就是光明

疫战 2020 项目正式发布

“我们看到有很多文章在传播错误的防护知识,我们看到权威机构发布的疫情防护手册内容需要被更多人使用,我们看到疫情有关的各种工具散落于网络中不能被一站式获取,我们看到很多人因为疫情陷入焦虑中,我们看到国务院针对疫情热点问题的权威回应需要方便获得… ”

为了帮助大家在浩如烟海的信息中快速找到相关问题的靠谱答案,2 月 1 日,用友白清杰发起了一个关于新型冠状病毒疫情防护的开源语料库“疫战 2020”,该项目很好地弥补了目前底层基础语料的缺口。

14天,几十个志愿者:开源疫情防护语料库“疫战 2020”发布

疫战 2020 疫情防护语料库是由用友员工白清杰发起的个人公益项目。语料由志愿者根据国家权威机构发布的资料共同编辑整理完成。整个团队从 2 月 3 号开始整理,到 7 号已初具规模。8 号、9 号进行集中突击,整理了大量语料。

2 月 11 号,语料建设的第一阶段已经接近完工。之后,大量志愿者对答案进行检查核对,更新过时的答案,规范答案的格式,抓取了百度知道的 5000 多个疫情相关问题做测试。志愿者将来自百度知道的 2200 多个问题通过人肉分拣,更新到了语料中。

针对疫情实时数据,整个团队将 69 种咨询方式和 369 个区域,按照排列组合方式,将生成的超过 25000 多个问题,加入到了语料中,甚至还精心挑选了一些和疫情防护有关的短句,附在每一条答案的后面,帮助更多人了解如何做好安全防护。

项目地址: https://gitee.com/yizhan2020/yizhan2020

语料来源

因为是做疫情相关的语料库,对用户的生命健康有重大影响,所以,团队对语料来源进行了精心甄选。

据介绍,语料库的语料来源于国家权威机构发布的资料,如国务院的中国政府网发布的权威回应、中国疾病预防控制中心发布的《新型冠状病毒感染的肺炎公众防护指南》、中国医学科学院北京协和医学院的相关专家编写的《协和新型冠状病毒肺炎防护手册》、人民日报的相关问答等。

此外,平台提供了国家及各个公司发布的疫情相关的工具链接,这些工具包括国务院疫情督查、征集肺炎求助者、密切接触者测量仪、疫情实时地图、心理援助电话、防疫物资供求等。

目前,语料来源于如下平台:

  • 国务院的中国政府网发布的权威回应、
  • 中国疾病预防控制中心发布的《新型冠状病毒感染的肺炎公众防护指南》
  • 中国医学科学院北京协和医学院的相关专家编写的《协和新型冠状病毒肺炎防护手册》
  • 人民日报的相关问答
  • 腾讯较真
  • 蒲公英医学

一条语料由基本问题、相似问题和答案组成。一个基本问题对应多个相似问题。答案的格式规范:

答案正文
来源:机构名称 + 文件名称
参考连接:  http://url
祝福语
免责声明:  http://t.cn/A6h72EGW

常用祝福语:

提醒:棉纱口罩、海绵口罩、活性炭口罩无防护作用, 请使用医用口罩

提醒:医用口罩够用,N95 口罩请留给医务人员

提醒:不出门、不聚集,安全第一

提醒:不隐瞒,早发现,早治疗,早健康

提醒:勤洗手、戴口罩、不聚集、少出门、频消毒、慎揉眼、多通风

岂曰无衣、与子同袍、王于兴师,修我戈矛

众志成城,万众一心,武汉加油,中国加油

在哪里尝试?

目前,疫战 2020 公益小组已经联合用友、爱因互动、微信开放平台、开源社、句子互动等多家企业及社会组织,共同向社会发布疫情防护智能问答服务。

用友旗下协同平台友空间内置智能机器人“小友”,搭载了疫情防护问答服务。用友人工智能团队基于该语料库发布了疫情智能问答 API,该 API 发布在了用友 APILink 开放平台上,API 免费向社会开放。

据爱因互动 CTO & TGO 鲲鹏会会员洪强宁介绍,爱因互动作为第一家向项目提供对话机器人技术支持的公司,派出了产品经理和工程师给予支持,使用志愿者建设的语料,训练智能问答机器人模型,向公众免费提供疫情知识问答机器人服务。微信公众号作者可以利用爱因互动提供的微信公众号集成服务在自己的公众号中向订阅者提供疫情问答服务,第三方开发者也可以利用爱因互动提供的 API 服务为自己的应用增加疫情问答功能。

微信对话开放平台为疫情助手机器人提供了强大的自然语言处理的技术支持。同时,利用微信对话开放平台的开放能力,将疫情助手机器人相关的技能开放到了平台内技能商店中,可供所有开发者免费使用。

开源社基于该语料库发布疫情智能问答服务,目前已在开源社微信公众号后台提供服务,开通了和开源社疫情微信聊天机器人服务。句子互动为微信聊天机器人提供接入服务和技术支持,后台的智能对话平台,由微软(亚洲)互联网工程院的商业人工智能团队提供技术支持以及 Azure 云资源。

句子互动是一家基于微信生态,为企业提供营销销售自动化和社群管理工具的公司。配合微信对话开放平台,快速创建了疫情小助手,用户添加疫情小助手为好友后,私聊直接提问或添加进入任意群并 @小助手,小助手便可回答关于疫情相关的问题。同时,句子互动也将功能集成到管理系统中,方便企业快速集成,为公众提供疫情知识问答服务。

尚在完善,共克时艰

语料库的整理工作是非常枯燥乏味和艰辛的。这些志愿者们凭着一腔热情,用业余时间对语料进行丰富完善。据了解,志愿者有来自北师大、北航、北邮、浙大、重大、武汉理工等高校的学生和老师,有来自上海计算所、共致开源等组织的热心人士。志愿者在很短的时间自发自愿的聚集在一起,借助网络的力量分工协作,通过众包方式完成语料库的整理。百科名医的 CTO 赵鑫磊先生提供了大量技术支持。

这是临时拼凑起来的一个志愿者团队,起初只有两三个人,后来变成十几个、几十个。大家都没有语料整理经验,爱因互动提供了语料建设规范,对志愿者进行了培训,帮助志愿者构建对智能问答服务友好的知识库。

在与 InfoQ 对话的过程中,白清杰表示,非常感谢所有为该项目付出的志愿者和团队,该项目秉承开源开放的原则,希望社会各界都可以基于该语料库,发布疫情智能问答服务和 API。接下来,团队将会根据日常权威回应对项目进行实时更新,计划在文本的基础上增加视频链接,根据用户使用情况调整和丰富语料库,欢迎感兴趣的开发者加入。

目前,团队在语料的版本管理方面存在问题,不知道业内是不是有相关工具可以使用或者提供,也希望有意者可与该团队取得联系(项目地址页面下方附有群二维码)。

项目地址: https://gitee.com/yizhan2020/yizhan2020

评论

发布