科大讯飞刷新SQuAD 2.0问答榜纪录,机器阅读理解全面超越人类

2019 年 3 月 28 日

科大讯飞刷新SQuAD 2.0问答榜纪录,机器阅读理解全面超越人类

近日,科大讯飞再次登上 SQuAD 2.0 挑战赛榜首,不过这次顺带刷新了一下纪录:在 EM(精准匹配率)和 F1(模糊匹配率)两项指标上全面超越人类平均水平,分别达到 87.147 和 89.474。其中 EM 指标高出人类平均水平 0.3 个百分点,F1 则是略微超过人类平均水平。同时,科大讯飞所提出的单模型效果也是目前榜单中最好的一个。

能取得这样的成绩,得益于科大讯飞团队此次的参赛模型“BERT + DAE + AoA”。为什么这个模型能取得这样高的精度?为寻找答案,AI 前线邀请到科大讯飞 AI 研究院资深级研究员、研究主管崔一鸣,来详细了解科大讯飞在比赛中刷新纪录的秘密。

image

EM、F1 两项指标首次全面超越人类平均水平

SQuAD 2.0 是认知智能行业内公认的机器阅读理解领域顶级水平测试,通过吸收来自维基百科的大量数据,构建了一个包含十多万问题的大规模机器阅读理解数据集。

SQuAD 2.0 阅读理解模型的评估标准包括两个,即精确匹配(Exact Match)和模糊匹配(F1-score),这是对参赛者提交的系统模型在阅读完数据集中的一个篇章内容之后,回答若干个基于文章内容的问题,然后与人工标注的答案进行比对之后得出的结果。

此前,这两个指标中的单一指标均不断被打破,评价指标超过人类平均水平甚至是两个指标都超过人类平均水平尚属首次,所以有人评价道,此次突破还是值得更多人关注的。

原文链接:【 https://www.infoq.cn/article/M7NpCAAMrPzRo-RViOKs 】。未经作者许可,禁止转载。

登录后可解锁全站优质内容

免费畅享技术公开课、顶尖技术团队访谈、一线互联网大厂技术实践

文章
视频
电子书
研究报告
立即登录
2019 年 3 月 28 日 08:05 5788
用户头像

发布了 30 篇内容,共 172 次阅读,收获喜欢 0 次。

关注

评论

发布
暂无评论
发现更多内容

MySQL性能优化(一):MySQL架构与核心问题

xcbeyond

MySQL MySQL性能优化

PerformancePoint 组件概述

JackWangGeek

SharePoint Online

计算机网络基础(二)---网络层-IP协议详解

书旅

php laravel 计算机网络 网络协议

从需求到交付——论敏捷过程中的需求管理

华为云开发者社区

敏捷开发 团队协作 需求管理 故事 持续交付

第六周总结

石印掌纹

实战技巧,Vue原来还可以这样写

前端有的玩

JavaScript Vue 前端 技巧

一致性协议算法

张瑞浩

震惊!ConcurrentHashMap里面也有死循环,作者留下的“彩蛋”了解一下?

why技术

Java 源码 jdk 后端 bug

Visio服务

JackWangGeek

SharePoint

从0开始设计Flutter独立APP | 第三篇: 一劳永逸解决全局BuildContext问题

渔子长

flutter 前端 跨平台 React

PowerPivot服务

JackWangGeek

SharePoint

面试官:如何决定使用 HashMap 还是 TreeMap?

爱嘤嘤嘤斯坦

Java 算法 hashmap

Malagu 框架开发 React 应用新体验

木香丘

Serverless React 微前端 微应用 Malagu

Excel服务

JackWangGeek

SharePoint

MySQL性能优化(二):选择优化的数据类型

xcbeyond

MySQL性能优化

PerformancePoint服务

JackWangGeek

SharePoint

Doris 临时失效处理过程

石印掌纹

【面试题系列】——Java基础

Noneplus

Java

配置 SharePoint Server for Reporting Services

JackWangGeek

SharePoint

文档写作利器:Markdown

xcbeyond

markdown

用Report Builder 创建报表

JackWangGeek

SharePoint

API接口设计最佳实践

Man

Java 安全开发 设计实践 APi设计 接口管理

MySQL性能优化(三):深入理解索引的这点事

xcbeyond

MySQL 索引 MySQL性能优化

Spring配置类深度剖析-总结篇(手绘流程图,可白嫖)

YourBatman

spring springboot @Configuration 白嫖

【进收藏夹吃灰系列】——Java基础快速扫盲

Noneplus

Java

SQL Server 报表服务

JackWangGeek

SharePoint

“Python的单例模式有四种写法,你知道么?”——孔乙己

Young先生

Python 设计模式 单例模式

Malagu 框架的认证与授权【借鉴 Spring Security 和 aws iam 的设计】

木香丘

身份认证 权限系统

那些年,我在阿里当数据开发

DeeperMan

大数据

架构师训练营作业 -- Week 6

吴炳华

极客大学架构师训练营

doris临时故障恢复过程时序图

刘志刚

众安黑客马拉松大赛总决赛-InfoQ小编探班

众安黑客马拉松大赛总决赛-InfoQ小编探班

科大讯飞刷新SQuAD 2.0问答榜纪录,机器阅读理解全面超越人类-InfoQ