阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

微信 AI 团队推出最新 NumNet+ 模型,超越谷歌登 DROP 榜首

  • 2019-10-18
  • 本文字数:2532 字

    阅读完需:约 8 分钟

微信AI团队推出最新NumNet+模型,超越谷歌登DROP榜首

近期,微信 AI 团队在 leaderboard 网站上提交的 NumNet+模型,经 DROP 数据集检验,超越 Google Research ,并占据排行榜第一名。微信 AI 团队称,这项技术可以帮助人工智能提升阅读理解能力和逻辑推理能力,并已经向专利局提交专利申请,未来或可能用于完善腾讯小微智能对话助手。为了解 NumNet+模型更多的信息,InfoQ 对微信 AI 团队进行了相关采访。



NLP自然语言处理)以实现人机交流为目的,是连通机器语言和人类语言的桥梁。它主要分为两个部分:NLU(自然语言理解) NLG(自然语言生成)。此次微信 AI 团队所研发的 NumNet+ 模型则主要是应对 NLU 领域中的“数学运算问题”,换句话说就是 NumNet+ 模型能够在一定程度上提高计算机的数学推理能力。


注:NLU 目前应用的领域主要集中在机器翻译、机器客服、智能音箱等领域,但由于需要大量的数据训练和 NLU 本身存在的一些语言语义上的难点,其实机器还不是非常智能。

leaderboard 和 DROP

微信 AI 团队推出的模型被称为“NumNet+”,核心组件是能够进行数字感知的图卷积网络 NumGNN 。目前,NumNet+ 模型经过 leaderboard 网站评测,在 DROP 数据集 榜单上排名第一。


leaderboard 网站是由 AI2(Allen Institute for Artificial Intelligence)实验室开发的在线评测网站。AI2 在 leaderboard 网站上发布了多种数据集,每一个数据集都有相应的排行榜。其中的 DROP 数据集便是专门为考察模型应对数学运算问题的能力而提出的。


举个例子:当你对机器人说拿 10 个蛋挞,它也许会很快拿 10 个蛋挞放在你的面前;但如果你对机器人说,给这里的 5 个人,每人 2 个蛋挞,它就很有可能会出现混乱。微信 AI 团队所提出的 NumNet+模型,就是为了解决这类问题、提高人工智能在数学运算方面理解能力的模型。相对应的,DROP 则是为了检测这种能力强弱而设立的数据集。


微信 AI 团队称,DROP 榜单更强调对数学运算相关推理能力的测评。NumNet+能够获得第一,说明微信 AI 团队提出的基于图卷积网络的方法在数学推理方面具有一定的潜力,为学术界解决此类问题提供了一种候选方向。


涉及到数学运算方面的数据集,可以理解成两类:

1.类似于做数学应用题,这类问题的文本通常来讲是比较简单的,但是涉及到的数学运算比较复杂,数学表达式涉及很多步骤。

2.文本部分更长,对于文本理解要求更高,但是中间涉及到数学运算种类较少,复杂程度也较低。

构建 NumNet+ 模型

NumNet+ 模型基于原有的 NumNet 模型构建,融入 RoBERTa 的能力,以及核心组件 NumGNN 的加成,才得以刷新 DROP 数据集榜单。


微信 AI 团队解释称,在 NumNet+模型中,问题和文本首先需要经过一个 encoder (编码器)编码成向量表示,然后再输入到 NumGNN 中。在 encoder 部分,NumNet+ 用 RoBERTa 替换了 NumNet 模型中未经过预训练的 Transformer encoder,而这一改变也使得实验效果更佳。

NumGNN 的作用

过去大多数机器阅读理解模型往往会将数字与非数字单词同等对待,如此便无法获知数字的大小关系,也不能完成诸如计数、加减法等数学运算。为解决这个问题,微信 AI 团队提出了图卷积网络 NumGNN。


通过 NumGNN,微信 AI 团队利用图的拓扑结构编码数字间的大小关系,将文章和问题中的数字作为图结点,在具有“>”和“<=”关系的数字间建立有向边,从而将数字的大小关系作为先验知识注入模型;另一方面,微信 AI 团队还使用 NumGNN,在前述图结构上执行推理,从而支持更复杂的数学推理功能。


NumNet+ 模型的成功,侧面反映出图卷积网络在处理符号推理类问题中确实能够起到一定的作用,并可以作为解决该类问题的一种候选方法。微信 AI 团队成员表示,近几年,图卷积网络在 NLP 中有很多应用,是一种不错的建模多个对象间关系的工具;但同样它也有自己的局限性,需要根据实际问题的要求来辩证判断。

对比 DeepMind NALU

神经网络本质上是一系列的矩阵乘和非线性变换,信息一旦注入到神经网络之后,就会变得模糊,以至于数学运算在神经网络中并不能得到很好的实验结果。


DeepMind 主要是尝试用神经网络对符号运算进行建模,换句话说就是预先定义好一些数学表达式类型,看看神经网络能不能够把它学出来,所以它的实验部分在测试的问题方面相对简单。


而微信 AI 团队表示,他们更加关注在已有工作基础上用相对简单的方法为模型带来额外的数学推理能力。从新的 NumNet+ 模型来看,通过图卷积神经网络和合适的建图方式,在一定程度上就能达成这种目的。


另外,从学术发展现状来看,现在神经网络模型比较擅长做分类、模式识别等相关工作,一旦涉及到数学运算,就会涉及到具体符号的操作。利用神经网络建模这类问题比较困难,现在也没有特别公认的非常成熟的建模手段,因此这方面现在还处于探索阶段。

研究和落地过程中的挑战

NumNet+ 模型虽然取得了相关领域排行榜第一,但在整个研究过程中,微信 AI 团队遇到了不少的挑战。


微信 AI 团队表示,在 NumNet+ 模型构建过程中,最困难的是对问题的定义和抽象。一方面需要根据数据集所定义的问题提出假设,另一方面需要花费较长时间通过各种推算方式验证这些假设是不是对的。同时,这中间还需要花费大量的精力做数据的预处理和提升,以保证对比的 baseline 足够强、实验结论的可信度足够高。


另外,在数字离散推理方面,微信 AI 团队也表达了自己的想法:


目前,人们应用较多且具有较强文本理解能力的模型,大部分都是基于神经网络的,然而神经网络并不擅长处理离散符号相关的问题。虽然传统的方法相对来讲,处理起来会更容易一些,但对于文本,特别是复杂文本的理解上还是有所欠缺。未来,如何将这两方面能力做更好的结合会是最大的挑战。


此外,技术落地业务也是非常重要的一环, NumNet+ 模型在实际落地过程中同样遇到了不少困难。对此,微信 AI 团队向 InfoQ 记者表示:


现在最主要的落地难点在于当前的模型所能应对的场景具有一定限制,实际落地中需要找好用户需求与技术所能达到上限的平衡点。换句话说,NumNet+ 模型目前尚未达到特别成熟的程度。只有 NumNet+ 模型再进一步之后,才有可能应用于多种场景,比如对话系统、阅读企业年报、比赛结果报道等。

最后

微信 AI 团队关于 NumNet+ 模型的相关论文《NumNet: Machine Reading Comprehension with Numerical Reasoning》,已经被 EMNLP2019 收录。


开源地址点这里


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-10-18 08:002176
用户头像
张之栋 前InfoQ编辑

发布了 91 篇内容, 共 46.4 次阅读, 收获喜欢 159 次。

关注

评论

发布
暂无评论
发现更多内容

中企出海成大热趋势,海外用户如何高效触达

MobTech袤博科技

模型服务文档自动生成,要素追溯关联、结构规范易读|ModelWhale 版本更新

ModelWhale

大模型 企业团队协同 数据开放和利用 学科交叉 人文社科

Milvus Lite 已交卷!轻量版 Milvus,主打就是一个轻便、无负担

Zilliz

Milvus 向量数据库 MILVUSLITE

Go 空结构体:零内存的魔力

陈明勇

Go golang 空结构体 6 月 优质更文活动

揭秘新一代云数仓技术架构与最佳实践

字节跳动数据平台

大数据 数据仓库 云原生 OLAP 数据仓库服务

火山引擎DataLeap:从短视频APP实践来看,如何统一数据指标口径?

字节跳动数据平台

大数据 指标体系 数据研发 指标建设

2023-06-08:给你一棵二叉树的根节点 root ,返回树的 最大宽度 。 树的 最大宽度 是所有层中最大的 宽度 。 每一层的 宽度 被定义为该层最左和最右的非空节点(即,两个端点)之间的长度

福大大架构师每日一题

算法 福大大

节省90%编译时间,这是字节跳动开源的基于Rust的前端构建工具

字节跳动技术范儿

rust 前端 前端构建

墨天轮国产关系型分布式数据库榜单解读

墨天轮

数据库 GaussDB TiDB oceanbase polarDB

总结vue3 的一些知识点:MySQL LIKE 子句

雪奈椰子

SaaS公司如何成为 AI 独角兽?发挥长板:流程、用户需求和数据积累

B Impact

常见的软件可靠性度量和分析方法

穿过生命散发芬芳

可靠性度量 6 月 优质更文活动

Vue.js 最佳实践:提高性能和减少耦合的方法

xfgg

JavaScript Vue 前端 6 月 优质更文活动

3DCAT亮相糖酒会,为元宇宙展会提供实时云渲染支持

3DCAT实时渲染

元宇宙 实时云渲染

总结vue3 的一些知识点:MySQL 连接的使用

雪奈椰子

总结vue3 的一些知识点:MySQL NULL 值处理

雪奈椰子

迈向新时代的英特尔代工服务:走差异化路径,坚持客户至上

最新动态

几个小技巧,提高你的代码质量

SoFlu软件机器人

代码质量 程序员、 软件开发、

一篇关于代码质量的实用攻略!

SoFlu软件机器人

代码质量 软件开发、

对话 ChatGPT 理解 Rust 异步网络 io

黑客不够黑

rust 编程语言 tokio 异步网路io

Pilota:为什么一个代码生成工具如此复杂丨GOTC Rust系列分享

字节跳动技术范儿

rust GOTC

C语言编程—头文件

智趣匠

C语言 头文件 6 月 优质更文活动

Vue使用axios进行get请求拼接参数的两种方式

不觉心动

6 月 优质更文活动

有哪些内外网都能传输文件的工具-镭速

镭速

10个刚需的Blender小技巧

Finovy Cloud

blender C4D

从数据开始,构建值得信赖的生成式AI应用

澳鹏Appen

人工智能 nlp 数据标注 ChatGPT 生成式AI

HAG:首个通过合规STO将RWA通证化应用于比特币Mining的项目

股市老人

直播倒计时1天 | 一体化智能可观测平台如何保障电商节大促

博睿数据

电商 智能运维 博睿数据 直播预告

【零售电商系列】走进亚马逊(一)

小诚信驿站

6 月 优质更文活动

开发一个API Gateway

无心

API Gateway

浅谈中小企业如何选择适合自己的网络营销方式

石头IT视角

微信AI团队推出最新NumNet+模型,超越谷歌登DROP榜首_语言 & 开发_张之栋_InfoQ精选文章