“AI 技术+人才”如何成为企业增长新引擎?戳此了解>>> 了解详情
写点什么

微信 AI 团队推出最新 NumNet+ 模型,超越谷歌登 DROP 榜首

  • 2019-10-18
  • 本文字数:2532 字

    阅读完需:约 8 分钟

微信AI团队推出最新NumNet+模型,超越谷歌登DROP榜首

近期,微信 AI 团队在 leaderboard 网站上提交的 NumNet+模型,经 DROP 数据集检验,超越 Google Research ,并占据排行榜第一名。微信 AI 团队称,这项技术可以帮助人工智能提升阅读理解能力和逻辑推理能力,并已经向专利局提交专利申请,未来或可能用于完善腾讯小微智能对话助手。为了解 NumNet+模型更多的信息,InfoQ 对微信 AI 团队进行了相关采访。



NLP自然语言处理)以实现人机交流为目的,是连通机器语言和人类语言的桥梁。它主要分为两个部分:NLU(自然语言理解) NLG(自然语言生成)。此次微信 AI 团队所研发的 NumNet+ 模型则主要是应对 NLU 领域中的“数学运算问题”,换句话说就是 NumNet+ 模型能够在一定程度上提高计算机的数学推理能力。


注:NLU 目前应用的领域主要集中在机器翻译、机器客服、智能音箱等领域,但由于需要大量的数据训练和 NLU 本身存在的一些语言语义上的难点,其实机器还不是非常智能。

leaderboard 和 DROP

微信 AI 团队推出的模型被称为“NumNet+”,核心组件是能够进行数字感知的图卷积网络 NumGNN 。目前,NumNet+ 模型经过 leaderboard 网站评测,在 DROP 数据集 榜单上排名第一。


leaderboard 网站是由 AI2(Allen Institute for Artificial Intelligence)实验室开发的在线评测网站。AI2 在 leaderboard 网站上发布了多种数据集,每一个数据集都有相应的排行榜。其中的 DROP 数据集便是专门为考察模型应对数学运算问题的能力而提出的。


举个例子:当你对机器人说拿 10 个蛋挞,它也许会很快拿 10 个蛋挞放在你的面前;但如果你对机器人说,给这里的 5 个人,每人 2 个蛋挞,它就很有可能会出现混乱。微信 AI 团队所提出的 NumNet+模型,就是为了解决这类问题、提高人工智能在数学运算方面理解能力的模型。相对应的,DROP 则是为了检测这种能力强弱而设立的数据集。


微信 AI 团队称,DROP 榜单更强调对数学运算相关推理能力的测评。NumNet+能够获得第一,说明微信 AI 团队提出的基于图卷积网络的方法在数学推理方面具有一定的潜力,为学术界解决此类问题提供了一种候选方向。


涉及到数学运算方面的数据集,可以理解成两类:

1.类似于做数学应用题,这类问题的文本通常来讲是比较简单的,但是涉及到的数学运算比较复杂,数学表达式涉及很多步骤。

2.文本部分更长,对于文本理解要求更高,但是中间涉及到数学运算种类较少,复杂程度也较低。

构建 NumNet+ 模型

NumNet+ 模型基于原有的 NumNet 模型构建,融入 RoBERTa 的能力,以及核心组件 NumGNN 的加成,才得以刷新 DROP 数据集榜单。


微信 AI 团队解释称,在 NumNet+模型中,问题和文本首先需要经过一个 encoder (编码器)编码成向量表示,然后再输入到 NumGNN 中。在 encoder 部分,NumNet+ 用 RoBERTa 替换了 NumNet 模型中未经过预训练的 Transformer encoder,而这一改变也使得实验效果更佳。

NumGNN 的作用

过去大多数机器阅读理解模型往往会将数字与非数字单词同等对待,如此便无法获知数字的大小关系,也不能完成诸如计数、加减法等数学运算。为解决这个问题,微信 AI 团队提出了图卷积网络 NumGNN。


通过 NumGNN,微信 AI 团队利用图的拓扑结构编码数字间的大小关系,将文章和问题中的数字作为图结点,在具有“>”和“<=”关系的数字间建立有向边,从而将数字的大小关系作为先验知识注入模型;另一方面,微信 AI 团队还使用 NumGNN,在前述图结构上执行推理,从而支持更复杂的数学推理功能。


NumNet+ 模型的成功,侧面反映出图卷积网络在处理符号推理类问题中确实能够起到一定的作用,并可以作为解决该类问题的一种候选方法。微信 AI 团队成员表示,近几年,图卷积网络在 NLP 中有很多应用,是一种不错的建模多个对象间关系的工具;但同样它也有自己的局限性,需要根据实际问题的要求来辩证判断。

对比 DeepMind NALU

神经网络本质上是一系列的矩阵乘和非线性变换,信息一旦注入到神经网络之后,就会变得模糊,以至于数学运算在神经网络中并不能得到很好的实验结果。


DeepMind 主要是尝试用神经网络对符号运算进行建模,换句话说就是预先定义好一些数学表达式类型,看看神经网络能不能够把它学出来,所以它的实验部分在测试的问题方面相对简单。


而微信 AI 团队表示,他们更加关注在已有工作基础上用相对简单的方法为模型带来额外的数学推理能力。从新的 NumNet+ 模型来看,通过图卷积神经网络和合适的建图方式,在一定程度上就能达成这种目的。


另外,从学术发展现状来看,现在神经网络模型比较擅长做分类、模式识别等相关工作,一旦涉及到数学运算,就会涉及到具体符号的操作。利用神经网络建模这类问题比较困难,现在也没有特别公认的非常成熟的建模手段,因此这方面现在还处于探索阶段。

研究和落地过程中的挑战

NumNet+ 模型虽然取得了相关领域排行榜第一,但在整个研究过程中,微信 AI 团队遇到了不少的挑战。


微信 AI 团队表示,在 NumNet+ 模型构建过程中,最困难的是对问题的定义和抽象。一方面需要根据数据集所定义的问题提出假设,另一方面需要花费较长时间通过各种推算方式验证这些假设是不是对的。同时,这中间还需要花费大量的精力做数据的预处理和提升,以保证对比的 baseline 足够强、实验结论的可信度足够高。


另外,在数字离散推理方面,微信 AI 团队也表达了自己的想法:


目前,人们应用较多且具有较强文本理解能力的模型,大部分都是基于神经网络的,然而神经网络并不擅长处理离散符号相关的问题。虽然传统的方法相对来讲,处理起来会更容易一些,但对于文本,特别是复杂文本的理解上还是有所欠缺。未来,如何将这两方面能力做更好的结合会是最大的挑战。


此外,技术落地业务也是非常重要的一环, NumNet+ 模型在实际落地过程中同样遇到了不少困难。对此,微信 AI 团队向 InfoQ 记者表示:


现在最主要的落地难点在于当前的模型所能应对的场景具有一定限制,实际落地中需要找好用户需求与技术所能达到上限的平衡点。换句话说,NumNet+ 模型目前尚未达到特别成熟的程度。只有 NumNet+ 模型再进一步之后,才有可能应用于多种场景,比如对话系统、阅读企业年报、比赛结果报道等。

最后

微信 AI 团队关于 NumNet+ 模型的相关论文《NumNet: Machine Reading Comprehension with Numerical Reasoning》,已经被 EMNLP2019 收录。


开源地址点这里


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-10-18 08:002164
用户头像
张之栋 前InfoQ编辑

发布了 91 篇内容, 共 46.0 次阅读, 收获喜欢 159 次。

关注

评论

发布
暂无评论
发现更多内容

为什么低代码只能掀起小浪花?了解低代码的得失与前景

这我可不懂

软件开发 低代码 JNPF

RLHF如何赋能生成式AI

澳鹏Appen

大模型训练 大模型 生成式AI LLM RLHF

和鲸科技受邀参与 2023 中国大学生计算机设计大赛国赛评审

ModelWhale

人工智能 大数据 数据分析 高等教育 以赛促学

没有人能真正精通C++

互联网工科生

c++ 语言

Nautlius Chain主网正式上线,模块Layer3时代正式开启

EOSdreamer111

矿炼真金色,终见菩提心:首个商用的矿山大模型是怎样炼成的?

脑极体

AI 大模型

Nautlius Chain主网正式上线,模块Layer3时代正式开启

鳄鱼视界

活动回顾丨阿里云 Serverless 技术实战与创新广州站回放& PPT 下载

阿里巴巴云原生

阿里云 Serverless 云原生

云原生微服务应用的平台工程实践

阿里巴巴云原生

阿里云 云原生

HarmonyOS课程体验官招募(第四期),寻找乐于分享,精益求精的伙伴

HarmonyOS开发者

HarmonyOS

我用ChatGPT润色的课题论文初体验|社区征文

爱技术的药学生

AI 论文写作 GPT 年中技术盘点

B站&华为云 | 融合虚实宇宙,开启云上视听的黄金时代

脑极体

AI B站 华为云

XR应用云流化如何提升扩展现实体验?!

3DCAT实时渲染

实时渲染云 XR应用云流化

KCL v0.5.0 重磅发布 - 面向云原生场景更易用的语言、工具链,社区集成和扩展支持

Peefy

开源 DevOps 云原生 编程语言 Kubernetes Serverless

基于Qt编写超精美自定义控件

攻城狮Wayne

基于 Orbit 的云原生应用交付基础原则与良好实践

CODING DevOps

用极限网关实现 ES 容灾,简单!

极限实验室

ES 容灾 网关 功能测试

2023-07-19:布尔表达式 是计算结果不是 true 就是 false 的表达式 有效的表达式需遵循以下约定: ‘t‘,运算结果为 true ‘f‘,运算结果为 false ‘!(subExpr

福大大架构师每日一题

福大大架构师每日一题

全部免费!整理了10个Python自动化办公库!(下)

程序员晚枫

Python 工具 机器人 自动化办公

中台,真的是一场自欺欺人的骗局吗?

EquatorCoco

中台 中台架构

广州市番禺区委领导一行莅临和鲸科技考察交流

ModelWhale

人工智能 数据科学 产业创新 人才生态

什么是从人类反馈中强化学习(RLHF)?

这我可不懂

ChatGPT LLM RLHF

NUC永存!英特尔刚刚和华硕聊了后续合作

E科讯

关于新兴技术对我们生活和工作方式的改变 | 社区征文

fifoaa

年中技术盘点

阿里云斩获 4 项年度云原生优秀案例丨阿里云云原生 6 月动态

阿里巴巴云原生

阿里云 云原生

人工智能驱动科学研究:ModelWhale 助力医疗领域科研范式改革

ModelWhale

人工智能 数据分析 数字化医疗 模型推理 AI for Science

Nautlius Chain主网正式上线,模块Layer3时代正式开启

股市老人

Nautlius Chain主网正式上线,模块Layer3时代正式开启

威廉META

生成式 AI:改变未来的力量| 社区征文

度假的小鱼

年中技术盘点

用Vue如何实现低代码开发平台?

高端章鱼哥

低代码 低代码开发 JNPF

解码 LangChain|用 LangChain 和 Milvus 从零搭建 LLM 应用

Zilliz

Milvus Zilliz AIGC langchain

微信AI团队推出最新NumNet+模型,超越谷歌登DROP榜首_语言 & 开发_张之栋_InfoQ精选文章