写点什么

多次问鼎NuerIPS、MRQA等国际顶级比赛,百度NLP技术到底有多强?

2019 年 10 月 08 日

多次问鼎NuerIPS、MRQA等国际顶级比赛,百度NLP技术到底有多强?

人工智能技术的发展尤其是深度学习技术的成功运用,推动自然语言处理(NLP)进入了高速发展阶段。NLP 目前也是应用范围最广的人工智能技术之一,已在智能搜索、智能客服、智能助手、智能推荐等方面得到了大规模应用。


那么,NLP 在 2019 年有哪些最新技术进展和落地应用?未来,NLP 又将怎样发展?这里,我们有幸邀请到了百度 NLP 首席科学家吴华博士,来给大家就 NLP 相关技术点分享宝贵经验,希望可以带给你一些启发和思考。


另外,吴老师还将会在今年 11 月 21 日举行的 AICon全球人工智能与机器学习技术大会(北京站)2019 上担任联席主席深入参与大会,大会还设有“NLP 应用和实践“技术专场为大家带来相关最新技术探索,欢迎关注。


作为 NLP 首席科学家,吴华在百度这些年都做了啥?


吴华,百度技术委员会主席、百度自然语言处理首席科学家。主要研究领域包括自然语言处理、知识图谱等。吴华博士曾担任自然语言处理领域国际会议 ACL 2014 年的程序委员会主席,是中国本土企业首位 ACL 程序委员会主席。曾被评为福布斯“AI 杰出女性”、“杰出工程师”、“十佳中国电子学会优秀科技工作者”,并入选“北京市百千万人才工程”、“青年北京学者”。获国家科技进步奖二等奖 1 项、中国电子学会科学技术奖一等奖 4 项、中国专利银奖 1 项。


吴华在百度的主要工作职责有两个:负责百度语言与知识技术体系的技术规划、技术研发与技术应用,百度的语言与知识技术包括两个部分:自然语言处理与知识图谱。同时,也是百度的技术委员会主席,主要职责是制定工程师技术职称标准与评定,培养工程师的技术能力,引导工程师成长。


百度在 NLP 领域的最新技术发展


作为最早关注并将深度学习应用于自然语言处理(NLP)的科学家之一,吴华表示百度 NLP 的技术进展涉及到语义表示、阅读理解、机器翻译、人机对话、智能写作等多个方面:


(1)语义表示是 NLP 最基础也最重要的任务


近两年,无监督预训练语言模型给基于语义表示的自然语言处理技术带来巨大突破。百度研制的持续学习语义理解框架 ERNIE,一方面引入海量语料和包含词汇、句法、语义等不同层次的多元知识,学习更好的语义表示,一方面通过构建多任务学习的预训练任务,持续提升模型的泛化能力和应用效果。借助百度飞桨深度学习平台多机多卡分布式训练优势,实现工业级规模数据的高效训练,在语言推断、语义相似度、命名实体识别、情感分析、问答匹配、阅读理解等语言理解相关的 16 个任务上全面超越业界最好方法。


(2)阅读理解


阅读理解技术是衡量机器理解人类语言综合水平的重要方式,百度在该方面不断创新,先后提出了基于注意力机制的多文档校验模型 V-NET,文本表示和知识表示的融合模型 KT-NET,以及基于多领域预训练和知识蒸馏的阅读理解模型 D-NET,在 DuReader、MARCO、ReCoRD、MRQA 等多项机器阅读理解评测集和比赛中夺冠。


(3)机器翻译


在 2015 年发布大规模互联网神经网络翻译系统以后,这两年更注重语音到语音的同声传译系统的研发,提出了基于联合向量编码的语音 - 文本联合语义表示方法,全球首个语义驱动的上下文感知机器同传模型,实现了高精准、低延时的工业级机器同声传译系统度同传,同传效果媲美人类翻译。


(4)对话


百度发布了理解与交互技术平台 UNIT(Understanding and Interaction Technology)3.0,提供面向任务对话、基于知识对话、开放式闲聊等技术与服务,创新地提出了基于反馈的对话理解以及基于知识的主动对话技术,并与中文信息学会、计算机学会一起组织了首届基于知识的对话竞赛,吸引了国内外知名高校、企业参加。相关技术通过 UNIT 以技术中台方式在百度搜索、地图、输入法、车联网,以及电信、金融、航司头部客户上广泛应用,周日均请求量达 2.9 亿。


UNIT 在对话理解方面,提出了基于少量样本与规则的 SmartSLU,可基于百级别数据快速形成可用的对话理解模型;此外还结合对话管理技术,提出了反馈式对话理解技术,可在对话过程中通过反馈持续改进理解效果。问答方面,提出了对话式文档问答,可围绕原始业务文档自动生成多轮问答系统。对话管理方面,提出了可编程的对话管理框架 Taskflow,支持基于通用编程语言定义灵活的对话流程。


(5)智能写作


百度智能写作技术非常全面,包括基于句法树生成的结构化数据到文本的生成,基于摘要的文本到文本的聚合生成,先后提出了基于全局语义信息选择网络的摘要抽取模型,和基于句子级结构化控制的摘要生成模型。除传统文本生成技术,还有基于主题规划的诗歌、对联等创意写作,以及基于视频理解的多模生成等。这些自动写作技术已在百度智能写作平台全面对外开放,除自动写作技术,百度智能写作平台还提供了更为实用的辅助写作能力,提供热点发现、热词分析、素材推荐、标题生成、文本纠错等功能,为作者的创作过程提供全流程辅助。


百度的语言与知识技术能力,一方面已全面支持了百度内部产品的进化,融入到百度搜索、信息流推荐、百度地图、智能音箱等几乎所有业务和产品中,为亿万用户提供服务;另一方面,也通过开放赋能,通过全方位、多元化的技术开放模式,逐步加速各行各业与人工智能的融合,推动如农业、制造业、零售、教育、医疗、电力、金融等行业的智能化升级。


2019 年 NLP 值得重点关注的技术


具体到 2019 年,又有哪些技术点值得我们重点关注呢?


(1)这两年 NLP 领域最重大的突破是大规模无监督预训练模型。 从 2018 年的 ELMo、GPT、BERT 到今年 XLNET、ERNIE,前后出现了不下 10 余种不同的模型,使用语料规模越来越大,能力越来越强,大规模无监督预训练模型还会持续突破,大幅提升 NLP 各个任务的性能。ERNIE 的工作表明,在预训练过程中,通过构建各层面的无监督预训练任务,能够不断提升模型效果。未来还可以沿着这个思路构建更多的任务提升模型性能。目前,基于 “预训练 - 微调”模式已成为自然语言处理领域被广泛采用的一种学习范式,但这种模式也还存在很多值得改进的地方,比如,如何解决灾难性遗忘的问题,如何更高效地提升特定任务上的性能等。


(2)多模态融合的语义表示和分析。 深度学习技术将图像、语音、语言等多模态异构信息映射到统一的特征空间中,形成一致的表示形式,使得基于多模态的深度语义理解成为可能,也催生了看图说话、视觉问答等新型多模态研究课题和技术方向。上述“预训练 - 微调”的两阶段范式分别在 CV 和 NLP 领域取得了巨大成功,在多模态信息表征和理解任务上也值得进行进一步探索。另一方面,虽然这种基于深度学习的嵌入表示为多模态信息提供了一种大一统的融合方式,但还是比较粗糙的,也很难表达语言的符号特性和描述逻辑推理过程,需要更基础的理论研究深入探索图像语言信号相互转化的机制,推动深度学习技术与传统符号和逻辑推理技术的融合。


机器翻译的挑战与未来发展


关于机器翻译,吴华老师也谈到了目前遇到的挑战和技术难点,她表示,近年来,基于神经网络的机器翻译发展迅速,翻译质量获得大幅跃升,在很多领域达到可以实用化的水平,广泛地用于外语学习、跨境商务、旅游等领域。


机器翻译主要的难点是资源稀缺的多语言翻译、语篇翻译以及翻译的可解释性等。 在资源稀缺的多语言翻译方面,百度提出的多任务学习的翻译方法、知识蒸馏的方法等都大幅提升了翻译质量。篇章翻译也是机器翻译面临的一大挑战。目前,大部分机器翻译系统都以句子为翻译单位,句子之间不连贯、译文前后不一致。百度提出的多轮解码方法,结合增强式学习,使得模型可以产生流畅、连贯的译文。此外,神经网络模型的另外一个挑战是可解释性,研究人员难以对神经网络内部结构及行为进行合理解释,有些研究人员试图结合人类大脑结构的研究来揭示神经网络内部机理。


近年来,随着人工智能技术的发展,呈现多技术融合的趋势。机器同传是其中非常有代表性的研究方向。机器同传涉及语音识别、机器翻译、语音合成等多个领域的技术,近年来取得较大进步。百度研发的机器同传在很多场合得到应用,包括百度世界大会、百度 AI 开发者大会、AICC 人工智能计算大会等内外部几十场大型会议。然而,机器同传距离真正的开放性实用还有一段距离,在语音容错、翻译质量与时延的平衡、翻译的一致性、评估指标等方面都面临极大的挑战。百度近期的一项实验表明:在可接受度方面,机器同传可以媲美人类同传。机器的优点在于不知疲倦,同时在漏译上少于人类同传,而人类同传可以结合自己的理解进行合理省略,保证重要信息的传递,同时保持较小的时间延迟。


将来,资源稀缺的多语言翻译以及多模翻译是一个比较大的趋势,多模翻译尤其是同传以及 AR 翻译是未来翻译的研究的热点。


学术界 PK 工业界,AI 研究有哪些不同?


谈到学术届和工业界 AI 研究的不同,吴华主要从以下几个方面进行了解答:


(1)目标 / 驱动力不同


学术研究关注技术本身,学术界侧重展望未来进行前瞻性的研究,只要是没有解决的问题,都可以去进行探索和研究;工业界更加关注能满足用户需求的研究。


(2)策略不同


学术研究追求技术的完备性、精益求精,可以花大力气追求 1% 的性能提升;应用落地很多时候要“粗、快、猛”,追求性价比,不一定要技术完备才能应用,能够在一定场景下解决实际问题就可以先用起来。


从 AI 学术研究到工业界落地有哪些难点?


应用的场景和时机的选择:技术成熟度,工业界关注技术的普适性,而研究人员关注技术在单点的突破性,这两者的差距,容易造成对技术成熟度的误判。另外,场景的选择很重要,针对不同的场景和用户,需求可能很不一样,NLP 属于基础技术,一方面要有通用性,一方面要提供定制化能力。


改进的手段:从用户的角度、实际的应用场景出发思考问题,不能闭门造车。 比如同传技术,并不是只追求翻译质量,还需要考虑到时延的影响,做到两方面的平衡。比如语音唤醒除了考虑唤醒的识别率,还要考虑误报、噪声问题,麦克风的数量及布置方式;技术上需要反复迭代,针对应用问题优化,不断打磨细节。


合作的方式:应用落地需要多方合作,PM、RD、运营等等;产品上往往也不是一种技术的应用,而是多种技术的综合应用,一个客服机器人,不仅仅需要语音识别、还需要合成、知识和自然语言理解,需要各个技术团队之间的合作,各种技术如何融合、相互提升,出了问题如何排查和解决。


在长期奋进中保持专注,是 AI 时代人才最宝贵的特质


最后,对于有志于从事 AI 研究和落地工作的广大工程师,吴老师有以下职业发展和成长建议给到大家。


从研究角度看:一方面要紧跟技术进展,另一方面需要提高定义问题的能力,做出引领技术方向的成果。同时心怀探索科技奥秘的好奇心和以科技改变世界的信念,才可能一直保有对 AI 的热情。


从应用角度看:在技术方面,关注最新的技术动态以及实用的工具平台;在落地方面,关注用户的真实需求和应用场景,采用合适的技术方案很重要,切勿好高骛远。


不论从事 AI 研究还是应用落地,都要有“严谨务实、持之以恒”的精神,要磨练好基本功,往往需要长期的积累才会产生突破,比如机器翻译、人机对话等都是螺旋式上升的技术领域。能够在长期奋进中保持专注,才是人工智能时代人才最宝贵的特质。


以上就是 InfoQ 对于吴华老师做的简单采访,还想进一步跟吴老师交流的可以来AICon北京2019大会现场面基。


另外,AICon大会还汇聚了来自百度、阿里、腾讯、亚马逊、Intel、微软、小米、滴滴、蚂蚁金服等国内外 50+ 一线 AI 大牛,从机器学习、搜索推荐、计算机视觉、知识图谱等方向为大家带来满满干货,肯定可以让你收获良多。


目前大会 9 折购票火热进行中,在购票过程中,有任何问题,敬请咨询票务小姐姐 Amy,抢票热线:18514549229(同微信),点击“大会官网”了解更多大会详情。


2019 年 10 月 08 日 17:201342

评论

发布
暂无评论
发现更多内容

Kotlin 协程实践(2)之 异步和Callback地狱

陈吉米

Java kotlin 协程

从零开始制作一台计算机-概述

小兵

计算机基础

Web3极客日报#127

谢锐 | Frozen

区块链 开源 技术社区 Rebase Web3 Daily

Design Sprint 教你五天完成产品迭代

Yanel 说敏捷产品

产品 敏捷 设计 产品设计 团队

如何发布一个npm包-创建,发布,更新,撤销及常见问题解决

Brave

npm

写在开头

宋胖子

PhotoShop切图,一篇文章就够用了

cwang

Web 工具 PhotoShop

一想到有95%的问题还没解决,我就calm down了

赵新龙

科普 宇宙 后真相时代

识别代码中的坏味道(二)

Page

Java 面向对象 复杂代码优化 重构 CleanCode

Dart 进阶 | 深入理解 Function & Closure

LitaVadaski

flutter dart

华为“补洞”:去年重新设计超过6000万行代码

罗燕珊

华为 实体清单

新mac笔记本需要做的事情

好好学习

Mac

Android | Tangram动态页面之路(三)使用

哈利迪

android

Jenkins权限管理

kcnf

汉字不能编程?别闹了,只是看着有点豪横!容易被开除!

小傅哥

spring 小傅哥 aop 汉字编程

谈谈控制感(6):虚幻的控制感也好用

史方远

职场 心理 成长

程序员的晚餐 | 5 月 18 日 瓠子,年少时的味道

清远

美食

Live2D for Unity入门篇 4.x

波波

编程 游戏开发 Live2D Unity

半小时手工解决的活,让我意外学会了 python 的 pdfkit 库

Sicolas Flamel

Python python教程

中小企业如何做运维自动化?

Spug运维

运维 spug 运维自动化 jenkins ansible

Web3极客日报 #128

谢锐 | Frozen

区块链 开源 技术社区 Rebase Web3 Daily

Deno 入门手册:附大量 TypeScript 代码实例

寇云

node.js typescript

谈谈控制感(7):底线思维与控制感

史方远

职场 心理 成长

MySQL事务解析

一个有志气的DB

MySQL 事务隔离级别 mysql事务

一文带你了解 HTTP 黑科技

cxuan

前端 HTTP

用原理认知世界,用情绪驱动行为

史方远

职场 心理 成长

解决 Django 多进程下,logging 记录日志错乱问题

AlwaysBeta

Python django 编程 日志 log

CentOS 6 升级 glibc

wong

centos glibc

走进Golang之编译器原理

何磊

go golang 编译原理

回“疫”录(20):世界从来不会欺负听话的人

小天同学

疫情 回忆录 现实纪录 纪实

英语学习中听和说的区别

七镜花园-董一凡

学习

多次问鼎NuerIPS、MRQA等国际顶级比赛,百度NLP技术到底有多强?-InfoQ