【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

小米 NLP 首席科学家王斌:NLP 在落地、商业化方面进展慢是假象

  • 2019-11-07
  • 本文字数:5150 字

    阅读完需:约 17 分钟

小米NLP首席科学家王斌:NLP在落地、商业化方面进展慢是假象


这两年,BERT 和 Transformer 的出现和运用推动 NLP 迎来了历史上的黄金时代。机器翻译、机器阅读、人机对话、机器写作等领域进步喜人。与此同时,NLP 在工业界的落地与应用也呈现百花齐放之态,在搜索、推荐、信息流、互联网金融、社交网络等领域都有其足迹。

近日, InfoQ 有幸采访了小米人工智能实验室主任、NLP 首席科学家王斌博士,他详细介绍了 NLP 在小米的智能手机、IOT、搜索、推荐、广告等多个不同场景中的应用实践。此外,王斌还对 NLP 的发展现状和趋势发表了自己的看法,他表示,NLP 存在的两个重要挑战,其一是如何获得大规模的高质量标注数据,其二是,如何得到轻量级的优质模型。王斌预测,NLP 技术今天已经似乎真正触摸到“语义”的门槛,未来的 NLP 应该会真正跨过这道门槛,实现自然语言理解的突破。

以下是此次访谈的全部内容,如果你对该话题有进一步的兴趣,王斌还将在即将召开的AICon全球人工智能与机器学习技术大会(北京站)2019上,带来题为《NLP在小米的探索与实践》的主题演讲。


InfoQ:很高兴采访您,首先请您做一下自我介绍,目前主要负责哪些工作?


王斌:我之前在中科院从事了 20 多年信息检索、NLP 相关的研究和开发工作,曾是中科院研究员、博导和中国科学院大学教授。去年 8 月全职加入小米,任 NLP 首席科学家。今年 3 月开始任人工智能实验室主任,领导视觉、声学、语音、知识图谱、NLP 和机器学习等 6 个团队,研发核心技术,全面赋能公司业务。


InfoQ:目前,小米在 NLP 领域的总体布局是怎样的?


王斌:目前小米 NLP 布局主要包括基础 NLP 能力建设和 NLP 业务应用两部分。前者打造云端、本地、设备端三端一体的 MiNLP 平台,后者是重点支持多个核心业务应用,包括智能问答、人机对话、机器翻译、内容过滤、搜索推荐等等。


InfoQ:自您去年 8 月份加入小米这一年多来,小爱同学的对话能力有了哪些提升?


王斌:小爱的对话理解能力正在从单轮的理解往连续对话能力上延伸,可以根据上下文理解用户的意图,不需要用户每次交互都是完整的表达。尤其是实现全双工交互后,用户跟小爱交互的习惯也在发生改变,表达越来越自然,更口语化。


InfoQ:上个月亮相的小爱同学 3.0 最大的优势功能是做到了自然连续语音对话(全双工),为实现该功能取得了哪些关键性的技术突破及背后运用的核心算法是什么?


王斌:上述能力涉及到整个语音交互链条中各个环节的技术,包括前端降噪和回音消除、连续语音识别、无效音识别、对话管理、上下文理解、回复上的节奏控制等等。


InfoQ:从行业来看,全双工到底是不是一个新技术?近期很多公司都在该技术上有所突破,这对于语音交互和 NLP 领域来说意味着什么?


王斌:全双工这个词不是人工智能或者说语音 AI 时代才出现的,并不特指某一种技术。它是通信传输的一个术语,指可以同时进行信号的双向传输。那在我们这个产品里,其实就是指一种更像人与人之间在沟通交流时,一种实时的、双向的交互方式。


两年的时间,小爱同学主要的定位是“一句话的事儿”,目的是快速满足用户的需求。但随着用户对智能助理使用越来越熟练,以及小爱同学能力的延伸,会发现用户对小爱同学有了更多的预期,会希望小爱可以处理更多复杂任务,这种就很难用一句话来说清楚。


自然连续语音对话会使得对话更自然、更人性化,会进一步提高对话的体验。


InfoQ:在机器翻译方面,小米近期有哪些创新成果?


王斌:今年公司发布了小爱老师这样一款硬件,提供了语言学习和口语翻译等功能,其中一个核心技术是多语言离线机器翻译。受端上设备上存储空间和计算能力的限制,我们进行了相关的技术实践和探索,从而可以在端上提供高质量低延迟低功耗的离线神经机器翻译服务。


另外,在手机上,MIUI 在全球具有庞大的用户规模,其中大量用户有跨语言获取信息的强烈需求,包括扫一扫拍照翻译,小爱同学语音翻译,米聊对话翻译和浏览器网页翻译等场景,这些场景涉及到多领域、多语种以及不同模态下的翻译需求,针对这些场景,我们也进行了各种技术优化和尝试,开发了在线的机器翻译系统。


InfoQ:随着神经网络翻译技术的发展,机器翻译质量有了很大提升,业内频有论调称机器翻译将取代人工翻译,您觉得二者的关系是怎样的?


王斌:个人认为机器翻译和人工翻译相辅相成。随着神经机器翻译技术的快速发展,对于资源丰富的语种以及专利等垂直领域,机器翻译的质量也在快速提升,在对翻译质量要求不苛刻,以及人工翻译无法快速满足海量文本翻译需求等场景,机器翻译得到广泛使用,机器翻译+译后编辑等人机结合模式也成为语言翻译行业的重要实践。


长期来看,机器翻译的快速发展会对一些低水平人工译员带来影响,但同时,机器翻译也有大量不适用的场景,例如对“信,达,雅”有很高要求的文学翻译需求是高水平译员大有可为的地方,同时,机器翻译的质量提高无法离开人工译员产生的大规模高质量双语数据。


因此,可以预期,机器翻译替代不了人工翻译,两者应该是长期相辅相成,互相促进的。另一方面,在很多场景下,机器翻译也可以看作是人工翻译的自然延展。比如跨语言搜索、跨语言电商、跨语言信息流等领域,人工翻译资源不足以完全覆盖这些领域,机器翻译可以看作是人工翻译的补充,与人工翻译一起为用户提供更完整的跨语言服务。


InfoQ:当下,机器翻译技术的发展现状和未来的趋势如何?


王斌: 当前,在数据较为丰富的翻译场景下,神经机器翻译质量已经显著得到提升,神经机器翻译模型基本替代了统计机器翻译模型,已经成为工业界主流的技术方案,得到广泛应用。


但同时,对于一些深层次的理论和应用层面问题,目前神经机器翻译依然缺乏有效的解决方案,包括理论层面的可解释性以及应用层面的诸多问题(如篇章建模和翻译、语音图片翻译的鲁棒性、低功耗翻译模型、语言领域自适应、小语种翻译等等)。未来对这些问题的解决,可以得到更精确、更鲁棒、领域自适应的优质机器翻译系统。


InfoQ:NLP 技术在小米落地“土壤”肥沃,主要的运用场景在硬件上,智能手机、IOT、搜索、推荐、广告等场景都有运用,可否详细介绍一下具体的运用?


王斌:小米的很多应用场景中都包含内容处理,应用了很多 NLP 技术。比如小爱同学中的查询意图理解中使用了文本分类、分词、命名实体识别、句法分析等技术,通过文本分类技术将查询意图分到意图体系,通过分词和命名实体识别技术从文本中提取关键字段,通过句法分析技术对查询进行结构化分析等等。在智能问答和对话中,使用实体链接、相似度计算、文本生成等技术进行问题理解、搜索和对话生成。在搜索和推荐场景,同样使用了大量的 NLP 技术。


InfoQ:可否用一组数据说明小米 NLP 在解决复杂运用场景时的效果和能力,有没有一些场景是难以完美解决的?


王斌: 很多 NLP 的场景都非常复杂,超过普通人的想象,需要综合应用一系列 NLP 技术。就以刚刚提到的查询意图理解这一个模块为例,就用到了数十种 NLP 技术,很多技术做得非常非常细,之间还要组合和衔接才能形成有机的整体。即使是这样,该模块从技术上来看也没有得到完美解决。实际上,NLP 的很多场景都几乎不可能从技术上完美解决,只能在实际中通过技术能力和产品设计的平衡来提高用户的综合体验。


InfoQ:从行业应用的角度看,目前自然语言处理技术发展到什么程度了?


王斌:这些年 NLP 技术的发展很快,有些任务已经取得了大幅度进步。比如机器翻译、机器阅读、人机对话、机器写作等领域都取得了长足的发展。


随着 Transformer 和 Bert 的提出,NLP 技术这几年得到了较大发展。这些技术除了在学术界得到广泛推崇之外,在工业界也得到了实际验证。小米公司也在广泛地使用这些技术,来进一步提高 NLP 的实际应用效果。个人觉得 NLP 技术的进步还是很大的,当然由于 NLP 本身的一些特点,其实际水平一直不低,在实际中也早已落地,因此看上去并没有获得和其他某些领域一样的大幅度增长。


InfoQ:有观点认为,NLP 和语音技术这几年在技术和运用上都没有实质性的进步,您认为自然语言处理在发展过程中还存在哪些挑战,如何突破现有的瓶颈?


王斌: NLP 的发展还存在很多挑战,很多专家都有过总结。这里提我个人认为最重要的两点。第一是标注数据问题。当前主流方法的效果取决于标注数据的规模和质量。获得大规模的高质量标注数据永远是个难题。要解决这个问题,一种可能的方法是通过自动标注或者半自动标注或者自然标注来扩大标注的数据量。另一种可能的方法是通过弱监督或半监督方法来充分利用大规模的未标注数据。


第二是轻量级优质模型问题。当前的主流模型需要消耗大量资源进行训练,这种趋势目前看来有增无减。如何得到轻量级的优质模型是一个挑战性问题。可能的方法包括对现有模型的裁剪甚至另辟新路提出新的模型。


InfoQ:相较于计算机视觉,自然语言处理技术在落地、商业化方面进展较慢的原因是什么?


王斌:个人认为,深度学习的发展对计算机视觉的影响远比对 NLP 大。原来很多计算机视觉任务仅仅停留在学术研究层面,难以落地应用。深度学习使得很多计算机视觉任务突然具备了落地的可能,所以这些年来计算机视觉领域在商业化和落地方面取得了一些明显的进展。


相对而言,NLP 技术一直在工业界平稳落地,不论是搜索、推荐、信息流、互联网金融还是社交网络,NLP 技术都在其中起着十分重要的作用,正是因为应用已经非常广,加上 NLP 技术本身处于底层支撑地位,给人的感官不明显,所以给人造成落地、商业化进展很慢的假象。


InfoQ:小米在 NLP 领域商业化方面的进展如何,稳定的赚钱模式是否已经确立?


王斌:公司的 NLP 需求非常旺盛,目前小米 NLP 的技术主要给公司的业务和产品服务,未来也会考虑对外提供服务。


InfoQ:此前 InfoQ 接触到的一位专家曾预判,NLP 目前处在历史上最好的发展时期,迎来了发展的黄金时代,对此您怎么看?


王斌:个人同样认为,NLP 迎来了历史上的黄金时代。


可以从 2 个角度来看:第一,大家都知道 AI 的成功大致取决于数据+算力+算法。作为 AI 领域最活跃的方向之一,相对于其他一些领域,NLP 数据(包含已标注和未标注数据)的积累更加丰富。大量自然语言数据的存在,使得 NLP 的数据基础非常坚实。


此外,近年来 BERT 等预训练模型的出现大大促进了 NLP 领域的发展,再加上算力和算法的进步,NLP 确实具备了成功的前提。第二,NLP 的需求一直非常旺盛,学界和工业界形成良性循环。如果说很多研究是兴趣探索驱动的话,那么当前 NLP 的很多研究都是需求驱动的。工业界有大量的 NLP 需求,学术界对这些需求对应的自然语言处理任务进行研究,研究的成果很多可以应用到工业界,通过这种不断循环迭代,NLP 的研究得到了快速的发展。


InfoQ:您认为,未来 NLP 将会是怎样的发展趋势?


王斌:经过这些年的发展,我有两个个人的判断。


第一,虽然“语义”理解在学术界说了很多年,但是个人隐约感到 NLP 技术今天已经似乎真正触摸到“语义”的门槛。多层次、多粒度、语言无关的语义表示正在向我们走来。未来的 NLP 应该会真正跨过这道门槛,实现自然语言理解的突破。


第二,自动生成技术可能会有大的突破。通常把 NLP 分成自然语言理解和自然语言生成两大部分。前者的工作占据当前 NLP 的主要部分,但是随着 NLP 技术的发展,近年来自然语言生成技术得到了较大发展,已经在实际中逐渐体现出其重要价值。我相信,下一步 NLP 的发展中,自然语言生成也会成为 NLP 的重要组成部分。


嘉宾介绍


王斌博士,小米人工智能实验室主任,NLP 首席科学家。中国中文信息学会理事,计算语言学、信息检索、社会媒体处理、语言与知识计算等专委会委员及《中文信息学报》编委,中国计算机学会中文信息处理专业委员会委员。加入小米之前,在中科院计算所、信工所从事自然语言处理和信息检索相关的科研工作,任中科院博导、研究员,中国科学院大学 A 类岗位教授。发表学术论文近 150 篇,出版《信息检索导论》、《大数据:互联网大规模数据挖掘与分布式处理》、《机器学习实战》等译著 6 部,科研成果获得国家科技进步二等奖 2 项,省部级科技奖 3 项。是 SIGIR、CIKM、ACL、IJCAI、AAAI、WWW 等会议的程序委员会委员。

福利时刻

王斌老师将在 11 月 21-22 的AICon大会上带来更多关于 NLP 的精彩分享,想要跟王老师深入交流的,不要错过面基的机会。另外,大会还有关于机器学习、NLP、搜索推荐、智能金融等 50+最新落地案例,更有来自 AWS、微软、BAT、华为等国内外一线 AI 技术专家带来干货演讲,部分议题抢先看:


【蚂蚁金服】金融知识图谱在蚂蚁的业务探索与平台实践


【菜鸟网络】人工智能在智慧交通物流的技术演进之路


【阿里妈妈】工业级深度学习在阿里广告的实践、创新与最新进展


【微软小冰】人格化对话机器人的构建及在语音场景当中的实践


【百度】AI 大生产时代下的 NLP 技术创新与应用实践


目前大会售票倒计时16天,购票页面输入优惠码“aicon”还可享折扣价,抢票咨询:18514549229(同微信)


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-11-07 08:002812
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 493.0 次阅读, 收获喜欢 1966 次。

关注

评论

发布
暂无评论
发现更多内容

非常实验——在SSH下通过终端浏览网页

DisonTangor

浏览器 终端工具

软件测试/测试开发丨Python基本数据类型之字符串

测试人

Python 软件测试 自动化测试 测试开发

2023-05-21:给定一个字符串 s 和一个整数 k 。你可以从 s 的前 k 个字母中选择一个, 并把它加到字符串的末尾。 返回 在应用上述步骤的任意数量的移动后,字典上最小的字符串。 输入:s

福大大架构师每日一题

Go 算法 福大大

fcpx标记功能如何使用?fcpx标记快捷键有哪些?

魔仙苹果mac堡

Final Cut Pro破解版 Final Cut Pro教程 fcpx标记功能 Mac视频剪辑软件

如何列举测试点

FunTester

靠AI自动生成视频撸自媒体收益,月入5000+

派大星

ChatGPT4

三周年主题征文活动结果已出炉,快来看看有没有你

InfoQ写作社区官方

热门活动 三周年征文

抠图党福音:教你一键分割图像

华为云开发者联盟

华为云 华为云开发者联盟 企业号 5 月 PK 榜 人工资高hi嗯呢该 分割图像

深度学习基础入门篇[9.1]:卷积之标准卷积:卷积核/特征图/卷积计算、填充、感受视野、多通道输入输出、卷积优势和应用案例讲解

汀丶人工智能

人工智能 神经网络 深度学习 卷积网络 卷积相关算子

如何通过Makefile优化加速编译过程提高开发效率

小万哥

c++ 程序员 面试 后端 开发

面试复盘:哈希冲突的常见解决方案?

javacn.site

Cornerstone如何连接到 HTTP和SVN服务器?

魔仙苹果mac堡

svn HTTP cornerstone 4破解 Cornerstone使用教程 Cornerstone永久激活版

如何修复“无法打开应用,因为Apple无法检查其是否包含恶意软件“

魔仙苹果mac堡

Mac应用程序无法打开 mac教程 苹果软件下载

From Java To Kotlin:空安全、扩展、函数、Lambda很详细,这次终于懂了

Seachal

Java android Lambda kotlin 函数式编程

HashTable 在蚂蚁转化归因中的极致运用

阿里云大数据AI技术

大数据 开发者 企业号 5 月 PK 榜

为什么MySQL单表不能超过2000万行?

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

我出版了一本关于TikTok电商运营的书

博文视点Broadview

从热爱到深耕,在开发路上的他们勇敢逐梦

HMS Core

HMS Core

为什么我们拥有庞大的语言模型,而Vision Transformers的规模却很小?

Baihai IDP

人工智能 深度学习 计算机视觉 白海科技 Vision Transformers

国内AI大模型 VS chatgpt (20)-- H265/H264有何不同,h265有什么优势?

福大大架构师每日一题

福大大 ChatGPT 文心一言

如何在Mac上运行Windows游戏?CrossOver是您不错选择!

魔仙苹果mac堡

Mac虚拟机 如何在Mac上运行win游戏 crossover mac 破解版

lut调色预设怎么安装,LUT预设导入FCPX/PR/AE/PS/LR/达芬奇等软件教程

魔仙苹果mac堡

lut调色预设 luts预设导入教程 lut调色预设怎么安装

建造者模式:将对象的构建与表示分离,提高程序的可维护性和可扩展性

Jack

golang 设计模式

使用 OpenAPI 构建 API 文档

江湖十年

golang Web 后端 swagger OpenAPI

三周年连更活动结果已出炉,快来看看有没有你

InfoQ写作社区官方

热门活动 三周年连更

看完这篇,DWS故障修复不再愁

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

菜单栏应用管理:Bartender 4 激活中文版

真大的脸盆

Mac Mac 软件 菜单栏管理工具 菜单栏软件

如何借助Kafka持久化存储K8S事件数据?

SEAL安全

kafka 云原生 k8s Seal软件 企业号 5 月 PK 榜

敏捷开发:新一代软件开发模式的优越性与挑战

xfgg

Java 架构 开发效率

2023语言与智能技术竞赛开辟“双赛道”:寻找“全民测评官”,探索AI多模态能力

飞桨PaddlePaddle

rt下降40%?程序并行优化六步法 | 京东云技术团队

京东科技开发者

性能优化 异步编程 企业号 5 月 PK 榜 多线程优化 并发框架

小米NLP首席科学家王斌:NLP在落地、商业化方面进展慢是假象_AI&大模型_刘燕_InfoQ精选文章