大中台、小前台，阿里小蜜这样突破对话机器人发展瓶颈_AI&大模型_陈思

【AICon】如何构建高效的 RAG 系统？RAG 技术在实际应用中遇到的挑战及应对策略？>>> 了解详情 



 写点什么

对话机器人自诞生起经历了几个发展阶段，从单纯的文字对话到现在的语音对话，甚至模仿人类的语气进行对话，对话式机器人的每一次进步都会引起不小的关注。然而，并不是每一款对话机器人都能取得令人满意的成果：2018 年，Facebook 宣布关闭智能助理 M 项目。人们忽然意识到，在对话机器人领域，大厂出品也并非一定是精品。
连 Facebook 这样的大厂都无法完成的项目，到底为什么这么困难？对话机器人的发展深度遇到了什么问题？它的未来又该走向何方？带着对话机器人领域的种种问题，AI 前线在 Arch Summit 全球架构师峰会（深圳站）的现场对阿里小蜜算法平台负责人张佶进行了一次专访。

对话机器人发展的 AB 面

突破与进展

“深度学习技术的快速进展和突破，拓宽了对话机器人的商业应用前景。”

作为多年深耕于智能人机交互领域的算法研究和业务场景落地的专家，张佶见证了对话机器人领域的技术变革。在他看来，以阿里小蜜机器人为例，对话机器人在以下几个技术领域有比较明显的突破：

机器阅读理解

过去，要使得机器人能回答用户提出的问题，需要人工整理大量的 FAQ（常见的问题项目与对应问题的解答），虽然能够解决一部分问题，但人工代价是比较高的。

而现在，随着机器阅读理解技术越来越成熟，让算法模型直接阅读原始文档并回答用户问题成为可能，大量减轻了人工整理 FAQ 的工作压力，缩短了对话机器人上线的时间。

值得一提的是，近两年在机器阅读的学术领域，以阿里巴巴为代表的公司提出的算法模型，在一些特定领域的数据集上，表现已经超过了人类的阅读理解水平。对于工业界来说，如何快速将学术成果应用到实际场景中，解决真实的用户问题，有着不小的难度；但是一旦落地成功，其背后的商业价值、社会价值就非常可观。

以张佶个人经历为例，他告诉记者，机器阅读理解已经普遍应用在了阿里小蜜平台的众多场景中。例如“双十一”之前，他们会利用机器阅读一些大型促销活动的优惠规则文档，让机器人客服直接解答用户的疑问，大大缩短了服务上线的时间，提升运营方面的效率。

除此之外，产品说明书也可以交给机器来阅读，而用户可以摆脱又厚又重的文字说明，直接向机器客服提问包括操作步骤、故障排查方法等问题，机器人都能秒级定位到说明书里对应的内容，免去用户自己检索的烦恼。

在政府服务部门，机器阅读理解则发挥着更大的价值。上百万篇的市民办事指南或公告文件，如果只依靠人工拆解成 FAQ，几乎不可能全部完成。通过机器阅读理解技术，来办事的市民可以直接、快速地得到解答，在办事过程中就可以少走弯路，提升政府部门的服务效率。

多模态对话与问答

另外，近期在学术界，多模态的对话和问答也有了一些新的进展。

过去的对话机器人大多局限在文本的理解，而现在人与人的沟通越来越多地通过发送图片来表达诉求，并逐步扩展到用视频来记录和分享生活。随着技术的发展，对话机器人已经可以结合图像信息进行理解和对话。张佶介绍道，阿里小蜜平台正在探索一个新的方向——VQA（视觉问答），让机器人可以理解和识别聊天图片中的视觉元素，结合文字一起进行信息的识别和处理，使得问答的场景有了更大的延伸。

VQA 示例

显然，VQA 会对图文信息量过大的场景很有帮助。张佶仍然以一个真实场景来举例：淘宝和天猫上的商品有很长的详情页来展示商品的各种特性和服务，并且都是图文并茂、由商家精心设计的，而看完这么多图片需要花费的时间太长，不少用户就会转而找客服进行商品细节咨询。

过去，客服也是靠自己去浏览相应的介绍，然后截图回复给客户。现在，VQA 模型可以直接根据图片中的内容，进行多模态的理解，并从图片中获取相关的部分作为回答，这种技术的应用是一举两得的事情：对用户来说，图文并茂的回答体验更好；而对于商家来说，客服人员不再需要去整理常见问题的答案，机器可以自动获取相关的图片内容进行回复，充分利用了已有资源，构建服务的知识体系成本更低，效率提升了很多。

多语言对话

除了上述两点，张佶还谈到了多语言对话。

过去的对话机器人主要集中在中文、英文等主流语言，小语种则难有发展，因为小语种的使用人数少、语料数据也比较缺乏，而随着阿里巴巴国际化业务的不断开拓，业务上需要让机器人理解一些小众的当地语言，比如东南亚的印尼语、马来语、越南语、泰语等等。那么怎么样去处理这些小语种问答呢？张佶介绍说，面对这些 Low resource（低资源）的语言，阿里小蜜研发了跨语言（Cross-Lingual）的迁移学习方法，通过中文、英文这种资源比较充足的语言，帮助模型提升理解小语种的能力；尤其在最近一两年，多语言对话技术取得了比较大的突破，小蜜已经在东南亚和欧洲的 10 多种语言上有了丰富的积累和沉淀。

张佶进一步从技术角度来对多语言模型的训练进行了解释。

语言是一种符号化表示，当用户在描述一个问题时，不同的语言会有不同的符号体系。我们可以用 Cross-Lingual 的技术在词汇和句子两个层面将不同的语言进行对齐。首先是词汇层面，可以用同一个语义空间来表示两种不同语言的词汇，例如中文词汇“狗”可能与英文单词“dog”在这个统一语义空间里非常接近，这样就可以找到两个词的对应关系。

而更复杂的是句子层面的对齐，句子的含义不仅仅是词汇的堆叠，还有更复杂的语法、语序带来的影响。算法工程师会去建立一个混合语言的语义表示体系，使之可以输入不同的语言，之后通过一系列各种语言的对话日志等语料进行模型调优。如此，这个模型一方面能够去理解多种语言以及混合语言，另外一方面也能更好地适配到具体的电商的业务上。张佶说：“快速地拓展机器人的多语种支持，并能地道地服务不同国家、不同语言、不同文化的用户，已经是阿里巴巴国际化战略下的一个必然的技术趋势”。

短板仍然存在

谈过了突破与进展，张佶将话题转到了领域目前的短板上。

他认为，现在的问答系统还是只能专注在一个小的垂直领域，也就是一个行业经常在谈论的问题：机器智能在什么样的情况下可以真正得到突破，可以去比拟人类拥有决策的能力？

张佶的一个观点是：如果问题的领域足够限定，又能收集到足够多的数据，那么在这个领域里，机器智能很可能可以超越人类。但是在现实的人类生活当中，技术面临遇到问题还是比较大，领域问题往往比想象的复杂，数据收集的代价也比较高。例如将百科问题回答得很好的机器人，回答电商问题可能准确率就不高；回答电商问题比较好的机器人，可能回答法律的问题又不行。“我们还是在根据一个一个特定的领域，或者特定的问题在创造这种垂直方向的问答模型。要创造通用型机器人目前还是有比较大的挑战的。当然我们也在尝试缩小领域拓展的代价，小蜜团队正在构建对话机器人的算法中台，把小蜜机器人中用到的算法能力全面沉淀到中台，在前台需要构建新领域机器人的时候，可以快速运用中台已有的问答技术、迁移学习技术、以及领域数据等沉淀，以更低的成本完成领域拓展。”

虽然在技术研发上有了不少突破和成果，但是在对话机器人真正投入使用的过程中，仍然会面临不少的问题，张佶对此也深表赞同。

在他看来，在学术上，NLP、问答领域、对话领域等等都已经取得了较大的进展，但是在学术数据集上超越人类表现对用户来说并没有太大的意义，关键还是怎样把这些技术转化为能解决用户真实问题的产品。但在工业界的落地过程中，还存在着非常大的鸿沟，而难点主要可能会集中在这几个方面：

从数据的角度来说，学术任务都有标准的数据集，而工业场景下数据标注的代价往往很高。模型需要大量的数据去训练，但当模型适配到一个新的领域，或者新的语言的时候，总会面临一种低资源的情况。所以怎样在业务复杂，又没有丰富数据资源的情况下，支持好一个新的领域，对于新的模型在实际的工业场景中落地会有较大的挑战。小蜜团队在多领域、多任务的迁移学习上有不少探索，用来降低数据标注所需的成本。

从性能的角度来说，很多模型在学术任务上表现的非常好，在一些特定任务上也能够超越人类的表现，但其实它的模型特别的庞大，这样的模型在工业场景下是没有办法使用的。举例来说，阿里小蜜需要支持“双十一”等大促活动，服务的并发量特别大。像机器阅读理解这样比较复杂的模型，也必须在十毫秒内给出答案。给模型在效果和性能上找一个最佳平衡点，让它可以在工业场景下大规模落地，这是一个关键的设计。小蜜团队近期也在尝试“知识蒸馏”等方法：在保持效果不下降太多的情况下，大幅降低模型的复杂度，“蒸馏”出性能合格的模型。

从场景的复杂度来说，学术上的任务往往领域是限定的，问法也比较标准和清晰。而工业场景中问题往往更复杂，用户问法非常多样，经常包含错别字、缺失上下文、问题超出回答范围等情况，无法仅仅用一个端到端的模型来解决，而是需要设计一个完整的 pipeline 处理链路。总的来说，学术任务的数据集由于比较标准和清晰，大概需要 10 岁的人来理解和回答就可以了，而工业界的复杂场景需要比拟的是 20 多岁、有经验的客服人员的服务能力。

从研发效率的角度来说，张佶表示他们目前面临的一个问题是：需要快速支持各种领域的机器人。比如针对阿里经济体内部的客服机器人，针对淘宝和天猫上海量商家的店小蜜机器人，甚至还需要对外部的各行各业的企业、政府部门、海外客户提供机器人服务。当面对这么繁多复杂的场景、快速增长的业务和客户时，前台的研发如何保持高效，如何快速的去拓展新的领域和新的能力是非常重要的。

这也是张佶和团队正在做的事情：把对话机器人的各种能力沉淀到一个算法中台，形成“大中台，小前台”的形式，通过中台去支持前台各种对话机器人更快速的创新、验证和试错。

不是取代人，而是深度的人机结合

在对话机器人领域，如何产生价值是行业都在探索和关心的问题，在张佶看来，对话机器人在服务领域辅助人工客服，提升服务效率将带来显著的商业价值。

以阿里小蜜为例，张佶告诉记者，它是从阿里巴巴服务部门孕育出来的一个产品，一开始只负责解决淘宝和天猫上的客户咨询问题。随着数据和技术的沉淀，小蜜团队把服务做了更多拓展，比如拓展到电商平台的商家，帮助商家更好的服务客户；拓展到电商以外的领域，将对话机器人的服务提供给各种不同行业的企业用户，甚至是海外的企业，帮助他们实现更好的服务。去年的双十一，阿里小蜜承接了 98%的平台服务量，解决率达到 95%；为商家提供服务的店小蜜，一天实现了 3.5 亿轮对话轮次，机器人客服已经成为了服务的主力军。

同时，张佶也认为：现在的对话机器人或者智能服务，还远远没有达到完美替代人类的水平。张佶表示，对话机器人服务的目的并不是去替代人类，而是给人工客服赋予智能化的能力，通过人机协同的方式带来更高效的服务，这样一来，同样的人力可以去服务更多的客户，甚至做到过去做不到的一些事情，比如，在“招人难”的团队，让相同规模的人员服务好更多的客户，且客户满意度还能持续提升；简单的工序交给机器人，激发服务人员的主观能动性和创造力。在机器智能的协作下，客服的服务能力不仅能够变得更强，也更有机会在服务中发挥“人性”，“人”的价值也会增加。

更进一步地，张佶认为对话机器人不仅只能解决售中后问题，它也在逐渐从售后走到售前，比如在电商领域可实现导购的工作，帮助用户更好地去转化需求，提高咨询转化率，带来更多的商业价值。

当然，对话机器人也需要一些标准来评估其价值。

除了在技术上的指标准确率、召回率之外，张佶表示还会通过一些线上业务效果反馈进行评估，比如客服机器人的问题解决率，反映了有多少线上的 Case 能被机器人解决；询单转化率，反映了机器人作为导购带来的增量价值。

对话机器人的未来

最后，张佶谈到了他对于对话机器人未来的一些展望。

第一，机器人能否结合多模态的技术更好的去感知人的情绪。直白点说，就是机器人能否学会察言观色，更加有同理心，感知人类心理上的一些情绪变化，并给出应对策略。这样可以让机器人的服务变得更有温度。

第二，机器人能不能建立更好的自我学习的能力。在人和人之间对话的过程当中，会发生某些话题或者知识自己不太了解，之后再去查阅，或者向别人学习、提问的情况。未来，希望机器人也能有这种发现自己不足的能力，并知道去哪里学习、怎样去学习，每天都在自我学习和自我的更新迭代的过程中，产生持续的进步。

第三，对话机器人如何更快、更小代价地在更多领域上发挥作用。阿里巴巴已经成为一个庞大的经济体，不同的行业、场景都在等待着技术去更好地支持业务，且场景的差异大、对效果的要求高、落地的时间节奏非常紧。因此，对话机器人在工业界不再是一套方案提供给所有客户的时代了。如何做好技术沉淀，让技术能力成为中台能力，并快速地、小代价地支持新业务、新领域、新场景，是对话机器人在工业界真正产生超级商业价值的秘诀。

采访嘉宾介绍

张佶现任阿里巴巴达摩院阿里小蜜团队高级算法专家，致力于智能人机交互领域的算法研究和业务场景落地，积累了 9 年的自然语言处理领域技术经验。目前担任阿里小蜜算法中台负责人，推动阿里小蜜在国内和海外业务领域的算法实践，带领团队实现了机器阅读理解、多语言问答等算法技术在阿里经济体、商家、企业、政务等生态圈的一系列成功应用。

评论 1 条评论

发布

Xixi

写的太好了

2021-02-19 16:27

 0 回复

没有更多了

促进软件开发及相关领域知识与创新的传播
关于我们
我要投稿
合作伙伴
加入我们
关注我们
联系我们
内容投稿：editors@geekbang.com
业务合作：hezuo@geekbang.com
反馈投诉：feedback@geekbang.com
加入我们：zhaopin@geekbang.com
联系电话：010-64738142
地址：北京市朝阳区望京北路9号2幢7层A701
InfoQ 近期会议
北京 · QCon全球软件开发大会 2024.4.18-20
北京 · AICon 全球人工智能与大模型应用峰会 2024.5.17-18
深圳 · ArchSummit全球架构师峰会 2024.6.14-15
上海 · FCon全球金融科技大会 2024.8.16-17
全球 InfoQ
InfoQ En
InfoQ Jp
InfoQ Fr
InfoQ Br

创作场景

大中台、小前台，阿里小蜜这样突破对话机器人发展瓶颈

对话机器人发展的 AB 面

突破与进展

短板仍然存在

不是取代人，而是深度的人机结合

对话机器人的未来

采访嘉宾介绍

评论 1 条评论

拍乐云解析融合语音通话技术实践

28《重学JAVA》--注解

参加过 4 届 TiDB Hackathon 是一种什么体验? | TiDB Hackathon 选手访谈

给弟弟的信第27封|学会说不，别让面子害了你

带你详细了解 Node.js 中的事件循环

架构实战营第 4 期模块三作业

Elasticsearch 可搜索快照技术原理及最佳实践

流计算 Oceanus | 巧用 Flink 构建高性能 ClickHouse 实时数仓

netty系列之:好马配好鞍,为channel选择配套的selector

探索 Design Token

观点 | NoSQL 产品的 SaaS 化之路

大型软件交付项目注意事项53条

从翻硬币游戏看敏捷开发

AI实战分享 | 基于CANN的辅助驾驶应用案例

智汇华云 | ArSDN给VMware带来了什么

实战大数据，HBase 性能调优指南

我的2021之感谢有你们（上篇）

seata入门介绍与seata-service部署与验证（一）

Java序列化与反序列化

低代码行业浅析

【转】java开发之批处理框架 Spring Batch

Flink 实践教程-进阶（5）：排序（乱序调整）

智汇华云 | 桌面云卓越体验下的协议技术解析

行业分析| 实时音视频的未来

智汇华云 | 使用Kubeadm进行Kubernetes集群版本升级

用户文章转载：P4 Rmdir 会自动删除空目录？不，没那么简单

如何使用Kubernetes里的NetworkPolicy

资料分享|kafka学习推荐书籍

走访数年，编撰3年：你能看到的互联网企业案例最多的一本书

计划被打乱怎么办？

直播预告｜智能运维管理平台OMP核心特性及落地场景介绍

创作场景

大中台、小前台，阿里小蜜这样突破对话机器人发展瓶颈

对话机器人发展的 AB 面

突破与进展

短板仍然存在

不是取代人，而是深度的人机结合

对话机器人的未来

采访嘉宾介绍

评论 1 条评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载