写点什么

如何让 AI 读懂“人话”?中关村科金任务型多轮对话的实践与探索 | 对话式 AI 系列

  • 2023-04-21
    北京
  • 本文字数:4319 字

    阅读完需:约 14 分钟

如何让AI读懂“人话”?中关村科金任务型多轮对话的实践与探索 | 对话式AI系列

任务型多轮对话是对话式 AI 的必由之路。


移动互联网带来了大数据的普及,摩尔定律预言了计算机硬件的发展,深度学习则借助这阵东风实现了技术上的突破,人工智能成功进入大众视野,并改变了人们的日常生活。


“小 X 同学,请打开电视”、“小 X 小 X,请播放音乐”...... 如今,很多年轻人的生活不再像以前一样,只需要动动嘴,就可以控制家里的各种设备。


根据全球著名调研咨询机构 IDC 发布的《中国全屋智能设备和解决方案市场回顾和展望》,2021 年中国智能家居设备出货量超过 2.2 亿台,同比增长 9.2%;2022 年中国全屋智能市场销售额将突破百亿,预计同比大幅增长近 55%;到 2023 年,智能家居将会成为物联网支出最高的领域之一。


而想要实现通过语音对话的方式来控制家中智能设备,对话式 AI 技术是必不可少的一环。



任务型多轮对话是对话式 AI 的必由之路


目前,对话式 AI 主要应用的场景有三种,分别是闲聊型、问答型和任务型。


闲聊型:多用于情感陪伴,但由于整体技术水平还未达到人们的心理预期,现阶段商业化并不太成功;


问答型:多见于客服系统,能够解决用户的一些事实性问题,但功能上较为局限; 


任务型:多用于 B2C 类应用,能够将非结构化数据充分利用起来,沉淀企业知识,是企业数字化转型赛道上的关键技术。


由于目前的技术水平还处于弱人工智能阶段,全面实现对话式 AI 比较困难。任务型多轮对话因具有较好的可解释性,且易于把控,是以点及面实现完整的对话式 AI 的理想途径。


任务型多轮对话是对话式 AI 的外延之一,专注于封闭域下的问题解决。


任务型多轮对话的定义是:根据上下文内容,进行连续的、以达到解决某一类特定任务为目的的对话。需要注意的是,任务型多轮对话有三个关键要素,多轮、连续性、封闭域。


多轮:与单轮的问答不同,多轮对话解决复杂条件下的问答,需要结合上下文理解多项约束条件,每一次应答都与上下文有强关联关系。


连续性:对话需要具备连贯性,一旦捕获到用户意图,则将以完成此任务为目标,进行持续性的对话。


封闭域:某一类特定问题表明了对话是受限的,即这是一个封闭域上的问题。对话系统仅负责某个领域下已知的一系列任务,比如说订机票,订外卖,或者查天气等等。


任务型多轮对话系统的技术架构设计


目前主流的任务型多轮对话系统依然沿用了模块化的方法,其技术架构如下所示,包含以下几个模块:



图 1 多轮对话系统架构图


输入模块:接收用户传达的信息,包括语音、图像、文本等。对于语音类信息,通常使用语音识别(Automatic Speech Recognition, ASR)技术转化为文本。而对于图像类信息,目前研究较少,可行的方案包括通过文字识别(Optical Character Recognitionm, OCR)技术将识别图像中的文字转化为文本,或者使用机器学习训练编码器,将图像转化成视觉语义编码。


解析模块:对输入的信息进行解析,转化为机器可理解的语义表示。以文本信息及框架语义表示为例,此模块依赖于自然语言理解(Natural Language Understanding, NLU)技术,需要从文本信息中识别出用户的意图(Intent)以及该意图下的语义槽(Slot)。例如“附近有什么比较火的粤菜馆?”,用户意图是“搜寻餐厅”,语义槽是“地点”为“附近”,“热度”为“高”,“菜系”为“粤菜”。


对话管理模块:根据解析模块输出的语义表示,更新对话状态,并根据策略选择应答动作。此模块主要包括对话状态跟踪(Dialogue State Tracker, DST)和对话策略学习(Dialogue Policy Learning, DPL)。对话状态跟踪负责维护多轮对话的状态,根据历史对话状态、解析模块当前的输入以及背景知识库综合得到新的对话状态。此模块的主要功能就是记忆与预测,通过与用户间的不断交流,逐渐完善对用户状态的观察。对话策略学习根据 DST 模块输出的当前对话状态,来决策系统采取的动作。例如解析模块的例子,此模块则会选择“搜索”动作,查询以用户当前定位为中心,一定范围内的高浏览量粤菜餐厅。


解码模块:与解析模块相反,此模块的任务是将系统结果以人类可以理解的方式解码,通常就是转化为自然语言。例如系统查询到的餐馆在数据表中 ID 为"r008",转化为自然语言可以是“您好,附近热度最高的粤菜馆是金鼎轩,位于 xxx 路 xxx 号,距您 1.1km。"


输出模块:此模块以输入模块相同的形式将解码模块产生的结果反馈给用户,如聊天框、麦克风等。而自然语言想要转化为语音,则需要使用到语音合成(Text To Speech, TTS) 技术。


业内主流的任务型多轮对话系统平台


经过多年的发展,任务型多轮对话领域涌现了众多优秀的公司,尽管基础技术差异不大,但在钻研方向上各家却有着自身的特色,下面介绍几个典型案例。

预训练对话模型 — 谷歌 LaMDA


谷歌 LaMDA 是工业级端到端的预训练对话模型。众所周知,目标决定方向,如何定义模型的训练任务与损失函数,将决定训练方向与最终效果。谷歌重新定义了三个评价指标,Sensibleness, Specificity, Interestingness(是否合理、符合上下文、有创造力)、Safety(是否有风险、不公正)、Groundedness、Informativeness(在知识型问答中,是否包含真实的信息、并引用相关链接),并借此构建分类任务精调模型,提升了模型的对话能力。


相比其他对话系统,LaMDA 具有蕴含知识、回复更加灵活等优势,但其不可控性、逻辑能力差等缺点也是极为明显的。然而就在大众对于此类“人工智障”逐渐失望之际,12 月 openAI 推出的同类型的大模型 chatGPT 着实让人惊艳,或许此类对话系统依然是通往终点的一条途径。


领域预建模型 — Senseforth.ai


Senseforth 成立于 2017 年,是一家印度对话式人工智能服务商。根据 Gartner 统计,目前 Senseforth 的企业级对话式人工智能平台每月处理超过 1.9 亿次对话,准确率超过 96%。


通过大量行业实践,Senseforth 创建了对话式人工智能机器人商店,该商店拥有行业预建模型和领域知识,适用于一系列垂直行业,包括银行、保险、零售、医疗保健、电信和酒店等。Senseforth 尤其专注于 NLU 模块,将意图与实体分开训练,支持快速新增、修改意图,其解决方案中包含 4 万多意图与大量的预置意图库。


除了对话式人工智能机器人外,Senseforth 还涉足对话式分析、对话式营销、代理协助、知识管理和智能搜索等技术服务。


低代码与自动化— Cognigy


Cognigy 是一家总部位于德国的对话式 AI 服务提供商,成立于 2016 年,旨在提高企业客户服务团队的工作效率。通过将对话式 AI 技术与商业智能、客户关系管理、企业资源规划工具整合,Cognigy 帮助企业用户通过简单对话形式访问实时数据,实现无缝连接关键操作触点。


Cognigy 亦专注于低代码平台搭建,结合流程自动化技术,允许企业使用智能 AI 机器人和聊天机器人自动化客户和员工通信。


任务型多轮对话在中关村科金的实践

企业目前存在的痛点


目前任务型多轮对话系统的技术框架、各模块的细化技术选型都已经较为成熟,但是在实际实践中,我们发现依然存在着定制化程度高、回答生硬、使用门槛高等诸多问题。


定制化程度高:任务型多轮对话依赖专家经验,需要预先梳理出领域本体结构,用户的意图及每个意图对应的槽位,针对每个任务还需要设计其对应的故事线,因此不同行业、甚至不同公司都需要根据具体情况来定制。


非生成式应答生硬:任务型多轮对话的应答通常是非生成式的,采用的方法往往是枚举、模板等,因此,回复会显得比较生硬,影响客户体验。


难以适应语言环境的变化速度:自然语言的创造力很强,变化也非常快,例如“碳交易”、“元宇宙”、“预制菜”、“政银担”等等,新词的出现对于对话系统是很大的考验,需要考虑如何设计产品以跟上快速变化的语言环境。


系统使用门槛高:对于系统使用人员来说,构建一个完整的任务型对话机器人具有一定的专业门槛,其中涉及到大量的机器学习模型,如何训练模型、优化模型等,难度都会比较大。


中关村科金的解决方案


针对任务型多轮对话系统中存在的挑战,中关村科金提出了自己的解决方案。


沉淀行业知识,抽象领域通用能力


针对定制化程度高、非生成式应答生硬的问题,中关村科技的解决方法是定义完善的标签体系与领域实践模板,将知识进行沉淀。


据了解,目前中关村科金基于数亿人机对话语料,构建了 100+ 通用实体与意图,帮助客户快速搭建自身领域的标签体系。另外,在某些特定领域,例如金融行业,中关村科金积累了大量行业标注语料,形成了自有的领域实践模板,同领域的客户可以直接应用“现有模板”,避免从 0 到 1 的冷启动阶段,加速项目落地应用。


 借助流程挖掘,构建领域特定故事


如果我们把多轮对话看作流程,借助流程挖掘技术,就可以从海量数据中绘制出流程图,辅助专家抽象领域 SOP。而基于已有 SOP 的实践,又可以通过流程挖掘的 Replay 技术,完成对关键话术节点、风险对话节点等的感知与预测,针对性的优化改进,进一步完善领域 SOP,助力客户业务增长。


在实际的应用中,流程挖掘已经成为中关村科金帮助客户实现领域标准对话程序的关键技术。


通过闭环迭代,实现智能化运营


多轮对话依赖于底层知识库与模型,中关村科金通过人机闭环链路,实现了非专业运营的智能化迭代优化。


对于知识库,通过知识发现、知识细化、知识优化、知识淘汰四步,运营人员仅需对部分新知识进行审核,即可实现知识库的快速迭代更新。


而在模型方面,中关村科金自研的自训练平台,提供了业务中积累的大量规则、模型算子,通过少量的配置,运营人员即可实现模型的优化,降低了学习成本,解决了对话系统使用门槛高的问题。


以营销行业为例,中关村科金基于对话式 AI 技术,通过将 MAP 平台、智能外呼机器人、文本机器人、RPA 结合,构建一体化营销云产品。在为某消金线上业务服务中,将营销的 SOP 流程标准化后沉淀下来,配置在营销自动化模块中,基于用户分层实现自动化群发、自动化回复、自动化标签等,打造全新的私域自动化运营体系,营销转化率提升 30%、人力成本下降 60%,帮助客户实现降本增效。


任务型多轮对话的未来发展趋势


因其可控性,在可预见的未来任务型多轮对话依然将是对话系统的主要表现形式之一。随着技术的不断提高,中关村科金认为以下三个方面会是任务型多轮对话的未来发展方向。


1)冷启动始终是 AI 所不可避免的问题,如何基于现有的大量未标注数据,快速实现对话系统的搭建值得深入研究;

2)机器学习模型目前还停留在感知智能的阶段,并没有真正理解对话中的含义,同时欠缺对于领域知识、常识知识的应用。引入领域知识和常识知识,并且能够进行知识的推理,将极大的提高对话系统的实用性与竞争力;

3)语言不是唯一的交互途径,人类的表达方式是多种多样的,人机对话系统的交互方式必将向多模态的方向发展。


未来,中关村科金将不断提升多模态对话式 AI,尤其是任务型对话的技术实力与场景落地能力,抓住这一企业数字化转型赛道上的关键技术,助力企业数字化变革。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-04-21 13:092933
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 493.3 次阅读, 收获喜欢 1966 次。

关注

评论

发布
暂无评论
发现更多内容

一文弄懂竞品分析 - 竞品分析是什么| 从哪些方面分析 | 竞品分析报告怎么写?

彭宏豪95

效率工具 产品经理 在线白板 竞品分析 SWOT

几种常见的排序算法总结

不在线第一只蜗牛

算法 排序算法 教程分享

为什么 Mac 适合编程?

代码生成器研究

2023年datafun随手记(1)

Hua

大数据 AI GPT LLM

12 月 3 日北京,时序数据管理前沿技术+行业应用尽在 IoTDB 用户大会!

Apache IoTDB

拼多多商品详情数据接口应用在哪些场景?

tbapi

拼多多 拼多多商品详情接口 拼多多API接口

铭文聚合交易平台 Scorpio:铭文赛道狂潮的新引领者

股市老人

C/C++ 开发SCM服务管理组件

不在线第一只蜗牛

c 开发语言 c++、

CART算法解密:从原理到Python实现

快乐非自愿限量之名

Python 算法 PyTorch

软件测试/人工智能|教你如何使用ChatGPT的API

霍格沃兹测试开发学社

如何系统、科学地自学编程知识?

代码生成器研究

百度大模型安全解决方案获WitAwards 2023 年度大奖

百度安全

安全 大模型安全

全链协同,链接未来|端点科技联合IDC重磅发布新一代ERP白皮书

科技热闻

体育数据服务商提供API接口,有哪些赛事数据

软件开发-梦幻运营部

电竞游戏主播直播系统平台,在市场该如何变现?

软件开发-梦幻运营部

登陆 Azure、发布新版本……Zilliz 昨夜今晨发生了什么?

Zilliz

azure Milvus Zilliz zillizcloud

软件测试/人工智能|一文教你如何配置自己的AutoGPT

霍格沃兹测试开发学社

喜讯!云起无垠成为国家信息安全漏洞库(CNNVD)技术支撑单位

云起无垠

SQL 通配符:用于模糊搜索和匹配的 SQL 关键技巧

小万哥

MySQL 数据库 程序员 sql 后端开发

超级应用平台(HAP)起航

明道云

核药供应链创新:远大医药策略与明道云实践

明道云

北京同仁堂签署鸿蒙生态合作协议,加速推进鸿蒙原生应用开发

最新动态

跃见书单 | 一文带你读懂《人工智能简史》

码上跃见

AIGC #人工智能

只需3分钟!组织架构图如何简单快速制作

Geek_09ea8e

组织架构图

我干嘛要去学Python???!!!

代码生成器研究

鸿蒙学堂·创新实训营再度启航深圳,中国移动、国家电网等40余家企业参与

最新动态

淘宝商品详情API接口文档(API SDK)

tbapi

淘宝商品详情数据接口 淘宝API接口 淘宝商品详情页面数据 淘宝商品详情数据采集方法 天猫数据接口

智能汽车的山海之盾

脑极体

智能汽车

IDC最新报告,增速减缓+AI增势,阿里云视频云中国市场第一

阿里云视频云

云计算 视频云

E往无前 | 海量数据ES 扩展难?腾讯云大数据ES 扩展百万级分片也“So Easy~”

腾讯云大数据

ES

软件测试/人工智能|AutoGPT原理与架构介绍

霍格沃兹测试开发学社

如何让AI读懂“人话”?中关村科金任务型多轮对话的实践与探索 | 对话式AI系列_AI&大模型_罗华刚_InfoQ精选文章