【FCon上海】与行业领袖共话AI大模型、数字化风控等前沿技术。 了解详情
写点什么

如何让 AI 读懂“人话”?中关村科金任务型多轮对话的实践与探索 | 对话式 AI 系列

  • 2023-04-21
    北京
  • 本文字数:4319 字

    阅读完需:约 14 分钟

如何让AI读懂“人话”?中关村科金任务型多轮对话的实践与探索 | 对话式AI系列

AI 大模型超全落地场景&金融应用实践,8 月 16 - 19 日 FCon x AICon 大会联诀来袭、干货翻倍!

任务型多轮对话是对话式 AI 的必由之路。


移动互联网带来了大数据的普及,摩尔定律预言了计算机硬件的发展,深度学习则借助这阵东风实现了技术上的突破,人工智能成功进入大众视野,并改变了人们的日常生活。


“小 X 同学,请打开电视”、“小 X 小 X,请播放音乐”...... 如今,很多年轻人的生活不再像以前一样,只需要动动嘴,就可以控制家里的各种设备。


根据全球著名调研咨询机构 IDC 发布的《中国全屋智能设备和解决方案市场回顾和展望》,2021 年中国智能家居设备出货量超过 2.2 亿台,同比增长 9.2%;2022 年中国全屋智能市场销售额将突破百亿,预计同比大幅增长近 55%;到 2023 年,智能家居将会成为物联网支出最高的领域之一。


而想要实现通过语音对话的方式来控制家中智能设备,对话式 AI 技术是必不可少的一环。



任务型多轮对话是对话式 AI 的必由之路


目前,对话式 AI 主要应用的场景有三种,分别是闲聊型、问答型和任务型。


闲聊型:多用于情感陪伴,但由于整体技术水平还未达到人们的心理预期,现阶段商业化并不太成功;


问答型:多见于客服系统,能够解决用户的一些事实性问题,但功能上较为局限; 


任务型:多用于 B2C 类应用,能够将非结构化数据充分利用起来,沉淀企业知识,是企业数字化转型赛道上的关键技术。


由于目前的技术水平还处于弱人工智能阶段,全面实现对话式 AI 比较困难。任务型多轮对话因具有较好的可解释性,且易于把控,是以点及面实现完整的对话式 AI 的理想途径。


任务型多轮对话是对话式 AI 的外延之一,专注于封闭域下的问题解决。


任务型多轮对话的定义是:根据上下文内容,进行连续的、以达到解决某一类特定任务为目的的对话。需要注意的是,任务型多轮对话有三个关键要素,多轮、连续性、封闭域。


多轮:与单轮的问答不同,多轮对话解决复杂条件下的问答,需要结合上下文理解多项约束条件,每一次应答都与上下文有强关联关系。


连续性:对话需要具备连贯性,一旦捕获到用户意图,则将以完成此任务为目标,进行持续性的对话。


封闭域:某一类特定问题表明了对话是受限的,即这是一个封闭域上的问题。对话系统仅负责某个领域下已知的一系列任务,比如说订机票,订外卖,或者查天气等等。


任务型多轮对话系统的技术架构设计


目前主流的任务型多轮对话系统依然沿用了模块化的方法,其技术架构如下所示,包含以下几个模块:



图 1 多轮对话系统架构图


输入模块:接收用户传达的信息,包括语音、图像、文本等。对于语音类信息,通常使用语音识别(Automatic Speech Recognition, ASR)技术转化为文本。而对于图像类信息,目前研究较少,可行的方案包括通过文字识别(Optical Character Recognitionm, OCR)技术将识别图像中的文字转化为文本,或者使用机器学习训练编码器,将图像转化成视觉语义编码。


解析模块:对输入的信息进行解析,转化为机器可理解的语义表示。以文本信息及框架语义表示为例,此模块依赖于自然语言理解(Natural Language Understanding, NLU)技术,需要从文本信息中识别出用户的意图(Intent)以及该意图下的语义槽(Slot)。例如“附近有什么比较火的粤菜馆?”,用户意图是“搜寻餐厅”,语义槽是“地点”为“附近”,“热度”为“高”,“菜系”为“粤菜”。


对话管理模块:根据解析模块输出的语义表示,更新对话状态,并根据策略选择应答动作。此模块主要包括对话状态跟踪(Dialogue State Tracker, DST)和对话策略学习(Dialogue Policy Learning, DPL)。对话状态跟踪负责维护多轮对话的状态,根据历史对话状态、解析模块当前的输入以及背景知识库综合得到新的对话状态。此模块的主要功能就是记忆与预测,通过与用户间的不断交流,逐渐完善对用户状态的观察。对话策略学习根据 DST 模块输出的当前对话状态,来决策系统采取的动作。例如解析模块的例子,此模块则会选择“搜索”动作,查询以用户当前定位为中心,一定范围内的高浏览量粤菜餐厅。


解码模块:与解析模块相反,此模块的任务是将系统结果以人类可以理解的方式解码,通常就是转化为自然语言。例如系统查询到的餐馆在数据表中 ID 为"r008",转化为自然语言可以是“您好,附近热度最高的粤菜馆是金鼎轩,位于 xxx 路 xxx 号,距您 1.1km。"


输出模块:此模块以输入模块相同的形式将解码模块产生的结果反馈给用户,如聊天框、麦克风等。而自然语言想要转化为语音,则需要使用到语音合成(Text To Speech, TTS) 技术。


业内主流的任务型多轮对话系统平台


经过多年的发展,任务型多轮对话领域涌现了众多优秀的公司,尽管基础技术差异不大,但在钻研方向上各家却有着自身的特色,下面介绍几个典型案例。

预训练对话模型 — 谷歌 LaMDA


谷歌 LaMDA 是工业级端到端的预训练对话模型。众所周知,目标决定方向,如何定义模型的训练任务与损失函数,将决定训练方向与最终效果。谷歌重新定义了三个评价指标,Sensibleness, Specificity, Interestingness(是否合理、符合上下文、有创造力)、Safety(是否有风险、不公正)、Groundedness、Informativeness(在知识型问答中,是否包含真实的信息、并引用相关链接),并借此构建分类任务精调模型,提升了模型的对话能力。


相比其他对话系统,LaMDA 具有蕴含知识、回复更加灵活等优势,但其不可控性、逻辑能力差等缺点也是极为明显的。然而就在大众对于此类“人工智障”逐渐失望之际,12 月 openAI 推出的同类型的大模型 chatGPT 着实让人惊艳,或许此类对话系统依然是通往终点的一条途径。


领域预建模型 — Senseforth.ai


Senseforth 成立于 2017 年,是一家印度对话式人工智能服务商。根据 Gartner 统计,目前 Senseforth 的企业级对话式人工智能平台每月处理超过 1.9 亿次对话,准确率超过 96%。


通过大量行业实践,Senseforth 创建了对话式人工智能机器人商店,该商店拥有行业预建模型和领域知识,适用于一系列垂直行业,包括银行、保险、零售、医疗保健、电信和酒店等。Senseforth 尤其专注于 NLU 模块,将意图与实体分开训练,支持快速新增、修改意图,其解决方案中包含 4 万多意图与大量的预置意图库。


除了对话式人工智能机器人外,Senseforth 还涉足对话式分析、对话式营销、代理协助、知识管理和智能搜索等技术服务。


低代码与自动化— Cognigy


Cognigy 是一家总部位于德国的对话式 AI 服务提供商,成立于 2016 年,旨在提高企业客户服务团队的工作效率。通过将对话式 AI 技术与商业智能、客户关系管理、企业资源规划工具整合,Cognigy 帮助企业用户通过简单对话形式访问实时数据,实现无缝连接关键操作触点。


Cognigy 亦专注于低代码平台搭建,结合流程自动化技术,允许企业使用智能 AI 机器人和聊天机器人自动化客户和员工通信。


任务型多轮对话在中关村科金的实践

企业目前存在的痛点


目前任务型多轮对话系统的技术框架、各模块的细化技术选型都已经较为成熟,但是在实际实践中,我们发现依然存在着定制化程度高、回答生硬、使用门槛高等诸多问题。


定制化程度高:任务型多轮对话依赖专家经验,需要预先梳理出领域本体结构,用户的意图及每个意图对应的槽位,针对每个任务还需要设计其对应的故事线,因此不同行业、甚至不同公司都需要根据具体情况来定制。


非生成式应答生硬:任务型多轮对话的应答通常是非生成式的,采用的方法往往是枚举、模板等,因此,回复会显得比较生硬,影响客户体验。


难以适应语言环境的变化速度:自然语言的创造力很强,变化也非常快,例如“碳交易”、“元宇宙”、“预制菜”、“政银担”等等,新词的出现对于对话系统是很大的考验,需要考虑如何设计产品以跟上快速变化的语言环境。


系统使用门槛高:对于系统使用人员来说,构建一个完整的任务型对话机器人具有一定的专业门槛,其中涉及到大量的机器学习模型,如何训练模型、优化模型等,难度都会比较大。


中关村科金的解决方案


针对任务型多轮对话系统中存在的挑战,中关村科金提出了自己的解决方案。


沉淀行业知识,抽象领域通用能力


针对定制化程度高、非生成式应答生硬的问题,中关村科技的解决方法是定义完善的标签体系与领域实践模板,将知识进行沉淀。


据了解,目前中关村科金基于数亿人机对话语料,构建了 100+ 通用实体与意图,帮助客户快速搭建自身领域的标签体系。另外,在某些特定领域,例如金融行业,中关村科金积累了大量行业标注语料,形成了自有的领域实践模板,同领域的客户可以直接应用“现有模板”,避免从 0 到 1 的冷启动阶段,加速项目落地应用。


 借助流程挖掘,构建领域特定故事


如果我们把多轮对话看作流程,借助流程挖掘技术,就可以从海量数据中绘制出流程图,辅助专家抽象领域 SOP。而基于已有 SOP 的实践,又可以通过流程挖掘的 Replay 技术,完成对关键话术节点、风险对话节点等的感知与预测,针对性的优化改进,进一步完善领域 SOP,助力客户业务增长。


在实际的应用中,流程挖掘已经成为中关村科金帮助客户实现领域标准对话程序的关键技术。


通过闭环迭代,实现智能化运营


多轮对话依赖于底层知识库与模型,中关村科金通过人机闭环链路,实现了非专业运营的智能化迭代优化。


对于知识库,通过知识发现、知识细化、知识优化、知识淘汰四步,运营人员仅需对部分新知识进行审核,即可实现知识库的快速迭代更新。


而在模型方面,中关村科金自研的自训练平台,提供了业务中积累的大量规则、模型算子,通过少量的配置,运营人员即可实现模型的优化,降低了学习成本,解决了对话系统使用门槛高的问题。


以营销行业为例,中关村科金基于对话式 AI 技术,通过将 MAP 平台、智能外呼机器人、文本机器人、RPA 结合,构建一体化营销云产品。在为某消金线上业务服务中,将营销的 SOP 流程标准化后沉淀下来,配置在营销自动化模块中,基于用户分层实现自动化群发、自动化回复、自动化标签等,打造全新的私域自动化运营体系,营销转化率提升 30%、人力成本下降 60%,帮助客户实现降本增效。


任务型多轮对话的未来发展趋势


因其可控性,在可预见的未来任务型多轮对话依然将是对话系统的主要表现形式之一。随着技术的不断提高,中关村科金认为以下三个方面会是任务型多轮对话的未来发展方向。


1)冷启动始终是 AI 所不可避免的问题,如何基于现有的大量未标注数据,快速实现对话系统的搭建值得深入研究;

2)机器学习模型目前还停留在感知智能的阶段,并没有真正理解对话中的含义,同时欠缺对于领域知识、常识知识的应用。引入领域知识和常识知识,并且能够进行知识的推理,将极大的提高对话系统的实用性与竞争力;

3)语言不是唯一的交互途径,人类的表达方式是多种多样的,人机对话系统的交互方式必将向多模态的方向发展。


未来,中关村科金将不断提升多模态对话式 AI,尤其是任务型对话的技术实力与场景落地能力,抓住这一企业数字化转型赛道上的关键技术,助力企业数字化变革。

公众号推荐:

AIGC 技术正以惊人的速度重塑着创新的边界,InfoQ 首期《大模型领航者AIGC实践案例集锦》电子书,深度对话 30 位国内顶尖大模型专家,洞悉大模型技术前沿与未来趋势,精选 10 余个行业一线实践案例,全面展示大模型在多个垂直行业的应用成果,同时,揭秘全球热门大模型效果,为创业者、开发者提供决策支持和选型参考。关注「AI前线」,回复「领航者」免费获取电子书。

2023-04-21 13:093133
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 505.4 次阅读, 收获喜欢 1970 次。

关注

评论

发布
暂无评论
发现更多内容

Eudic欧路词典 for Mac(英语学习工具) v4.5.3完美激活版

mac

苹果mac Windows软件 欧路词典 英语学习工具

ApeCoin DAO猿岛游戏系统开发DAPP案例

西安链酷科技

dapp开发 游戏链改

质押挖矿理财DAPP系统开发技术

西安链酷科技

web3 链游 钱包开发 多链钱包

卡牌类链游系统开发NFT游戏技术

西安链酷科技

链游开发 运动挖矿开发

聚合CPS返利系统开发程序搭建

西安链酷科技

cps系统 刷短剧系统

平台工程指南:TheNewStack 发布的免费电子书

杨振涛

HashiCorp 平台工程 平台工程社区 PECommunity Platform Engineering

【TiDB 技术视频合集】史上最全的 121 个 TiDB 用户实践技术视频合集来啦!

TiDB 社区干货传送门

高效视频增强和修复工具 Topaz Video AI 激活最新版

胖墩儿不胖y

Mac软件 视频编辑 视频处理软件 视频修复工具

智能合约|质押挖矿Dapp系统开发

薇電13242772558

dapp

万界星空科技SMT行业生产管理MES系统解决方案

万界星空科技

数字化 工业互联网 工业4.0 制造业生产管理系统 工业制造

潮玩宇宙APP系统开发技术

西安链酷科技

潮玩 NFT链游

Docker的安装部署以及配置的操作流程。

百度搜索:蓝易云

Docker 云计算 Linux 运维 云服务器

TiDB 在咪咕云原生场景下的实践

TiDB 社区干货传送门

实践案例

漆包线行业你了解多少?

万界星空科技

【论文解读】在上下文中学习创建任务向量

合合技术团队

人工智能 LLM ICL

构建高效数据流转的 ETL 系统:数据库 + Serverless 函数计算的最佳实践

Serverless Devs

云计算 serverles 负载 函数计算

MySQL 到 TiDB:vivo 的 Hive Metastore 横向扩展之路

TiDB 社区干货传送门

实践案例

mac电脑矢量图制作必备:Illustrator 2023激活中文版

mac大玩家j

Mac软件 矢量图制作软件 矢量图工具

APE猿岛质押游戏系统开发

西安链酷科技

链游开发 全链游戏

网站定制开发主要分类|企业app软件小程序定制

Geek_16d138

网站建设 软件定制开发

短剧CPS分销系统程序开发搭建

西安链酷科技

直播系统 聚合cps系统

记 Rakuten 技术分享会

TiDB 社区干货传送门

实践案例 社区活动

java 注解原理

橙子橘子柚子皮

注解 反射 代理模式 Java’

免费获取GPT-4的五种工具

互联网工科生

人工智能 GPT-4

云游世界卷轴系统开发NFT技术

西安链酷科技

DeFi质押挖矿 defi开发

合约量化交易所系统开发——策略机器人

西安链酷科技

量化机器人 智能ai量化 量化交易软件

【SOP】最佳实践之 TiDB OOM 分析

TiDB 社区干货传送门

性能调优 实践案例 集群管理 管理与运维 故障排查/诊断

TiDB x 汉口银行丨分布式数据库应用实践

TiDB 社区干货传送门

实践案例

阿里云Elasticsearch Severless 如何做到成本降低50%

阿里云大数据AI技术

开源 云原生

为什么亚马逊轻量级服务器这么受欢迎

在下小吉.

服务器 轻量级服务器 亚马逊

Jogger慢跑者/Stepn跑鞋NFT系统开发案例

西安链酷科技

dapp开发 运动挖矿

如何让AI读懂“人话”?中关村科金任务型多轮对话的实践与探索 | 对话式AI系列_AI&大模型_罗华刚_InfoQ精选文章