写点什么

人机语音对话技术在 58 同城的应用实践

  • 2019-11-25
  • 本文字数:3767 字

    阅读完需:约 12 分钟

人机语音对话技术在58同城的应用实践

导读:本文将介绍 58 同城人机语音对话机器人的完整解决方案,重点分享对话策略管理、自动电话拨打、意图识别、防骚扰控制等核心模块的设计实现,并阐述如何将语音机器人应用于 58 各业务场景,以助力销售、运营和客服提高人效。

——背景——

58 同城是中国最大的生活信息服务平台,公司主营业务包括:招聘、汽车、金融、本地服务、二手等。其中,电话沟通是信息连接的重要渠道之一,如招聘业务模块,需要大量的业务人员进行求职信息确认、面试预约、面试回访等重复耗时的沟通工作。为了更好的服务 B 端商家和 C 端用户,实现“让生活简单美好”的公司使命,我们开发了语音机器人来进行电话语音沟通,减少业务人员的工作量并提升服务质量。


传统的沟通工作是完全依赖于人工拨打电话,而人工的方式相比于语音机器人存在很多问题。下图是语音机器人与人工的对比情况:



其中,关于工作态度,人工难以保持自身情绪的长久稳定,而机器人则可以始终如一的保持稳定、情绪饱满的工作态度;另外,在成本费用上,长期来看,语音机器人的成本远低于人力成本。对比了市面的语音机器人后,为了能快速的根据需求场景的变化与解决个性化的业务问题,公司采取了自研语音机器人的战略。


下面我们看一下 58 同城的人机语音对话示例:



从图中可以看出,语音机器人还是保持了相对流畅的对话。机器人怎样实现根据用户的不同回应做出不同的响应的呢?后面给大家做进一步的详细的介绍。

——语音机器人的总体架构——

1. 总体架构



语音机器人的总体架构 :


① 接入层:主要以 API 接口的形式,方便业务方调用语音机器人。当一通电话结束时,机器人可以把消息以 WMB 方式传递给业务方,相当于异步调用。同时销售等业务方,可以通过结果回传接口将后期跟进、成单信息反馈给后台,进行进一步的算法优化。


② web 管理层:主要负责话术的配置、权限的控制、批量拨打、防骚扰策略设置、数据可视化查询等。


③ 逻辑层:整个机器人的核心控制层,相当于人的大脑,保证整个对话流程完整进行。


④ 编辑运营层:目前主要用于数据标注,标注数据用于模型迭代与线上效果评估。


⑤ 基础服务层:主要包括 SIP 电话资源和语音识别/合成接口两部分。SIP 电话资源即实现拨打电话的资源,像东信、漫道等。语音识别采用的是阿里、腾讯等第三方的接口。


2. 智能外呼流程



语音机器人智能外呼流程主要分为通话前、通话中、通话后三个部分。通话前主要是调用端,调用端会把被叫号码、业务场景等使用的信息传给主体外呼,主体外呼拿到信息后会进行一些策略的设置,如防骚扰逻辑的设置、选择合理的 SIP 方、建立 SIP 通信、根据业务场景加载话术等。当触发开场白后,进入“通话中”状态,通过发送语音和利用第三方语音合成接口编码语音,经 SIP Proxy Sever 端发送给用户,用户接听后,再对用户的反应进行判别与用户语音的解码,再利用第三方的流式语音识别接口得到文本。通过对文本的分析,结合话术跳转的逻辑,对用户的回复进行合理的响应。通话结束后,语音机器人会对整轮电话进行通话状态判断、整轮通话意图识别、数据存储与回调,并以 WMB 的方式回传给业务方。

——核心功能——

58 同城语音机器人的核心功能包括四部分:电话拨打服务、通话状态识别、智能对话交互、整轮意图识别。


1. 电话拨打服务


实现电话的拨打服务功能,和客户建立连接。



当前这一功能实现主要是基于 JAIN SIP 的开源库,主要包括四层。其中在资源管理层控制上,对于呼叫用户会考虑同样的归属地来提升拨打电话的接通率。对话建立层基于 SIP 协议来实现建立通话连接与释放连接的处理。


防骚扰策略


为了避免过多打扰和消耗用户,设计了防骚扰策略。其策略主要考虑:


① 被呼名单限制:设置了呼叫白名单与黑名单,比如有些特定用户名单是不能呼叫的。


② 呼叫时间控制:哪些时间段是不能呼叫的。


③ 呼叫频次控制:对用户的呼叫频率要控制,防止过渡消耗用户。


④ 用户情绪识别:对呼叫中用户的情绪进行分析,当用户情绪很抵触时,添加到被禁的黑名单中。


2. 通话状态识别


判断拿到的客户电号码话是否真实存在和是否处于正常状态。比如做销售业务时,需要核对业务方拿过来的客户号码是否是空号、异常号码等,这个可用通过电话拨打服务来实现状态判断。



具体可以利用 SIP 协议和响铃语音来实现。SIP 协议:利用基于 SIP 协议返回的 SIP 状态码来进行判断,比如返回 603 则判断为空号;响铃语音:通过将语音信号转化为文本,进行文本关键词匹配和文本分类,对拨打号码进行判断,比如“您拨打的电话已关机”判断为关机状态,还可以利用语音信息特征设计响铃语音分类器,判断号码状态。


3. 智能对话交互


为了实现多轮对话流畅进行,智能对话交互主要包含以下模块:智能对话管理、电话按键捕获、单句意图识别、标准问题匹配、槽位提取。


① 智能对话管理



通常情况下:将用户语音转化后的文本作为模型的输入,首先对文本进行包括单句意图识别与槽位识别的 NLU 工作,然后将信息转化为用户动作并交给对话管理器。对话管理器需要判别用户的意图,根据预先设计好的话术库,结合映射策略进行话术选择跳转,生成系统动作。


具体的话术选择与策略,可以根据用户动作的语音响应与非语音响应,做进一步的处理,如下图所示。



对于四类具体话术策略跳转的理解,可以结合下图话术实例来看:



② 电话按键获取


捕获用户的按键信息。电话按键信息的捕获主要是基于 RTP、SIP、SDP 协议对按键的信号解析获得。


③ 单句意图识别


用户的意图可能会有很多种,我们将意图整体划分为了十九类意图,并建立了标签、意图及说明的识别表。



单句意图识别的实现:当前公司上线主要用的是 TextCNN 进行多分类,将用户的单句话转换为文本后再进行分类。



我们也在尝试使用 Bert 模型,进行单句意图识别:



用公司自己的场景语料在谷歌官方中文预训练模型的基础上进行的 Pretrain,拿到 Bert 关于句子的编码向量 CLS 加全连接层后接 softmax 进行多分类。相对于原来 TextCNN 的方式,效果上准确率会有百分之二的提升。


④ 标准问题匹配


当用户意图为提问时,对于问题类型为标准型问题,可以与标准问题库的问题进行问题匹配,选择对应的答案进行回复。



标准问题匹配当前使用的主要模型是 Bi-LSTM-DSSM:



Bi-LSTM 进行句子的语义编码,DSSM 进行句子匹配。在正负例的选择上,当前主要需要依据具体场景与实验效果进行设定。计算损失时的目标是与正例的相似度越高以及与负例的相似度越低。


在标准问题匹配上,也有尝试用 Bert 的方式来做:



在标准问题的匹配上,Bert 主要是用于句子信息的抽取,在具体实现的时候,对比了 CLS、Mean-Pool、Max-Pool 等常见方式,发现用 Max-Pool 的方式去抽取作为句子的向量表示是最好的。


标准问题挖掘


完善和更新标准问答数据集。



从对话数据中,提取问题与更新问答知识库。这里在新增问题时需要结合人工进行问题入库与否的审核,对于确定后的标准问题,需要对答案填充后才能添加到问答知识库中。


⑤ 槽位提取


提取对话文本中的词槽,当前主要使用的是 IDCNN+CRF 的方式进行。



当前外呼中提取的词槽实例如下:



4. 整轮意图识别


在部分外呼业务场景下,当外呼电话结束时,需要对客户意图进行预测,目前采用整轮意图识别的方式对客户意图进行预测。比如在销售场景下,将客户的意图分成了三类分别为 SUCCESS、CENTRAL、REFUSED,具体意图说明如下表:



整轮意图识别会考虑整个对话从响铃识别到对话结束的相关信息来判定,具体可以见下图:



具体的意图识别算法,主要包括 TextCNN 等模型进行分类,输入为整个对话过程中用户的所有回复文本的拼接,当前实际上线的模型是采用多模型融合来做的。此处以 TextCNN 单模型为例,模型结构如下图:



意图识别的评测:


评测会包括离线人工评价与线上评价。



目前影响意图识别准确率的主要因素是语音识别错误。

——应用场景——

语音机器人的实用场景不仅在是在销售场景,在 58 同城的应用主要还可以概括六个方面,包括:


① 通知:最基本的场景,如当用户信息发生更改,机器人可以用语音的方式告知用户哪些信息发生了更改,需要注意哪些特别事情等。


② 满意度回访:如使用 58 同城的产品时,可以利用语音机器人对客户进行产品满意度的回访。


③ 信息验真:进行用户信息真实与否的确认。


④ 销售:判断与发现潜在客户。


⑤ 告警:比如内部运维场景下,服务器出现了异常情况,机器人语音电话将报警信息告诉相关负责人。


⑥ 销售客服培训:在人力客服上岗前,需要先进行上岗培训,原来主管对于新员工的基础培训与考核部分,可以改为利用机器人进行初步培训。


下面可以看看四个具体的实际应用案例:


① 校招提效:通知场景,语音机器人在校招面试中成功运用,提升校招工作人员的效率。



② 客服提效



③ 运营提效



④ 销售提效



利用语音机器人识别意向程度高的潜在客户,提升销售人员的销售效率。


小结:语音对话技术不仅在销售业务领域落地,在信息通知、内部的业务告警等多个业务模块都得到了应用。本文围绕人机语音对话技术在 58 同城的落地场景,对语音机器人的总体架构、核心功能、具体实践场景进行了系统的介绍。


作者介绍


李忠


58 同城 | AI Lab 算法架构师


本文来自 DataFun 社区


原文链接


https://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw==&mid=2247495417&idx=1&sn=dba2868cbc9b7234029a9e0afccdaee4&chksm=fbd75c95cca0d583de37a3e588a2d47099b76d9bbf9e2e5990e6cfdb0e8a91a3eaf884791114&scene=27#wechat_redirect


2019-11-25 08:002862

评论

发布
暂无评论
发现更多内容

进来抄作业:分布式系统中保证高可用性的常用经验

华为云开发者联盟

高可用 运维 设计 分布式系统 系统

Java 异常处理

大海

Java java异常处理

Serverless 在 SaaS 领域的最佳实践

Serverless Devs

Serverless 云原生 SaaS

2020DevOps状态报告——变更管理

禅道项目管理

DevOps 运维 开发 趋势 自动化测试

开发复杂业务系统,有哪些设计思路

邴越

十八般武艺玩转GaussDB(DWS)性能调优:路径干预

华为云开发者联盟

数据库 sql 性能调优 GaussDB 算子

快抛弃你错误的坚持

石君

生活随想 28天写作

重学JS | 异步编程 Generator()

梁龙先森

面试 大前端 编程语言 28天写作

智能合约上链系统开发|智能合约上链APP软件开发

系统开发

Android开发时的多点触控是如何实现的?

博文视点Broadview

跨越全场景统一架构三大挑战,MindSpore亮出“四招”

华为云开发者联盟

深度学习 联邦学习 mindspore 算子 ai框架

高频量化交易机器人系统开发|高频量化交易机器人APP软件开发

系统开发

okhttp3 第一次使用

我就感觉到快

Socket粘包问题终极解决方案—Netty版(2W字)!

王磊

Java socket Netty

Redis 学习笔记 02:链表

架构精进之路

redis 七日更 28天写作

软件测试--selenium安装使用

测试人生路

软件测试

看图学NumPy:掌握n维数组基础知识点,看这一篇就够了

华为云开发者联盟

Python 机器学习 数组 Numpy

盘点2020| 开启小马哥的新未来

小马哥

盘点2020

工业传感器:工业互联网的第一道门

工业互联网

如何对AD和Exchange进行安全加固满足护网需要?

嘉为蓝鲸

安全 asm AD 邮件系统 权限

顶级!13位专家力荐Spring5为企业级开发提供一站式方案

996小迁

Java spring 编程 架构 面试

阿里P8内部架构核心学习知识笔记在各大互联网上流传,限时开放下载

Java架构之路

Java 程序员 架构 面试 编程语言

港股配资系统搭建

软件开发大鱼V15988750073

金融科技 港股交易系统开发 在线开户系统 CFD交易系统 港股多账户系统

实时媒体AI,打破内容创作天花板,加速视频创新

华为云开发者联盟

人工智能 云原生 媒体 视频

智汇华云 | 安超OS为企业数字化转型构建坚实的云基座

华云数据

APICloud的发展和应用

anyRTC开发者

ios android 跨平台 sdk APICloud

从美国《拜杜法案》到中国供应链体系形成的内在逻辑

JiangX

供应链 28天写作 制造

科技赋能传统产业:工业绿色可视化—核电站工艺流程组态仿真

一只数据鲸鱼

物联网 数据可视化 组态软件 绿色工业 核电站

林昊获中国计算机学会杰出工程师奖,阿里中间件再获高度肯定,“三位一体”推动技术普惠

阿里巴巴云原生

阿里巴巴 阿里云 开发者 云原生 中间件

新鲜出炉!阿里内部开源SpringCloud Alibaba全解(全彩版)全网首发

Java架构追梦

Java 学习 架构 面试 SpringCloud Alibaba

人机语音对话技术在58同城的应用实践_AI&大模型_DataFunTalk_InfoQ精选文章