解码数字化之路,56 个深度转型案例正式上线,立即查看>> 了解详情
写点什么

人机语音对话技术在 58 同城的应用实践

  • 2019-11-25
  • 本文字数:3767 字

    阅读完需:约 12 分钟

人机语音对话技术在58同城的应用实践

导读:本文将介绍 58 同城人机语音对话机器人的完整解决方案,重点分享对话策略管理、自动电话拨打、意图识别、防骚扰控制等核心模块的设计实现,并阐述如何将语音机器人应用于 58 各业务场景,以助力销售、运营和客服提高人效。

——背景——

58 同城是中国最大的生活信息服务平台,公司主营业务包括:招聘、汽车、金融、本地服务、二手等。其中,电话沟通是信息连接的重要渠道之一,如招聘业务模块,需要大量的业务人员进行求职信息确认、面试预约、面试回访等重复耗时的沟通工作。为了更好的服务 B 端商家和 C 端用户,实现“让生活简单美好”的公司使命,我们开发了语音机器人来进行电话语音沟通,减少业务人员的工作量并提升服务质量。


传统的沟通工作是完全依赖于人工拨打电话,而人工的方式相比于语音机器人存在很多问题。下图是语音机器人与人工的对比情况:



其中,关于工作态度,人工难以保持自身情绪的长久稳定,而机器人则可以始终如一的保持稳定、情绪饱满的工作态度;另外,在成本费用上,长期来看,语音机器人的成本远低于人力成本。对比了市面的语音机器人后,为了能快速的根据需求场景的变化与解决个性化的业务问题,公司采取了自研语音机器人的战略。


下面我们看一下 58 同城的人机语音对话示例:



从图中可以看出,语音机器人还是保持了相对流畅的对话。机器人怎样实现根据用户的不同回应做出不同的响应的呢?后面给大家做进一步的详细的介绍。

——语音机器人的总体架构——

1. 总体架构



语音机器人的总体架构 :


① 接入层:主要以 API 接口的形式,方便业务方调用语音机器人。当一通电话结束时,机器人可以把消息以 WMB 方式传递给业务方,相当于异步调用。同时销售等业务方,可以通过结果回传接口将后期跟进、成单信息反馈给后台,进行进一步的算法优化。


② web 管理层:主要负责话术的配置、权限的控制、批量拨打、防骚扰策略设置、数据可视化查询等。


③ 逻辑层:整个机器人的核心控制层,相当于人的大脑,保证整个对话流程完整进行。


④ 编辑运营层:目前主要用于数据标注,标注数据用于模型迭代与线上效果评估。


⑤ 基础服务层:主要包括 SIP 电话资源和语音识别/合成接口两部分。SIP 电话资源即实现拨打电话的资源,像东信、漫道等。语音识别采用的是阿里、腾讯等第三方的接口。


2. 智能外呼流程



语音机器人智能外呼流程主要分为通话前、通话中、通话后三个部分。通话前主要是调用端,调用端会把被叫号码、业务场景等使用的信息传给主体外呼,主体外呼拿到信息后会进行一些策略的设置,如防骚扰逻辑的设置、选择合理的 SIP 方、建立 SIP 通信、根据业务场景加载话术等。当触发开场白后,进入“通话中”状态,通过发送语音和利用第三方语音合成接口编码语音,经 SIP Proxy Sever 端发送给用户,用户接听后,再对用户的反应进行判别与用户语音的解码,再利用第三方的流式语音识别接口得到文本。通过对文本的分析,结合话术跳转的逻辑,对用户的回复进行合理的响应。通话结束后,语音机器人会对整轮电话进行通话状态判断、整轮通话意图识别、数据存储与回调,并以 WMB 的方式回传给业务方。

——核心功能——

58 同城语音机器人的核心功能包括四部分:电话拨打服务、通话状态识别、智能对话交互、整轮意图识别。


1. 电话拨打服务


实现电话的拨打服务功能,和客户建立连接。



当前这一功能实现主要是基于 JAIN SIP 的开源库,主要包括四层。其中在资源管理层控制上,对于呼叫用户会考虑同样的归属地来提升拨打电话的接通率。对话建立层基于 SIP 协议来实现建立通话连接与释放连接的处理。


防骚扰策略


为了避免过多打扰和消耗用户,设计了防骚扰策略。其策略主要考虑:


① 被呼名单限制:设置了呼叫白名单与黑名单,比如有些特定用户名单是不能呼叫的。


② 呼叫时间控制:哪些时间段是不能呼叫的。


③ 呼叫频次控制:对用户的呼叫频率要控制,防止过渡消耗用户。


④ 用户情绪识别:对呼叫中用户的情绪进行分析,当用户情绪很抵触时,添加到被禁的黑名单中。


2. 通话状态识别


判断拿到的客户电号码话是否真实存在和是否处于正常状态。比如做销售业务时,需要核对业务方拿过来的客户号码是否是空号、异常号码等,这个可用通过电话拨打服务来实现状态判断。



具体可以利用 SIP 协议和响铃语音来实现。SIP 协议:利用基于 SIP 协议返回的 SIP 状态码来进行判断,比如返回 603 则判断为空号;响铃语音:通过将语音信号转化为文本,进行文本关键词匹配和文本分类,对拨打号码进行判断,比如“您拨打的电话已关机”判断为关机状态,还可以利用语音信息特征设计响铃语音分类器,判断号码状态。


3. 智能对话交互


为了实现多轮对话流畅进行,智能对话交互主要包含以下模块:智能对话管理、电话按键捕获、单句意图识别、标准问题匹配、槽位提取。


① 智能对话管理



通常情况下:将用户语音转化后的文本作为模型的输入,首先对文本进行包括单句意图识别与槽位识别的 NLU 工作,然后将信息转化为用户动作并交给对话管理器。对话管理器需要判别用户的意图,根据预先设计好的话术库,结合映射策略进行话术选择跳转,生成系统动作。


具体的话术选择与策略,可以根据用户动作的语音响应与非语音响应,做进一步的处理,如下图所示。



对于四类具体话术策略跳转的理解,可以结合下图话术实例来看:



② 电话按键获取


捕获用户的按键信息。电话按键信息的捕获主要是基于 RTP、SIP、SDP 协议对按键的信号解析获得。


③ 单句意图识别


用户的意图可能会有很多种,我们将意图整体划分为了十九类意图,并建立了标签、意图及说明的识别表。



单句意图识别的实现:当前公司上线主要用的是 TextCNN 进行多分类,将用户的单句话转换为文本后再进行分类。



我们也在尝试使用 Bert 模型,进行单句意图识别:



用公司自己的场景语料在谷歌官方中文预训练模型的基础上进行的 Pretrain,拿到 Bert 关于句子的编码向量 CLS 加全连接层后接 softmax 进行多分类。相对于原来 TextCNN 的方式,效果上准确率会有百分之二的提升。


④ 标准问题匹配


当用户意图为提问时,对于问题类型为标准型问题,可以与标准问题库的问题进行问题匹配,选择对应的答案进行回复。



标准问题匹配当前使用的主要模型是 Bi-LSTM-DSSM:



Bi-LSTM 进行句子的语义编码,DSSM 进行句子匹配。在正负例的选择上,当前主要需要依据具体场景与实验效果进行设定。计算损失时的目标是与正例的相似度越高以及与负例的相似度越低。


在标准问题匹配上,也有尝试用 Bert 的方式来做:



在标准问题的匹配上,Bert 主要是用于句子信息的抽取,在具体实现的时候,对比了 CLS、Mean-Pool、Max-Pool 等常见方式,发现用 Max-Pool 的方式去抽取作为句子的向量表示是最好的。


标准问题挖掘


完善和更新标准问答数据集。



从对话数据中,提取问题与更新问答知识库。这里在新增问题时需要结合人工进行问题入库与否的审核,对于确定后的标准问题,需要对答案填充后才能添加到问答知识库中。


⑤ 槽位提取


提取对话文本中的词槽,当前主要使用的是 IDCNN+CRF 的方式进行。



当前外呼中提取的词槽实例如下:



4. 整轮意图识别


在部分外呼业务场景下,当外呼电话结束时,需要对客户意图进行预测,目前采用整轮意图识别的方式对客户意图进行预测。比如在销售场景下,将客户的意图分成了三类分别为 SUCCESS、CENTRAL、REFUSED,具体意图说明如下表:



整轮意图识别会考虑整个对话从响铃识别到对话结束的相关信息来判定,具体可以见下图:



具体的意图识别算法,主要包括 TextCNN 等模型进行分类,输入为整个对话过程中用户的所有回复文本的拼接,当前实际上线的模型是采用多模型融合来做的。此处以 TextCNN 单模型为例,模型结构如下图:



意图识别的评测:


评测会包括离线人工评价与线上评价。



目前影响意图识别准确率的主要因素是语音识别错误。

——应用场景——

语音机器人的实用场景不仅在是在销售场景,在 58 同城的应用主要还可以概括六个方面,包括:


① 通知:最基本的场景,如当用户信息发生更改,机器人可以用语音的方式告知用户哪些信息发生了更改,需要注意哪些特别事情等。


② 满意度回访:如使用 58 同城的产品时,可以利用语音机器人对客户进行产品满意度的回访。


③ 信息验真:进行用户信息真实与否的确认。


④ 销售:判断与发现潜在客户。


⑤ 告警:比如内部运维场景下,服务器出现了异常情况,机器人语音电话将报警信息告诉相关负责人。


⑥ 销售客服培训:在人力客服上岗前,需要先进行上岗培训,原来主管对于新员工的基础培训与考核部分,可以改为利用机器人进行初步培训。


下面可以看看四个具体的实际应用案例:


① 校招提效:通知场景,语音机器人在校招面试中成功运用,提升校招工作人员的效率。



② 客服提效



③ 运营提效



④ 销售提效



利用语音机器人识别意向程度高的潜在客户,提升销售人员的销售效率。


小结:语音对话技术不仅在销售业务领域落地,在信息通知、内部的业务告警等多个业务模块都得到了应用。本文围绕人机语音对话技术在 58 同城的落地场景,对语音机器人的总体架构、核心功能、具体实践场景进行了系统的介绍。


作者介绍


李忠


58 同城 | AI Lab 算法架构师


本文来自 DataFun 社区


原文链接


https://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw==&mid=2247495417&idx=1&sn=dba2868cbc9b7234029a9e0afccdaee4&chksm=fbd75c95cca0d583de37a3e588a2d47099b76d9bbf9e2e5990e6cfdb0e8a91a3eaf884791114&scene=27#wechat_redirect


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-11-25 08:002051

评论

发布
暂无评论
发现更多内容

ChatGPT,音乐,与数据库

沃趣科技

数据库 云原生 音乐 ChatGPT

不懂就问,Milvus 新上线的资源组功能到底怎么样?

Zilliz

非结构化数据 Milvus Zilliz

企业微信接入系列-自建应用

六月的雨在InfoQ

企业微信 应用配置 三周年连更 自建应用

《社区人员管理》实战案例设计&个人案例分享

京东科技开发者

架构 测试 编码 在线设计平台 企业号 4 月 PK 榜

MySQL到ClickHouse数据同步产品对比推荐

NineData

MySQL Clickhouse dba bifrost NineData

Flomesh 软负载 FLB GA 版本发布

Flomesh

负载均衡 云原生 Pipy

一篇神文就把java多线程,锁,JMM,JUC和高并发设计模式讲明白了

做梦都在改BUG

Java 多线程 高并发

leetcode-2335. 装满杯子需要的最短总时长

肥晨

三周年征文

缓存与数据库双写一致性几种策略分析

京东科技开发者

数据库 缓存 高并发 数据一致性 企业号 4 月 PK 榜

基于 Flink CDC 的现代数据栈实践

Apache Flink

大数据 flink 实时计算

跨平台图像浏览器:XnViewMP 中文激活版

真大的脸盆

Mac Mac 软件 图像查看 图像浏览

再聊 MySQL 聚簇索引

江南一点雨

Java MySQL

软件架构生态化-多角色交付的探索实践

京东科技开发者

架构 架构师 交付能力 企业号 4 月 PK 榜

漫谈前端自动化测试演进之路及测试工具分析

京东科技开发者

前端 自动化测试 前端测试 企业号 4 月 PK 榜

极光笔记 | 让运营“从心”出发,打造身临其境的客户体验!

极光JIGUANG

运营 消息推送 极光推送

Intents ,快速完成任务的最强辅助

鼎道智联

AI

MySQL8.0 优化器介绍(三)

GreatSQL

MySQL greatsql greatsql社区

DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍

汀丶人工智能

人工智能 自然语言处理 深度学习 ChatGPT

Karmada v1.5发布:多调度组助力成本优化

华为云开发者联盟

云原生 后端 华为云 华为云开发者联盟 企业号 4 月 PK 榜

Typescript-类型检测和变量的定义

格斗家不爱在外太空沉思

typescript 三周年连更

基于 Flink CDC 的现代数据栈实践

Apache Flink

大数据 flink 实时计算

Flink CDC 在易车的应用实践

Apache Flink

大数据 flink 实时计算

代码质量难评估?一文带你用 SonarQube 分析代码质量!

Java你猿哥

架构师 代码 SSM框架 sonar

SAP Emarsys 的前后台技术栈

Jerry Wang

SaaS Cloud SAP 思爱普 三周年连更

“分割一切”大模型SAM、超轻量PP-MobileSeg、工业质检工具、全景分割方案,PaddleSeg全新版本等你来体验!

飞桨PaddlePaddle

计算机视觉 飞桨 图像分割

全网已经疯传90多万次的java修炼指南!已帮我拿下11个大厂offer

做梦都在改BUG

如何在业务开发中使用适配器模式?

做梦都在改BUG

实习生疑问:为什么要在需要排序的字段上加索引呢?

架构精进之路

MySQL 数据库 索引 三周年连更

Spring @Import注解的使用和源码分析

Java你猿哥

Java spring import SSM框架

MobPush Android SDK厂商通道申请指南

MobTech袤博科技

CentOS7 离线安装 Zabbix5.0

A-刘晨阳

Linux zabbix 三周年连更 离线安装

人机语音对话技术在58同城的应用实践_AI&大模型_DataFunTalk_InfoQ精选文章