人机语音对话技术在58同城的应用实践_AI&大模型_DataFunTalk



 写点什么

导读：本文将介绍 58 同城人机语音对话机器人的完整解决方案，重点分享对话策略管理、自动电话拨打、意图识别、防骚扰控制等核心模块的设计实现，并阐述如何将语音机器人应用于 58 各业务场景，以助力销售、运营和客服提高人效。

——背景——

58 同城是中国最大的生活信息服务平台，公司主营业务包括：招聘、汽车、金融、本地服务、二手等。其中，电话沟通是信息连接的重要渠道之一，如招聘业务模块，需要大量的业务人员进行求职信息确认、面试预约、面试回访等重复耗时的沟通工作。为了更好的服务 B 端商家和 C 端用户，实现“让生活简单美好”的公司使命，我们开发了语音机器人来进行电话语音沟通，减少业务人员的工作量并提升服务质量。

传统的沟通工作是完全依赖于人工拨打电话，而人工的方式相比于语音机器人存在很多问题。下图是语音机器人与人工的对比情况：

其中，关于工作态度，人工难以保持自身情绪的长久稳定，而机器人则可以始终如一的保持稳定、情绪饱满的工作态度；另外，在成本费用上，长期来看，语音机器人的成本远低于人力成本。对比了市面的语音机器人后，为了能快速的根据需求场景的变化与解决个性化的业务问题，公司采取了自研语音机器人的战略。

下面我们看一下 58 同城的人机语音对话示例：

从图中可以看出，语音机器人还是保持了相对流畅的对话。机器人怎样实现根据用户的不同回应做出不同的响应的呢？后面给大家做进一步的详细的介绍。

——语音机器人的总体架构——

1. 总体架构

语音机器人的总体架构：

① 接入层：主要以 API 接口的形式，方便业务方调用语音机器人。当一通电话结束时，机器人可以把消息以 WMB 方式传递给业务方，相当于异步调用。同时销售等业务方，可以通过结果回传接口将后期跟进、成单信息反馈给后台，进行进一步的算法优化。

② web 管理层：主要负责话术的配置、权限的控制、批量拨打、防骚扰策略设置、数据可视化查询等。

③ 逻辑层：整个机器人的核心控制层，相当于人的大脑，保证整个对话流程完整进行。

④ 编辑运营层：目前主要用于数据标注，标注数据用于模型迭代与线上效果评估。

⑤ 基础服务层：主要包括 SIP 电话资源和语音识别/合成接口两部分。SIP 电话资源即实现拨打电话的资源，像东信、漫道等。语音识别采用的是阿里、腾讯等第三方的接口。

2. 智能外呼流程

语音机器人智能外呼流程主要分为通话前、通话中、通话后三个部分。通话前主要是调用端，调用端会把被叫号码、业务场景等使用的信息传给主体外呼，主体外呼拿到信息后会进行一些策略的设置，如防骚扰逻辑的设置、选择合理的 SIP 方、建立 SIP 通信、根据业务场景加载话术等。当触发开场白后，进入“通话中”状态，通过发送语音和利用第三方语音合成接口编码语音，经 SIP Proxy Sever 端发送给用户，用户接听后，再对用户的反应进行判别与用户语音的解码，再利用第三方的流式语音识别接口得到文本。通过对文本的分析，结合话术跳转的逻辑，对用户的回复进行合理的响应。通话结束后，语音机器人会对整轮电话进行通话状态判断、整轮通话意图识别、数据存储与回调，并以 WMB 的方式回传给业务方。

——核心功能——

58 同城语音机器人的核心功能包括四部分：电话拨打服务、通话状态识别、智能对话交互、整轮意图识别。

1. 电话拨打服务

实现电话的拨打服务功能，和客户建立连接。

当前这一功能实现主要是基于 JAIN SIP 的开源库，主要包括四层。其中在资源管理层控制上，对于呼叫用户会考虑同样的归属地来提升拨打电话的接通率。对话建立层基于 SIP 协议来实现建立通话连接与释放连接的处理。

防骚扰策略：

为了避免过多打扰和消耗用户，设计了防骚扰策略。其策略主要考虑：

① 被呼名单限制：设置了呼叫白名单与黑名单，比如有些特定用户名单是不能呼叫的。

② 呼叫时间控制：哪些时间段是不能呼叫的。

③ 呼叫频次控制：对用户的呼叫频率要控制，防止过渡消耗用户。

④ 用户情绪识别：对呼叫中用户的情绪进行分析，当用户情绪很抵触时，添加到被禁的黑名单中。

2. 通话状态识别

判断拿到的客户电号码话是否真实存在和是否处于正常状态。比如做销售业务时，需要核对业务方拿过来的客户号码是否是空号、异常号码等，这个可用通过电话拨打服务来实现状态判断。

具体可以利用 SIP 协议和响铃语音来实现。SIP 协议：利用基于 SIP 协议返回的 SIP 状态码来进行判断，比如返回 603 则判断为空号；响铃语音：通过将语音信号转化为文本，进行文本关键词匹配和文本分类，对拨打号码进行判断，比如“您拨打的电话已关机”判断为关机状态，还可以利用语音信息特征设计响铃语音分类器，判断号码状态。

3. 智能对话交互

为了实现多轮对话流畅进行，智能对话交互主要包含以下模块：智能对话管理、电话按键捕获、单句意图识别、标准问题匹配、槽位提取。

① 智能对话管理：