写点什么

京东 618:智能机器人 JIMI 的进击之路

  • 2017-06-17
  • 本文字数:2784 字

    阅读完需:约 9 分钟

ArchSummit 全球架构师峰会深圳站将于 2017 年 7 月 7 日~8 日在深圳·华侨城洲际酒店召开,大会设置了相关专题来深入解读电商大促背后的技术故事,大会还邀请了 eBay、WalmartLabs 等国外顶尖技术专家,分享 AI 促销、搜索引擎、异地多活、库存物流等核心架构实践。

目前,人工智能正在以前所未有的姿态汹涌而来,快速杀入人们的视野。京东一直致力于用技术驱动业务成长,全面提高用户体验,基于对未来客服人力成本可能的提升,以及人工智能技术的发展趋势,早在 2012 年,京东就决定研制智能机器人以应对业务不断拓展带来的客服成本和压力。

JIMI 的发展:智能进化,全面拓展

2012 年 JIMI 顺势诞生,初期以售后服务为主,14 年 5 月开放售前服务,逐渐拓展到移动端、微博、微信等多平台端口,为用户提供推荐商品、告知优惠、砍价、下单、直接支付的售前全流程闭环体验,让用户可以边咨询边购物,成为用户贴心的购物助手。同时,我们也将智能机器人拓展到各个业务层面,店铺 JIMI、京东金融 JIMI、京东到家 JIMI 相继诞生,此外,我们还将 JIMI 的服务能力平台化,推出了 JIMI 开放平台,接入长虹、华西等外部企业。

在这全面应用和不断推广的过程中,JIMI 也为京东商城节约了数千万的人力成本。日接待量高达百万次,覆盖京东 10 亿 + 的商品,应答准确率 90% 以上,用户满意度高达 80% 以上,减少客服压力的同时为用户提供更好的服务,也帮助外部企业也减少了至少 50% 的人力成本。

JIMI 产品技术体系揭秘

JIMI 整体产品架构如下图所示:

目前 JIMI 推出的覆盖全平台的用户端产品,商家和企业一旦启用,也就将 JIMI 的能力赋能给商家和企业,让商家和企业可以定制自己的智能机器人。JIMI 在多领域多终端以拟人化的交互体验为用户进行服务,多领域语义识别、情感分析和领域知识图谱等能力是 JIMI 的核心。基础平台支撑起 JIMI 服务能力,让 JIMI 可以快速高效进行数据标注、清洗、挖掘,以及模型训练等。

为了更灵活高效的支撑 JIMI 产品发展路线,在技术上 JIMI 采用了平台服务化架构技术体系,如下图:

从上到下,顶部展示的是目前 JIMI 支撑的所有业务场景,包括:京东自营业务的导购、售后和虚拟业务,京东 POP 店铺机器人,京东金融机器人等。其下,是统一接入层。界面按照终端接入组件化思路,所有界面交互统一把交互和展示逻辑封装,按照 Web(PC)、SDK、M 页面分三类。前后端数据交互通道,浏览器走 HTTPs 和 WebSocket 方式,移动 SDK 走 TCP 方式,若是服务端接口,走京东内部标准化 JSF RPC 方式。这样就整合了所有来自不同终端不同业务场景机器人请求,所有请求统一转发到“调度引擎”服务进行请求调度分发。

“调度引擎”相当于一个请求路由服务,根据终端机器人请求类型的不同,会调度分发给后端不同服务流程处理。后端的服务整体分为“算法”、“工程”、“数据”三类。对于聊天机器人来说,“算法”是大脑、“工程”是躯体、而“数据”是血液。下面,分别简单介绍下三类服务的作用与协作方式。

“工程”是系统的躯体,它负责了在线问答请求各服务的内部流转,如下图所示的服务交互流程:

“算法”是系统的大脑,它的核心是自然语言处理(NLP)。NLP 负责对用户的问题进行分析并产生答案,包括:用户的意图识别,关键词的识别、歧义分析等。对于问答机器人而言,语言理解的关键在于用户意图识别。当用户存在明确意图时,结合相应商品等信息就能给出准确的答案。在实际应用中,意图识别往往看作机器学习的多分类问题。

为了让 JIMI 更精准地理解用户的提问,从而给出针对性更强的回答,2015 年,京东成立 DNN 实验室(深度神经网络实验室),将 NLP 和 DNN 进行结合,这种新算法具有一定的上下文识别能力,相对于传统的分类算法,会更准确。

我们只要将京东客服能够回答的问题归纳成一个个的业务点:如退换货相关、运费相关、商品属性相关等。意图识别需要做的就是对用户问题进行分类,决定用户意图到底是在哪一个业务点上。即分类模型输入为用户问题,输出为当前咨询所属业务点。在引入深度神经网络模型后,JIMI 意图识别整体准确率由原先的 76% 提升至 84.1%。在命名实体识别(关键词识别)环境上,结合深度神经网络,JIMI 抽取用户问题关键信息的准确率比传统方法提高了 6.6%。这也是 JIMI 与其它同类产品的本质区别。

意图识别模块除了分类外,后续的维护工作也相当重要。一方面需要优化当前的分类效果,解决线上的 bad case;另一方面随着时间迁移,会出现新的业务点,用户提问方式也会发生改变。我们的分类模型也需要随之做出调整。为了减少人力,做到模型自学习,还需要引入线上数据收集模块,整个意图识别框架如
下:

这样线下和线上的工作联动运作,就能保证 JIMI 的意图识别不断优化,跟得上业务的不断升级。

“数据”是系统的血液,其架构体系如下:

数据经过采集(采集方式包括:SDK、HTTP 和事件采集)、预处理、数据格式校验,通过传输通道(JMQ、Kafka 消息队列异步传输、HTTP 同步传输)进入数据存储层。通过建立的元数据进行实时或者离线加工处理,并建立索引服务,供查询搜索使用。对于清洗后的数据,进行数据聚合,供机器学习语料训练;并提供数据自助查询,报表展现。能支撑 10 亿级数据实时上报,做到秒级延迟、秒级查询,提升了 JIMI 的应答效果。

用户画像也是 JIMI 重要的技术手段之一,目前我们主要致力于挖掘用户与用户、用户与商品之间的深层次联系,通过深度学习、大数据处理等核心技术,建立起复杂的用户、商品特征关联网络,用于精准的刻画用户特性。我们把每个用户的特征,都加入到模型的训练和预测中,比如根据画像数据,当前用户是有小孩的,且历史有过购买奶粉的记录,那我们预测时就会结合用户画像特征,推测用户可能会问奶粉购买相关的问题,并直接将问题展示出来供客户点选,用户点击感兴趣的问题进行咨询即可。

JIMI 的未来:全能的智能 AI 与开放的平台

前不久,AlphaGo 对战柯洁获全胜的新闻引起了大众的广泛讨论,对于 JIMI 是否会像 AlphaGo 一样在某些方面进行训练,以达到人类水平或超过人类这个问题,我们已经可以说,JIMI 在一些品类的客服满意度已超过人工客服。目前在日常情况下,JIMI 的接待量已与人工客服接待量持平,大促期间甚至会超越人工客服。

未来 JIMI 也会继续不断进化,除客服行业,也会积极拓展其它领域的深度学习,提升服务质量,推动人工智能技术成长。同时,我们也会通过我们的人工智能开放平台,给不同行业的商家或机构提供智能咨询服务解决方案,让智能 JIMI 的身影能够进入各个垂直领域,实现京东技术能力的开放与经验共享。

作者介绍:

刘丹,京东智能通讯部总监,京东深度神经网络实验室(DNN-Lab)核心成员之一,资深电商专家。在实时通讯、测试架构、稳定性框架、智能电商服务等领域均有涉猎,精通业务通用 性架构、用户行为、智能客服、稳定性提升等多项理论及实践,京东咚咚、智能聊天机器人和无人客服系统研发负责人。

2017-06-17 20:3010107

评论

发布
暂无评论
发现更多内容

在 JavaScript 中如何检查对象为空

编程江湖

JavaScript 大前端

新来的00后真是卷王,工作没两年,跳槽到我们公司起薪26K

Geek_1df311

Java 程序员 架构 面试

Stratifyd数据分析平台加盟腾讯云市场,赋能品牌消费洞察

如何设计一款跨平台低延迟的RTMP|RTSP直播播放器

音视频牛哥

WebRTC HLS RTMP RTSP

海康摄像机RTSP地址格式(官方最新版)

音视频牛哥

WebRTC RTMP RTSP 播放器

你不知道的$nextTick

CRMEB

Go WebSocket开发与测试实践【gorilla/websocket】

FunTester

Java websocket 接口测试 Go 语言 FunTester

什么是微服务架构,有何优缺点?

雯雯写代码

微服务

终于把性能测试这事儿讲清楚了

博睿数据

构建多云战略的注意事项

云计算

Python Qt GUI设计:QComboBox下拉列表框类(基础篇—14)

不脱发的程序猿

Python qt PyQt GUI设计 QComboBox下拉列表框类

宝马、西门子是如何开始DevOps 的?

飞算JavaAI开发助手

EMQ 出席 2021 ArchSummit,打造全连接时代的数据基础设施

EMQ映云科技

大数据 物联网 IoT 智能

钉钉小程序快照技术初窥

阿里巴巴终端技术

小程序 ios android 快照 体验优化

线程如何实现保持同步

编程江湖

Java 多线程

如何实现在线播放mpeg-ts文件?

Changing Lin

11月日更

远程工作的这几年

程序员铮铮

程序员 代码人生 远程工作

面试官:系统需求多变时如何设计?

Geek_1df311

程序员 架构 面试 计算机

YU12 YV12 NV12 NV21区别

音视频牛哥

WebRTC RTMP RTSP yuv

如何成为web安全工程师?

喀拉峻

网络安全 安全 信息安全

如何判断一个需求是真的用户需求,还是伪需求呢?

石云升

产品思维 需求分析 11月日更

白话 Linux 容器资源的隔离限制原理

恒生LIGHT云社区

Linux 运维

发布一个免费的 Elasticsearch 多集群监控和管理平台 - 极限数据平台

极限实验室

elasticsearch infini 极限实验室 极限数据平台 ES多集群管理

Python代码阅读(第61篇):延迟调用函数

Felix

Python 编程 Code 阅读代码 Python初学者

CTF夺旗PWN题:二叉树的漏洞利用

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 安全漏洞

社交重构、游戏革新,万物皆可元宇宙?这场大会给你讲清楚了|活动预告

网易云信

人工智能 音视频 元宇宙

【AI最前线】精准优质-资讯|分享|热议第41期

百度大脑

人工智能

提升研发效能的低代码思路

赫杰辉

研发效能 低代码平台 x-series

拒绝卡顿,揭秘盒马鲜生 APP Android 短视频秒播优化方案

阿里巴巴终端技术

android App 短视频 移动开发 体验优化

Spark面试题大全

编程江湖

大数据 Spark面试题

京东618:智能机器人JIMI的进击之路_语言 & 开发_刘丹_InfoQ精选文章