写点什么

LinkedIn 的智能消息回复

  • 2017-11-09
  • 本文字数:1002 字

    阅读完需:约 3 分钟

LinkedIn 发布了一款新的自然语言处理(NLP)推荐引擎,该引擎用于向成员提供智能回复的推荐。工程团队在近期的一篇博客文章中详细地记录了该模型以及基础架构的开发过程

传统的生成消息回复的方法是一个 sequence-to-sequence 模型(在该方法中,回复是逐词计算出来的),但是 LinkedIn 的方法是从有限的库中选择出一个回复。他们的工程师解释说,这样做可以将问题视为多项分类而不是文本生成,从而带来以下优势:

  • 易于训练
  • 更快的进行训练,这是他们能够立即提出回复建议的关键所在
  • 降低不恰当回复的风险

为了创建一组候选回复,LinkedIn 首先将一组对话匿名化,用占位符替代合适的部分。例如,在私人信息中姓名这样的词汇会被替换成“RECIPIENT_FIRST_NAME”。他们还将消息进行标准化处理,该过程会把具有相同含义的消息进行处理成为等同意义的消息(例如“Yup”、“ok!!!”、“Yes, ok!”这样的词汇),并且将这些词汇的含义归为一组。

为了建立多项分类模型,LinkedIn 使用了他们自己的机器学习框架 Dagli。它应用了 Java API,使用有向无循环图来表示机器学习流程,并且该框架将来很可能会开源。

智能回复的一个要求是,仅用一种方式来表示相同意义的建议。例如,“yes”,“yep” 和“yeah”表示的意思全都是“yes”,因此提出这三个相同的回复建议是毫无意义的。工程师们通过只从相同语义组返回一条消息就解决了这个问题。例如,所有的类似“yes”的回复都属于肯定类型的回复组,因此其中只有一条回复会被推荐。

使用语义组来分类存储消息的另一个优点是易于评估。LinkedIn 只需要在预测和实际的回复组之间做一个对比,就可以了解它们的准确程度,其中关注的是含义,而不是具体的文本。

LinkedIn 还指出,由于用户在系统内发送消息的数量巨大,因此在迅速生成智能回复方面存在巨大的规模性挑战。LinkedIn 团队解决这个问题的方法是提前计算回复 (当它们被发送时),并将它们存储到 Expresso 中,Expresso 是 LinkedIn 内部的 NoSQL 数据库。这就避免了昂贵的即时计算,并且这使得在一瞬间就能够提供或多或少的智能回复。

LinkedIn 还建立了一套机制,以确保其成员的信息保持私密。首先,通过对消息进行匿名化,在训练数据中使用信息之前,任何用户的个人信息都应该被匿名化。其次,会有一个选择退出的选项,选择了该选项就意味着用户消息数据不会被系统所使用。

点击这里查看完整的架构的在线文档

查看英文原文: Smart Replies For Member Messages at LinkedIn

2017-11-09 18:001979

评论

发布
暂无评论
发现更多内容

阿里妈妈按关键字或网址搜索商品 API (alimama.item_search):电商如何利用阿里妈妈API实现个性化营销

技术冰糖葫芦

API

SD-WAN适用的几种公司类型

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商

测试管理者的晋升之路:职业发展的秘籍

测吧(北京)科技有限公司

测试

测试管理的真谛:价值与使命的深度解析

测吧(北京)科技有限公司

测试

测试管理者的成功之路:职业发展的关键因素揭示

测吧(北京)科技有限公司

测试

管理者必备:测试管理岗位与职责的全面定义

测吧(北京)科技有限公司

测试

平衡企业增长和盈利能力,解锁最佳财务规划策略

智达方通

企业增长 全面预算管理 盈利能力 财务规划

阿里妈妈按关键字或网址搜索商品 API (alimama.item_search)在电商中的发展

技术冰糖葫芦

API

测试管理的方法论宝典:工具、流程与最佳实践

测吧(北京)科技有限公司

测试

测试管理者的智慧:能力图谱指导下的职业发展之道

测吧(北京)科技有限公司

测试

接口测试抓包与mock 学习笔记

测试人

软件测试

报告正式发布!RTE 开发者是搞音视频的那波儿人么?以及大家关心的薪资、岗位、职业发展路径...

声网

SD-WAN如何解决网络质量问题?

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商

.NET发展如火如荼,这回.Net 8的野心确实不小

伤感汤姆布利柏

.net core

从技术到管理:测试管理岗位适合你吗?

测吧(北京)科技有限公司

测试

管理型人才的心理修炼:从技术到测试管理的平稳转变

测吧(北京)科技有限公司

测试

[分词]基于Lucene8版本的JSON结构分词器(属性值集合)

alexgaoyh

Java json lucene JSON解析器 自定义分词器

JavaScript 的双位非运算(~~)

南城FE

JavaScript 前端

突破职业瓶颈:测试管理者如何有效提升领导力

测吧(北京)科技有限公司

测试

测试管理的黄金法则:晋升之路上不可忽视的要点

测吧(北京)科技有限公司

测试

Databend 开源周报第 129 期

Databend

iOS应用程序混淆加固原理及逆向工具介绍

高可用性和高安全性的SD-WAN技术

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商

LinkedIn的智能消息回复_AI&大模型_Andrew Morgan_InfoQ精选文章