AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

NLP 技术在宜信业务中的实践

  • 2020-02-11
  • 本文字数:4472 字

    阅读完需:约 15 分钟

NLP技术在宜信业务中的实践
文章围绕基于机器学习的NLP技术在宜信内部各业务领域的应用实践展开,分享这一过程中的相关经验,包括智能机器人在业务支持、客户服务中的探索,基于文本语义分析的用户画像构建,以及NLP算法服务平台化实施思路等。本文为背景篇,敬请大家阅读~


                    **作者:井玉欣。**毕业于北京大学信息科学技术学院,获博士学位,研究方向包括计算机软件与理论、逻辑推理等,目前就职于宜信技术研发中心,从事人工智能、机器学习、自然语言处理以及知识工程等方面的研究。                </section>            </section>        </section>    </section></section>
复制代码


    <section></section>
<section></section>
<section></section>
**业务背景**
<section></section>
<section></section>
<section></section>
<section></section></section>
复制代码


宜信公司于 2006 年成立于北京,经过 12 年的发展,目前围绕着普惠和财富两大业务板块,陆续推出了许多相关产品,如宜人贷、宜人财富、致诚信用、博城保险等等。


实际上在这些产品的背后,AI 技术已广泛地应用其相关的各条业务线中。


从宜信所处的金融领域的各个子领域来划分,可以分为智能交易、智能信贷、金融信息、金融安全、个性化服务这五个方面,每个方面都有相关人工技术的辅助。


例如智能交易领域,有智能投研、量化分析、自动/辅助交易等技术;智能信贷领域,有能够进行身份识别、用户画像以及智能风控等相关的人工智能产品;金融信息领域,我们会进行知识工程、图谱分析、智能问答等;金融安全领域,要进行反欺诈分析;而个性化服务领域就更广泛了,我们有行为分析、智能营销、推荐与匹配以及智能理财顾问等等一系列比较成熟的 AI 产品。


让我们继续向下探究,在这些 AI 产品的背后,会发现都有一些 NLP(Natural Language Processing, 自然语言处理)技术的影子。比如在智能交易领域,我们需要理解相当多的投研报告,这里就会用到报告理解方面的 NLP 技术;智能信贷领域,可能需要进行风控报告的生成和分析,也要用到相关的 NLP 技术;知识工程领域,要对金融信息进行知识提取,或者为了构建知识图谱进行关系提取、事件提取等;智能营销和智能理财顾问中,则需要智能聊天以及话术提取的处理技术。


可以说 NLP 技术贯穿了各个领域的 AI 产品,其直接原因就是因为我们的业务中存在着大量的自然语言数据,如电销通话数据、客户分析小结、客服沟通内容、内部交流信息以及其他各种文本报告等等,这些数据都是使用自然语言来进行存储的;而且用自然语言文本存储这些数据,还有着其他形式数据无法比拟的一些优点,如图 1 所示,自然语言数据来源丰富,信息表述多种多样,保留信息完整,并且符合用户习惯等等。


1546843032660098763.jpg


图 1 自然语言的特点


但是,我们需要注意到相较于这些优点,自然语言数据也有着数据非结构化不易处理、存在可能的歧义性、语法不规则性、未知语言现象等缺点。另外,结合宜信所处的业务领域,这些自然语言又有一些独特的特点:更强的词汇专业性、更广泛的数据来源、多样的数据形式(录音数据,文字对话数据以及短/长文本的报告、小结等)、较大的数据量以及分布的不均衡性。


这些缺点使得自然语言数据并不容易处理,NLP 技术实施起来难度也不小,但是为什么自然语言数据仍然越来越得到关注,NLP 技术的实施也越来越广泛了呢?


实际上,近几年来,各企业、组织开始在业务中也越来越关注大量非结构化数据中蕴含的高价值信息。我们知道,结构化数据比较好处理,但是经过多年的发展,能够从中挖掘出的信息越来越有限;而我们平时接触到的非结构化数据,其数量级要比结构化数据多出好几倍,里面蕴含着非常多的高价值信息。


典型的非结构化数据包括图片、视频等,另外很重要的一部分就是自然语言文本数据。我们可以从这些自然语言文本中挖掘出大量有价值的内容,例如在前面所述的宜信自然语言数据中我们就可以得到客户信息、产品数据、舆论倾向、策略反馈等。


此外,自然语言处理给我们带来了新的会话交互方式,更确切的说,基于自然语言理解和自然语言生成所形成的对话式用户交互更加自然、高效、吸引人,更加符合用户习惯,这也就是我们所说的 Conversational UI,新的交互方式越来越多的应用在各个领域。比如我们接触到的智能音箱小爱同学,她的表现就非常惊艳。


所以,越来越多的业务开始关注非结构化数据和自然语言数据这些高数量级的有价值信息,它具有的一些特点,提供的一些交互方式,带来了更多扩展的形式,这就导致了自然语言数据越来越重要,NLP 技术越来越必要。


我们给 NLP 技术做一个简单的定位,即 NLP 技术承担了领域内自然语言数据的分类、提取、转换、生成任务,是业务领域内重要、基础的技术服务之一。


    <section></section>
<section></section>
<section></section>
**NLP技术在宜信**
<section></section>
<section></section>
<section></section>
<section></section></section>
复制代码


宜信拥有丰富的业务和产品线,这些产品线产生了大量的人工智能赋能需求。算法团队成立以来,一直面临着不小的项目压力。在整个项目的驱动过程中,团队也逐渐得到成长,结合金融领域的相关业务知识,磨练出从规则分析到统计学算法,再到更加复杂的神经网络,以及 NLP 领域专业技术等一系列技能。


1546843060700092817.jpg


图 2 相关算法技术栈


具体来讲,我们从可以承担基本的处理任务(利用一些现有的规则分析、基本算法模型所进行的词性分析、句法分析)发展到可以利用相对复杂的神经网络模型对外提供文本分类、文本聚类、信息抽取等等一些模型服务,再到目前实施的智能聊天机器人(Chatbot)、用户画像、知识工程等高级场景,技术也随之转向了 transformer、GAN、强化学习、深度学习网络等能力越来越强、结构越来越复杂的模型。这一过程可以看出来技术在不断的进步。


除了技术在不断的发展以外,我们也积攒了一批有价值的语料。在业务环节方面,我们积攒了如电销数据、客服数据、陪访数据、催收数据等语料;在业务领域方面,我们积攒了借贷(车、房、消费),理财(投资、保险、生活、传承、公益)等方面的语料;而在数据形式方面,我们收集了对话类(电话、文字沟通信息)、文章类(小结、新闻、报告)形式的语料。


这是一批比较有价值的语料信息,最终形成了公司内部的专业语料数据,包括公司的产品清单、业务术语表、业务实体表乃至财富领域的财富产品知识图谱等等。我们最终的目的是经过一定的扩充、抽象和加工之后,希望能够形成金融领域的、高价值的、专业数据集,来对外进行赋能输出。比如我们可以输出金融术语表、金融术语同义词林、金融领域相关本体以及各个子领域的知识库等。


此外,我们在服务模式上也有一个演化的过程。早期我们是以项目为驱动的服务模式,这个过程中存在着一些普遍的痛点:


  • 产品众多、业务需求繁杂;

  • 不同的业务相结合,需求不断发生变化;

  • 时效性要求,越快越好,上线稍晚就会影响到需求方;

  • 研发团队人力有限,偶尔还要兼顾环境部署、上线模型监控与维护等工作,整个过程中研发团队忙、压力大,没时间对模型进行有效调优。


那么如何解决这些痛点呢?反思过后,我们走出了重要的一步,即服务的平台化。通过构建一个统一的 NLP 模型平台,对外提供一个统一的 NLP 服务,其优点是:


  • 降低成本,提高效率;

  • 平台上的模型可以灵活组合,快速响应客户的需求;

  • 可以统一相关标准,方便对模型进行集中管理。


通过平台化服务,使我们的工作摆脱了原有的粗放式服务模式,提高了 AI 团队的输出能力。


1546843085620095345.jpg


图 3 服务的平台化


图 3 为我们平台的逻辑功能视图,自底向上分为资源层、预处理层、模型层及场景层。资源层主要包括一系列的语料、标签、预训练模型等资源;预处理层包含一些常用的 NLP 技术,如分词分句、词性分析、句法分析、主题分析、命名实体识别等;模型层则包括一些可以对外提供服务的算法模型,例如文本的聚类、分类、生成、复述等模型,情感分析模型等;最高的场景层则针对一些高级的、可以形成一定闭环能力的复杂场景进行解决方案的构建,例如对于智能机器人、用户画像等复杂场景,我们会形成一个包装好的解决方案,提供给用户使用。


1546843099947038883.jpg


图 4 NLP 平台架构


图 4 为 NLP 平台工程架构。我们构建了一个支持 Python 环境的多任务调度微服务架构,从图中可以看到我们利用 Mongo、HDFS、ES、MQ 等系统构建了相关的数据访问层、模型算法层,在这两层的基础上,在微服务层我们对算法模型进行任务调度管理;外部我们暴露出相关的 Web 接口和 App 接口。此外,纵向来看,我们集成了一些权限管理、多租户管理功能,可以对接企业内部的单点登录、身份认证、权限控制等系统。


NLP技术在宜信的实践背景暂且介绍到这里,接下来我们会为大家介绍NLP技术在宜信应用的两个场景:智能聊天机器人和构建客户画像。敬请大家期待~


本文转载自宜信技术学院网站。


原文链接:http://college.creditease.cn/detail/209


2020-02-11 20:19919

评论

发布
暂无评论
发现更多内容

乌镇回溯 | 构建网络空间命运共同体,旺链科技做了哪些?

旺链科技

数字经济 产业区块链 世界互联网大会

膜拜!不愧是阿里大牛总结的Java10W字面经,Github访问量已破百万

Java 程序员 架构 面试 计算机

linux之登录式shell和非登录式shell

入门小站

Linux

第7章-《Linux一学就会》-Centos8 用户管理

学神来啦

Linux linux运维 linux学习 Linux教程

Go 语言实现 WebSocket 推送

全象云低代码

websocket 低代码开发 Go 语言

多指标异常检测方法综述

云智慧AIOps社区

AIOPS 异常检测 技术学习 智能运维 指标

月度发布 | 极狐GitLab14.3升级40+新功能!

极狐GitLab

阿里云天池赛题解析——深度学习篇重磅发布!

博文视点Broadview

13个VSCode使用技巧,开启高效的开发模式

华为云开发者联盟

vscode 日志 开发 插件 Git存储库

万亿养老市场如何抢占商机?云巢智慧康养物联网加速器,三招化解ISV痛点!

华为云开发者联盟

物联网 华为云 iotda 沃土云创计划 智慧康养

如何利用国产图数据库打造金融行业方案?

星环科技

CRM是什么,你有认真了解过CRM吗?

低代码小观

企业管理 CRM

CRM系统如何帮助你的业务?

低代码小观

企业管理 CRM

详解html5新增的标签与css3中伪类和伪元素

你好bk

html5 css3 大前端 基础技能

[外文资源]最好的 Golang 博客

baiyutang

golang 9月日更

基于云的 CRM 能为您的业务提供哪些服务?

低代码小观

企业管理 CRM

Python代码阅读(第30篇):找到列表中的奇偶异常项

Felix

Python 编程 Code Programing 阅读代码

StartDT Hackathon | 泛元数据:让数据成为资产

奇点云

美女程序“媛”:从工程师到架构师,我的代码人生

融云 RongCloud

程序员 代码人生

基于虹软SDK,适配Camera1、Camera2、CameraX,实现人脸识别(Android)

小驰笔记

android 音视频 人脸识别 引航计划

被客户像小学生一样训话

boshi

创业

带你了解数仓安全测试的TLS协议

华为云开发者联盟

安全 通信 密钥 SSL/TLS协议 加密通信

Talk to AI,揭秘背后的语音识别数据

澳鹏Appen

语音 nlp 语音识别 训练数据 语音识别模型

netty系列之:分离websocket处理器

程序那些事

Java 架构 Netty 程序那些事

融云 IM+RTC+X「全」通信解决方案,赋能全平台、多语言开发者

融云 RongCloud

通信 技术栈 语言 & 开发

在线黑客帝国文字效果生成工具

入门小站

工具

分布式系统都要遵守的CAP

卢卡多多

CAP 9月日更

扒一扒面向对象编程的另一面

华为云开发者联盟

编程 面向对象 对象 对象编程

译文 | MySQL 8.0 密码管理策略(一)

RadonDB

MySQL 数据库

Prometheus 2.30.0 新特性

耳东@Erdong

release Prometheus 9月日更

拒绝裸奔,为 Elasticsearch 设置账号密码(qbit)

qbit

https 安全 Kibana

NLP技术在宜信业务中的实践_文化 & 方法_井玉欣_InfoQ精选文章