NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

NLP 技术在宜信业务中的实践

  • 2020-02-11
  • 本文字数:4472 字

    阅读完需:约 15 分钟

NLP技术在宜信业务中的实践
文章围绕基于机器学习的NLP技术在宜信内部各业务领域的应用实践展开,分享这一过程中的相关经验,包括智能机器人在业务支持、客户服务中的探索,基于文本语义分析的用户画像构建,以及NLP算法服务平台化实施思路等。本文为背景篇,敬请大家阅读~


                    **作者:井玉欣。**毕业于北京大学信息科学技术学院,获博士学位,研究方向包括计算机软件与理论、逻辑推理等,目前就职于宜信技术研发中心,从事人工智能、机器学习、自然语言处理以及知识工程等方面的研究。                </section>            </section>        </section>    </section></section>
复制代码


    <section></section>
<section></section>
<section></section>
**业务背景**
<section></section>
<section></section>
<section></section>
<section></section></section>
复制代码


宜信公司于 2006 年成立于北京,经过 12 年的发展,目前围绕着普惠和财富两大业务板块,陆续推出了许多相关产品,如宜人贷、宜人财富、致诚信用、博城保险等等。


实际上在这些产品的背后,AI 技术已广泛地应用其相关的各条业务线中。


从宜信所处的金融领域的各个子领域来划分,可以分为智能交易、智能信贷、金融信息、金融安全、个性化服务这五个方面,每个方面都有相关人工技术的辅助。


例如智能交易领域,有智能投研、量化分析、自动/辅助交易等技术;智能信贷领域,有能够进行身份识别、用户画像以及智能风控等相关的人工智能产品;金融信息领域,我们会进行知识工程、图谱分析、智能问答等;金融安全领域,要进行反欺诈分析;而个性化服务领域就更广泛了,我们有行为分析、智能营销、推荐与匹配以及智能理财顾问等等一系列比较成熟的 AI 产品。


让我们继续向下探究,在这些 AI 产品的背后,会发现都有一些 NLP(Natural Language Processing, 自然语言处理)技术的影子。比如在智能交易领域,我们需要理解相当多的投研报告,这里就会用到报告理解方面的 NLP 技术;智能信贷领域,可能需要进行风控报告的生成和分析,也要用到相关的 NLP 技术;知识工程领域,要对金融信息进行知识提取,或者为了构建知识图谱进行关系提取、事件提取等;智能营销和智能理财顾问中,则需要智能聊天以及话术提取的处理技术。


可以说 NLP 技术贯穿了各个领域的 AI 产品,其直接原因就是因为我们的业务中存在着大量的自然语言数据,如电销通话数据、客户分析小结、客服沟通内容、内部交流信息以及其他各种文本报告等等,这些数据都是使用自然语言来进行存储的;而且用自然语言文本存储这些数据,还有着其他形式数据无法比拟的一些优点,如图 1 所示,自然语言数据来源丰富,信息表述多种多样,保留信息完整,并且符合用户习惯等等。


1546843032660098763.jpg


图 1 自然语言的特点


但是,我们需要注意到相较于这些优点,自然语言数据也有着数据非结构化不易处理、存在可能的歧义性、语法不规则性、未知语言现象等缺点。另外,结合宜信所处的业务领域,这些自然语言又有一些独特的特点:更强的词汇专业性、更广泛的数据来源、多样的数据形式(录音数据,文字对话数据以及短/长文本的报告、小结等)、较大的数据量以及分布的不均衡性。


这些缺点使得自然语言数据并不容易处理,NLP 技术实施起来难度也不小,但是为什么自然语言数据仍然越来越得到关注,NLP 技术的实施也越来越广泛了呢?


实际上,近几年来,各企业、组织开始在业务中也越来越关注大量非结构化数据中蕴含的高价值信息。我们知道,结构化数据比较好处理,但是经过多年的发展,能够从中挖掘出的信息越来越有限;而我们平时接触到的非结构化数据,其数量级要比结构化数据多出好几倍,里面蕴含着非常多的高价值信息。


典型的非结构化数据包括图片、视频等,另外很重要的一部分就是自然语言文本数据。我们可以从这些自然语言文本中挖掘出大量有价值的内容,例如在前面所述的宜信自然语言数据中我们就可以得到客户信息、产品数据、舆论倾向、策略反馈等。


此外,自然语言处理给我们带来了新的会话交互方式,更确切的说,基于自然语言理解和自然语言生成所形成的对话式用户交互更加自然、高效、吸引人,更加符合用户习惯,这也就是我们所说的 Conversational UI,新的交互方式越来越多的应用在各个领域。比如我们接触到的智能音箱小爱同学,她的表现就非常惊艳。


所以,越来越多的业务开始关注非结构化数据和自然语言数据这些高数量级的有价值信息,它具有的一些特点,提供的一些交互方式,带来了更多扩展的形式,这就导致了自然语言数据越来越重要,NLP 技术越来越必要。


我们给 NLP 技术做一个简单的定位,即 NLP 技术承担了领域内自然语言数据的分类、提取、转换、生成任务,是业务领域内重要、基础的技术服务之一。


    <section></section>
<section></section>
<section></section>
**NLP技术在宜信**
<section></section>
<section></section>
<section></section>
<section></section></section>
复制代码


宜信拥有丰富的业务和产品线,这些产品线产生了大量的人工智能赋能需求。算法团队成立以来,一直面临着不小的项目压力。在整个项目的驱动过程中,团队也逐渐得到成长,结合金融领域的相关业务知识,磨练出从规则分析到统计学算法,再到更加复杂的神经网络,以及 NLP 领域专业技术等一系列技能。


1546843060700092817.jpg


图 2 相关算法技术栈


具体来讲,我们从可以承担基本的处理任务(利用一些现有的规则分析、基本算法模型所进行的词性分析、句法分析)发展到可以利用相对复杂的神经网络模型对外提供文本分类、文本聚类、信息抽取等等一些模型服务,再到目前实施的智能聊天机器人(Chatbot)、用户画像、知识工程等高级场景,技术也随之转向了 transformer、GAN、强化学习、深度学习网络等能力越来越强、结构越来越复杂的模型。这一过程可以看出来技术在不断的进步。


除了技术在不断的发展以外,我们也积攒了一批有价值的语料。在业务环节方面,我们积攒了如电销数据、客服数据、陪访数据、催收数据等语料;在业务领域方面,我们积攒了借贷(车、房、消费),理财(投资、保险、生活、传承、公益)等方面的语料;而在数据形式方面,我们收集了对话类(电话、文字沟通信息)、文章类(小结、新闻、报告)形式的语料。


这是一批比较有价值的语料信息,最终形成了公司内部的专业语料数据,包括公司的产品清单、业务术语表、业务实体表乃至财富领域的财富产品知识图谱等等。我们最终的目的是经过一定的扩充、抽象和加工之后,希望能够形成金融领域的、高价值的、专业数据集,来对外进行赋能输出。比如我们可以输出金融术语表、金融术语同义词林、金融领域相关本体以及各个子领域的知识库等。


此外,我们在服务模式上也有一个演化的过程。早期我们是以项目为驱动的服务模式,这个过程中存在着一些普遍的痛点:


  • 产品众多、业务需求繁杂;

  • 不同的业务相结合,需求不断发生变化;

  • 时效性要求,越快越好,上线稍晚就会影响到需求方;

  • 研发团队人力有限,偶尔还要兼顾环境部署、上线模型监控与维护等工作,整个过程中研发团队忙、压力大,没时间对模型进行有效调优。


那么如何解决这些痛点呢?反思过后,我们走出了重要的一步,即服务的平台化。通过构建一个统一的 NLP 模型平台,对外提供一个统一的 NLP 服务,其优点是:


  • 降低成本,提高效率;

  • 平台上的模型可以灵活组合,快速响应客户的需求;

  • 可以统一相关标准,方便对模型进行集中管理。


通过平台化服务,使我们的工作摆脱了原有的粗放式服务模式,提高了 AI 团队的输出能力。


1546843085620095345.jpg


图 3 服务的平台化


图 3 为我们平台的逻辑功能视图,自底向上分为资源层、预处理层、模型层及场景层。资源层主要包括一系列的语料、标签、预训练模型等资源;预处理层包含一些常用的 NLP 技术,如分词分句、词性分析、句法分析、主题分析、命名实体识别等;模型层则包括一些可以对外提供服务的算法模型,例如文本的聚类、分类、生成、复述等模型,情感分析模型等;最高的场景层则针对一些高级的、可以形成一定闭环能力的复杂场景进行解决方案的构建,例如对于智能机器人、用户画像等复杂场景,我们会形成一个包装好的解决方案,提供给用户使用。


1546843099947038883.jpg


图 4 NLP 平台架构


图 4 为 NLP 平台工程架构。我们构建了一个支持 Python 环境的多任务调度微服务架构,从图中可以看到我们利用 Mongo、HDFS、ES、MQ 等系统构建了相关的数据访问层、模型算法层,在这两层的基础上,在微服务层我们对算法模型进行任务调度管理;外部我们暴露出相关的 Web 接口和 App 接口。此外,纵向来看,我们集成了一些权限管理、多租户管理功能,可以对接企业内部的单点登录、身份认证、权限控制等系统。


NLP技术在宜信的实践背景暂且介绍到这里,接下来我们会为大家介绍NLP技术在宜信应用的两个场景:智能聊天机器人和构建客户画像。敬请大家期待~


本文转载自宜信技术学院网站。


原文链接:http://college.creditease.cn/detail/209


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-02-11 20:19669

评论

发布
暂无评论
发现更多内容

第三方测评:GaussDB(for Redis)稳定性与扩容表现

华为云开发者联盟

redis 华为云 GaussDB(for Redis) NoSQL数据库 云原生NoSQL数据库

Flutter启动流程分析之插件化升级探索

得物技术

flutter Weex Google 框架 原生

“以终为始”的正确使用方式

石云升

思维模型 1月月更

TiDB Cloud 上线亚马逊云科技 Marketplace,为全球用户提供云端一栈式实时 HTAP 数据库体验

PingCAP

企业上云后,不容忽视的管理工具-云管平台

行云管家

云计算 企业上云 云管平台 云管理

用 docker 快速搭建 kafka(qbit)

qbit

kafka zookeeper docker image

在线YAML转TOML工具

入门小站

工具

恒源云(GPUSHARE)_attention decoder效果不佳时如何应对

恒源云

深度学习 计算机视觉

一款基于Java语言开发的,开源商业应用的模块化开发框架和智能管理平台-Axelor

马农驾驾驾

Java 系统开发 BPM 开发框架 智能管理

来自未来的交互设计!当电影中的一切变为现实,设计师要如何进化?

博文视点Broadview

☕【Java深层系列】「并发编程系列」让我们一起探索一下CompletionService的技术原理和使用指南

洛神灬殇

Java 线程池 CompletionService 异步执行 1月日更

鉴释加入龙蜥社区,助力开源生态建设

OpenAnolis小助手

Linux 开源

2022年保障企业内网安全就用行云管家!免费试用!

行云管家

云计算 云平台 内网 云管平台

必读!如何有效的进行沟通

观测观测

恒源云(GPUSHARE)_AdderSR: Towards Energy Efficient Image Super-Resolution学习笔记

恒源云

人工智能 深度学习 计算机视觉

“在线设计”网络资源管理的源头活水

鲸品堂

通信运营商 在线设计平台

前端工程师 2022 年必备的 7 个工具

开源之巅

JavaScript node.js

高并发环境下,6个构建缓存服务需要注意的问题

华为云开发者联盟

缓存 高并发 开发 并发 缓存服务

ReactNative进阶(二十九):BloC 模式

No Silver Bullet

React Native 1月月更 BloC

Spring Boot Admin 添加报警提醒和登录验证功能!

王磊

全栈工程师?你知道全流程工程师吗?

蜜糖的代码注释

Java 开发 后端技术

异步调用如何使用是最好的方式?

CRMEB

基于Calcite的分布式多数据源查询

麒思妙想

MySQL 数据库 Apache Calcite gbase8a

流批一体技术框架探索及在袋鼠云数栈中的实践

袋鼠云数栈

Linux之wc命令

入门小站

Linux

微信的业务架构图和学生管理系统的毕业设计

Geek_8d5fe5

架构实战营

携程DBA负责人俞榕刚:OceanBase在携程的落地和实践

OceanBase 数据库

数据库 分布式 OceanBase 开源 携程 客户实践

手把手教你丨小熊派移植华为 LiteOS-M

华为云开发者联盟

华为 鸿蒙 LiteOS 小熊派 移植

一线开发人员,你对项目了解多少?

蜜糖的代码注释

Java 程序员 后端技术

鉴释加入龙蜥社区,助力开源生态建设

OpenAnolis小助手

Linux 开源 社群 合作伙伴

五步实现HarmonyOS应用(ets)【鸿蒙开发 07】

坚果

鸿蒙 1月月更

NLP技术在宜信业务中的实践_文化 & 方法_井玉欣_InfoQ精选文章