写点什么

NLP 技术在宜信业务中的实践

  • 2020-02-11
  • 本文字数:4472 字

    阅读完需:约 15 分钟

NLP技术在宜信业务中的实践
文章围绕基于机器学习的NLP技术在宜信内部各业务领域的应用实践展开,分享这一过程中的相关经验,包括智能机器人在业务支持、客户服务中的探索,基于文本语义分析的用户画像构建,以及NLP算法服务平台化实施思路等。本文为背景篇,敬请大家阅读~


                    **作者:井玉欣。**毕业于北京大学信息科学技术学院,获博士学位,研究方向包括计算机软件与理论、逻辑推理等,目前就职于宜信技术研发中心,从事人工智能、机器学习、自然语言处理以及知识工程等方面的研究。                </section>            </section>        </section>    </section></section>
复制代码


    <section></section>
<section></section>
<section></section>
**业务背景**
<section></section>
<section></section>
<section></section>
<section></section></section>
复制代码


宜信公司于 2006 年成立于北京,经过 12 年的发展,目前围绕着普惠和财富两大业务板块,陆续推出了许多相关产品,如宜人贷、宜人财富、致诚信用、博城保险等等。


实际上在这些产品的背后,AI 技术已广泛地应用其相关的各条业务线中。


从宜信所处的金融领域的各个子领域来划分,可以分为智能交易、智能信贷、金融信息、金融安全、个性化服务这五个方面,每个方面都有相关人工技术的辅助。


例如智能交易领域,有智能投研、量化分析、自动/辅助交易等技术;智能信贷领域,有能够进行身份识别、用户画像以及智能风控等相关的人工智能产品;金融信息领域,我们会进行知识工程、图谱分析、智能问答等;金融安全领域,要进行反欺诈分析;而个性化服务领域就更广泛了,我们有行为分析、智能营销、推荐与匹配以及智能理财顾问等等一系列比较成熟的 AI 产品。


让我们继续向下探究,在这些 AI 产品的背后,会发现都有一些 NLP(Natural Language Processing, 自然语言处理)技术的影子。比如在智能交易领域,我们需要理解相当多的投研报告,这里就会用到报告理解方面的 NLP 技术;智能信贷领域,可能需要进行风控报告的生成和分析,也要用到相关的 NLP 技术;知识工程领域,要对金融信息进行知识提取,或者为了构建知识图谱进行关系提取、事件提取等;智能营销和智能理财顾问中,则需要智能聊天以及话术提取的处理技术。


可以说 NLP 技术贯穿了各个领域的 AI 产品,其直接原因就是因为我们的业务中存在着大量的自然语言数据,如电销通话数据、客户分析小结、客服沟通内容、内部交流信息以及其他各种文本报告等等,这些数据都是使用自然语言来进行存储的;而且用自然语言文本存储这些数据,还有着其他形式数据无法比拟的一些优点,如图 1 所示,自然语言数据来源丰富,信息表述多种多样,保留信息完整,并且符合用户习惯等等。


1546843032660098763.jpg


图 1 自然语言的特点


但是,我们需要注意到相较于这些优点,自然语言数据也有着数据非结构化不易处理、存在可能的歧义性、语法不规则性、未知语言现象等缺点。另外,结合宜信所处的业务领域,这些自然语言又有一些独特的特点:更强的词汇专业性、更广泛的数据来源、多样的数据形式(录音数据,文字对话数据以及短/长文本的报告、小结等)、较大的数据量以及分布的不均衡性。


这些缺点使得自然语言数据并不容易处理,NLP 技术实施起来难度也不小,但是为什么自然语言数据仍然越来越得到关注,NLP 技术的实施也越来越广泛了呢?


实际上,近几年来,各企业、组织开始在业务中也越来越关注大量非结构化数据中蕴含的高价值信息。我们知道,结构化数据比较好处理,但是经过多年的发展,能够从中挖掘出的信息越来越有限;而我们平时接触到的非结构化数据,其数量级要比结构化数据多出好几倍,里面蕴含着非常多的高价值信息。


典型的非结构化数据包括图片、视频等,另外很重要的一部分就是自然语言文本数据。我们可以从这些自然语言文本中挖掘出大量有价值的内容,例如在前面所述的宜信自然语言数据中我们就可以得到客户信息、产品数据、舆论倾向、策略反馈等。


此外,自然语言处理给我们带来了新的会话交互方式,更确切的说,基于自然语言理解和自然语言生成所形成的对话式用户交互更加自然、高效、吸引人,更加符合用户习惯,这也就是我们所说的 Conversational UI,新的交互方式越来越多的应用在各个领域。比如我们接触到的智能音箱小爱同学,她的表现就非常惊艳。


所以,越来越多的业务开始关注非结构化数据和自然语言数据这些高数量级的有价值信息,它具有的一些特点,提供的一些交互方式,带来了更多扩展的形式,这就导致了自然语言数据越来越重要,NLP 技术越来越必要。


我们给 NLP 技术做一个简单的定位,即 NLP 技术承担了领域内自然语言数据的分类、提取、转换、生成任务,是业务领域内重要、基础的技术服务之一。


    <section></section>
<section></section>
<section></section>
**NLP技术在宜信**
<section></section>
<section></section>
<section></section>
<section></section></section>
复制代码


宜信拥有丰富的业务和产品线,这些产品线产生了大量的人工智能赋能需求。算法团队成立以来,一直面临着不小的项目压力。在整个项目的驱动过程中,团队也逐渐得到成长,结合金融领域的相关业务知识,磨练出从规则分析到统计学算法,再到更加复杂的神经网络,以及 NLP 领域专业技术等一系列技能。


1546843060700092817.jpg


图 2 相关算法技术栈


具体来讲,我们从可以承担基本的处理任务(利用一些现有的规则分析、基本算法模型所进行的词性分析、句法分析)发展到可以利用相对复杂的神经网络模型对外提供文本分类、文本聚类、信息抽取等等一些模型服务,再到目前实施的智能聊天机器人(Chatbot)、用户画像、知识工程等高级场景,技术也随之转向了 transformer、GAN、强化学习、深度学习网络等能力越来越强、结构越来越复杂的模型。这一过程可以看出来技术在不断的进步。


除了技术在不断的发展以外,我们也积攒了一批有价值的语料。在业务环节方面,我们积攒了如电销数据、客服数据、陪访数据、催收数据等语料;在业务领域方面,我们积攒了借贷(车、房、消费),理财(投资、保险、生活、传承、公益)等方面的语料;而在数据形式方面,我们收集了对话类(电话、文字沟通信息)、文章类(小结、新闻、报告)形式的语料。


这是一批比较有价值的语料信息,最终形成了公司内部的专业语料数据,包括公司的产品清单、业务术语表、业务实体表乃至财富领域的财富产品知识图谱等等。我们最终的目的是经过一定的扩充、抽象和加工之后,希望能够形成金融领域的、高价值的、专业数据集,来对外进行赋能输出。比如我们可以输出金融术语表、金融术语同义词林、金融领域相关本体以及各个子领域的知识库等。


此外,我们在服务模式上也有一个演化的过程。早期我们是以项目为驱动的服务模式,这个过程中存在着一些普遍的痛点:


  • 产品众多、业务需求繁杂;

  • 不同的业务相结合,需求不断发生变化;

  • 时效性要求,越快越好,上线稍晚就会影响到需求方;

  • 研发团队人力有限,偶尔还要兼顾环境部署、上线模型监控与维护等工作,整个过程中研发团队忙、压力大,没时间对模型进行有效调优。


那么如何解决这些痛点呢?反思过后,我们走出了重要的一步,即服务的平台化。通过构建一个统一的 NLP 模型平台,对外提供一个统一的 NLP 服务,其优点是:


  • 降低成本,提高效率;

  • 平台上的模型可以灵活组合,快速响应客户的需求;

  • 可以统一相关标准,方便对模型进行集中管理。


通过平台化服务,使我们的工作摆脱了原有的粗放式服务模式,提高了 AI 团队的输出能力。


1546843085620095345.jpg


图 3 服务的平台化


图 3 为我们平台的逻辑功能视图,自底向上分为资源层、预处理层、模型层及场景层。资源层主要包括一系列的语料、标签、预训练模型等资源;预处理层包含一些常用的 NLP 技术,如分词分句、词性分析、句法分析、主题分析、命名实体识别等;模型层则包括一些可以对外提供服务的算法模型,例如文本的聚类、分类、生成、复述等模型,情感分析模型等;最高的场景层则针对一些高级的、可以形成一定闭环能力的复杂场景进行解决方案的构建,例如对于智能机器人、用户画像等复杂场景,我们会形成一个包装好的解决方案,提供给用户使用。


1546843099947038883.jpg


图 4 NLP 平台架构


图 4 为 NLP 平台工程架构。我们构建了一个支持 Python 环境的多任务调度微服务架构,从图中可以看到我们利用 Mongo、HDFS、ES、MQ 等系统构建了相关的数据访问层、模型算法层,在这两层的基础上,在微服务层我们对算法模型进行任务调度管理;外部我们暴露出相关的 Web 接口和 App 接口。此外,纵向来看,我们集成了一些权限管理、多租户管理功能,可以对接企业内部的单点登录、身份认证、权限控制等系统。


NLP技术在宜信的实践背景暂且介绍到这里,接下来我们会为大家介绍NLP技术在宜信应用的两个场景:智能聊天机器人和构建客户画像。敬请大家期待~


本文转载自宜信技术学院网站。


原文链接:http://college.creditease.cn/detail/209


2020-02-11 20:19788

评论

发布
暂无评论
发现更多内容

得物一面,都是非常经典的问题

王中阳Go

Go 面试 后端

同风起,耀星河!华为携手伙伴一起创造无限可能

HarmonyOS开发者

HarmonyOS

AIGC技术的变革:语音识别与视觉识别的深度融合

测吧(北京)科技有限公司

测试

【免费可视化仪表盘】轻松实现静态/动态数据可视化图表—积木仪表盘

JEECG低代码

数据分析 数据可视化 BI 报表 数据仪表盘

TikTok养号推荐:海外独享原生IP

Ogcloud

TikTok tiktok运营 海外原生IP TikTok养号 tiktok矩阵

2025包装展-2025年广州国际包装供应链博览会

秋硕展览

Kafka集群升级项目实施方案,打造高效数据处理平台

敏捷调度TASKCTL

kafka hadoop cloudera 集群 大数据运维

解锁极致性能:Arm Cortex-X925 IPC 提升15%,终端用户体验感再突破

新消费日报

用豆包MarsCode 和CozeAPI接口全自动做一个文生图组件

豆包MarsCode

人工智能 大数据 AI Chat

文生图与文生视频:从文本到视觉的创作革命

测吧(北京)科技有限公司

测试

AI时代,2024火山引擎飞连新品发布会盛大开启

新消费日报

联手豆包大模型,容联七陌打造更懂客户的智能客服

新消费日报

【论文速读】|用于安全代码评估的大语言模型:一项多语言实证研究

云起无垠

谈JVM xmx, xms等内存相关参数合理性设置

京东科技开发者

国内外大模型应用的现状与未来:以ChatGPT、Mixtral和Llama为例

测吧(北京)科技有限公司

测试

检索增强生成(RAG)技术在知识图谱中的应用:Neo4j的探索

测吧(北京)科技有限公司

测试

智能体Agent应用的前沿:图文、短视频与流程图的生成技术

测吧(北京)科技有限公司

测试

智能合约与大语言模型的结合:未来的应用场景探索

测吧(北京)科技有限公司

测试

深度学习在视觉识别中的突破:从理论到实践

测吧(北京)科技有限公司

测试

大模型在商业领域的应用:如何提升决策效率与用户体验

测吧(北京)科技有限公司

测试

2024年第3届海南跨博会及低空经济产业博览会

秋硕展览

《Programming from the Ground Up》阅读笔记:p217-p238

codists

汇编 编程人

借助AI开发小程序需要多久?其成效怎样?

Geek_2305a8

知识图谱融入向量数据库,带来RAG效果飞升

Zilliz

知识图谱 向量数据库 LLMs rag

架构与思维:漫谈高并发业务的CAS及ABA

EquatorCoco

架构 CAS aba

开源大模型的私有部署:Llama与千问的比较研究

测吧(北京)科技有限公司

测试

除了deadline,我们还能用什么驱动开发?

思码逸研发效能

程序员 DevOps 软件开发 编码 IT 运维

制造已然走出国门,数据如何走向全球?

奇点云

人工智能 AI 互联网 软件 制造业

实现MySQL异地多活场景

NineData

数据一致性 数据同步 异地多活 NineData 单元节点

SIGGRAPH Asia 2024 | 网易伏羲研究成果入选,3D面部动画技术再获新突破

网易伏羲

论文 网易伏羲

全局视角看技术-Java多线程演进史

京东科技开发者

NLP技术在宜信业务中的实践_文化 & 方法_井玉欣_InfoQ精选文章