每年减少3.7万亿美元的损失：利用文本分析进行欺诈检测_语言 & 开发_张天雷



 写点什么

当前，商业欺诈行为无处不在。 idibon 最近发表一篇文章阐述其严重性，以及最新的整治手段。2014 年，来自于注册舞弊审查师协会（ACFE）的一项调查估计，全球每年由于欺诈行为至少损失大约 3.7 万亿美元。它还估计，普通公司每年由于欺诈行为平均损失了约 5％的年收入。在所有欺诈行为中，其中金融服务行业占到了 18％。其他行业也存在显著的一些欺诈索赔，包括房地产、石油和天然气、技术、制造、运输和医疗（关于如何通过文本分析来帮助检测医疗行业的欺诈行为可以参阅 olga 的博客）。

因此，欺诈行为的检测在未来将拥有一个巨大的市场。通过分析当前的研究和市场，一份关于全球欺诈分析的报告表示在2015 年到2019 年之间全球的的欺诈行为分析市场将增长24.04％。但是，如何通过有效的方法来进行欺诈行为检测呢？随着大数据时代的来领，大量欺诈行为相关的数据能够被获取，利用有效的机器学习方法对数据进行深入挖掘，可以有效地帮助欺诈行为检测。而根据注册舞弊审查师全国协会（ NACFE ）估计，80％以上有关欺诈的公司记录都是以文本数据的形式存在。 80％的文本数据又都是非结构化的。因此，利用机器学习方法进行欺诈行为检测更多的是使用文本分析，文本分析可以帮助挖掘这些非结构化数据中所蕴含的信息，并提醒企业在公司财产丢失之前及时采取行动。

欺诈行为数据存在的形式通常可能是理赔记录、电子邮件、年度进展报告、客户服务电话、索赔采访，以及有关组织内的可疑行为的社交媒体会话等。而其中社会媒体内容越来越吸引企业部门的专业人员的重视，他们最近开始认识到通过挖掘这些数据可以帮助发现欺诈行为的早期征兆。最近的一项 Deloitte 调查发现，接受调查的 2,490 名商务专业人士认为，在欺诈调查过程中，45.2％的欺诈行为与社会媒体内容有关联。虽然大多数的这些专业人士都是通过手动的分析，但还是有 12.6％的人使用了分析工具。

金融服务机构的社交媒体数据可以揭示欺诈者之间的联系和联盟，并可以检测到网络威胁。手动地解析非结构化的社交媒体数据可能是一个非常繁琐和昂贵的行为。文本分析可以自动识别关于可疑行为的相关会话，然后将其告诉工程师以及时采取行动进行防范。

在保险业，特别是联合反对保险欺诈的一项调查显示，95％的保险公司正在使用的防欺诈技术，以防止保险行业每年由于欺诈行为所造成的800 个亿的损失。而其中43％都使用了专门的文本分析技术。

分析欺诈者的社交网络数据

通用电气的消费及工业家庭服务部门从在保修期内负责修理电器的技术人员那里收到了很多索赔请求。因为提交索赔的量非常大，通用电气的工程师通过手动方式发现一些异常的行为是十分困难的。

为了解决自动化的问题，通用电气采用了一个文本分析系统，通过将数据输入到机器学习系统中，分析索赔请求的26 项度量指标，来检测它们是否可疑。通用电气正在使用的文本分析方法属于社交网络分析（SNA）范畴。在SNA，除了情绪分析工具，各种数据源的数据还由一个机器学习算法进行分析。该系统比较所有不同的度量指标，试图找出网络中可疑的部分。例如，系统可能会发现，网络中的一个人以前被定罪过，那么和他有关联的人具有较大的概率也存在欺诈行为。

如果系统检测到一些指标不符合正常曲线，它会被当做可疑的索赔请求发送给分析师进行审核。在使用文本分析的第一年，通用电气公司就节省了510 万美元。

分析欺诈者的行为

Infinity 是一家汽车保险公司，它为那些拥有高于平均水平事故风险的司机提供保险，并愿意支付更高的价格范围。考虑到保险公司的客户群都是高风险用户，因此，能够监控和快速识别欺诈行为的早期迹象是特别重要的。

Infinity 通过使用文本分析技术在书面索赔报告中找到欺诈行为的证据。例如，如果一个客户报告一辆汽车着火了，客户会将汽车着火前的所有变量提取出来，文本分析系统可以捕获一些细节，以判断是否是故意纵火。这使得诈骗案件识别的成功率从 50% 上升到了 88%，并省去了分析师 95％的时间。

分析欺诈者表达的内容

在 2003-2005 年间，提交美国证券交易委员会（ SEC ）的民事强制执行债权中，25％不得不做假帐。美国证券交易委员会利用文本分析软件，来识别年度报告中的诈骗信号，这些报告中的内容包含了所有高管填写的关于公司当前的业绩和未来的目标。

文本分析发现，报告中出现不同的用词，其中可能包含诈骗行为的信号。例如，系统发现，相比正常的报告，不诚实的年度报告中会出现更少的“我”和“我们”。这个词分析程序被加入到美国证券交易委员会的“会计信息质量模型”（AQM）中，这需要来自于大约 9000 家上市公司的数据，来识别欺诈行为。该程序确定了一个在诈骗行为中普遍存在的关键字和词组的列表，并将列表添加到 AQM 规则库中。

使用文本分析自动化欺诈检测

如上面例子中的这些组织，使用了多种不同的文本分析策略，以及时发现和打击欺诈行为。自动欺诈检测通过文本分析可以节省分析时间和成本，并且相比分析师手动分析每个数据块，它能够更快速、更准确地检测到欺诈行为。

感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们，并与我们的编辑和其他读者朋友交流（欢迎加入 InfoQ 读者交流群）。

发布

暂无评论

创作场景

每年减少 3.7 万亿美元的损失：利用文本分析进行欺诈检测

评论

架构实战营模块1课后作业

88邮箱-从入职到离职

python scrapy 管道学习，并拿在行练手爬虫项目

程序员有哪些提升幸福感的专属神器？

终于玩明白Golang数据可视化了！

当我们在谈‘数据标准’的时候，我们到底在谈什么？

推开GraphQL大门

计划会议想开好，这两件事必须清楚

学习宫本茂的创意

团队基建系列 - 组织知识传承 2

[vue3组件库]0到1参与7k Star大型开源项目成为贡献者🎃

说了半天跨平台，今儿咱就来跨跨！（中）

业务代码如何才能不再写出大串的if/else？

【LeetCode】电话号码的字母组合Java题解

TCP的慢启动、拥塞避免、重传、快恢复乱七八糟总是记不清？11个连环问让你一次性打通任督二脉

HOW

整理的三重境界

老生常谈--什么是装箱什么是拆箱

初识架构设计

Flutter开发：项目加载本地html文件的步骤

入驻快讯｜欢迎 OpenI 启智社区正式入驻 InfoQ 写作平台！

一款好用的Maven插件 - Maven Helper

S 锁与 X 锁的爱恨情仇《死磕MySQL系列四》

Flutter中如何添加垂直分隔线【Flutter 专题 18】

Flutter 详解 Timer & ACETimerButton 自定义计时器按钮

Linux系统学习《Linux一学就会》：LVM管理和ssm存储管理器使用

使用 HTML、CSS、JS 和 API 制作一个很棒的天气 Web 应用程序

如何选择普通索引和唯一索引《死磕MySQL系列五》

Prometheus Exporter （二十）Lustre Exporter

实用机器学习笔记七：数据变换

终于购买了自己的第一个硬件钱包Ledger Nano（8/28）

创作场景

每年减少 3.7 万亿美元的损失：利用文本分析进行欺诈检测

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载