每年减少 3.7 万亿美元的损失:利用文本分析进行欺诈检测

  • 张天雷

2015 年 11 月 18 日

话题:语言 & 开发架构机器学习

当前,商业欺诈行为无处不在。idibon最近发表一篇文章阐述其严重性,以及最新的整治手段。2014 年,来自于注册舞弊审查师协会(ACFE)的一项调查估计,全球每年由于欺诈行为至少损失大约 3.7 万亿美元。它还估计,普通公司每年由于欺诈行为平均损失了约 5%的年收入。在所有欺诈行为中,其中金融服务行业占到了18%。其他行业也存在显著的一些欺诈索赔,包括房地产、石油和天然气、技术、制造、运输和医疗(关于如何通过文本分析来帮助检测医疗行业的欺诈行为可以参阅olga博客)。

因此,欺诈行为的检测在未来将拥有一个巨大的市场。通过分析当前的研究和市场,一份关于全球欺诈分析的报告表示在 2015 年到 2019 年之间全球的的欺诈行为分析市场将增长 24.04%。但是,如何通过有效的方法来进行欺诈行为检测呢?随着大数据时代的来领,大量欺诈行为相关的数据能够被获取,利用有效的机器学习方法对数据进行深入挖掘,可以有效地帮助欺诈行为检测。而根据注册舞弊审查师全国协会(NACFE)估计,80%以上有关欺诈的公司记录都是以文本数据的形式存在。80%的文本数据又都是非结构化的。因此,利用机器学习方法进行欺诈行为检测更多的是使用文本分析,文本分析可以帮助挖掘这些非结构化数据中所蕴含的信息,并提醒企业在公司财产丢失之前及时采取行动。

欺诈行为数据存在的形式通常可能是理赔记录、电子邮件、年度进展报告、客户服务电话、索赔采访,以及有关组织内的可疑行为的社交媒体会话等。而其中社会媒体内容越来越吸引企业部门的专业人员的重视,他们最近开始认识到通过挖掘这些数据可以帮助发现欺诈行为的早期征兆。最近的一项Deloitte调查发现,接受调查的 2,490 名商务专业人士认为,在欺诈调查过程中,45.2%的欺诈行为与社会媒体内容有关联。虽然大多数的这些专业人士都是通过手动的分析,但还是有 12.6%的人使用了分析工具。

金融服务机构的社交媒体数据可以揭示欺诈者之间的联系和联盟,并可以检测到网络威胁。手动地解析非结构化的社交媒体数据可能是一个非常繁琐和昂贵的行为。文本分析可以自动识别关于可疑行为的相关会话,然后将其告诉工程师以及时采取行动进行防范。

在保险业,特别是联合反对保险欺诈的一项调查显示,95%的保险公司正在使用的防欺诈技术,以防止保险行业每年由于欺诈行为所造成的 800 个亿的损失。而其中 43%都使用了专门的文本分析技术。

分析欺诈者的社交网络数据

通用电气的消费及工业家庭服务部门从在保修期内负责修理电器的技术人员那里收到了很多索赔请求。因为提交索赔的量非常大,通用电气的工程师通过手动方式发现一些异常的行为是十分困难的。

为了解决自动化的问题,通用电气采用了一个文本分析系统,通过将数据输入到机器学习系统中,分析索赔请求的 26 项度量指标,来检测它们是否可疑。通用电气正在使用的文本分析方法属于社交网络分析(SNA)范畴。在 SNA,除了情绪分析工具,各种数据源的数据还由一个机器学习算法进行分析。该系统比较所有不同的度量指标,试图找出网络中可疑的部分。例如,系统可能会发现,网络中的一个人以前被定罪过,那么和他有关联的人具有较大的概率也存在欺诈行为。

如果系统检测到一些指标不符合正常曲线,它会被当做可疑的索赔请求发送给分析师进行审核。在使用文本分析的第一年,通用电气公司就节省了 510 万美元。

分析欺诈者的行为

Infinity是一家汽车保险公司,它为那些拥有高于平均水平事故风险的司机提供保险,并愿意支付更高的价格范围。考虑到保险公司的客户群都是高风险用户,因此,能够监控和快速识别欺诈行为的早期迹象是特别重要的。

Infinity 通过使用文本分析技术在书面索赔报告中找到欺诈行为的证据。例如,如果一个客户报告一辆汽车着火了,客户会将汽车着火前的所有变量提取出来,文本分析系统可以捕获一些细节,以判断是否是故意纵火。这使得诈骗案件识别的成功率从 50% 上升到了 88%,并省去了分析师 95%的时间。

分析欺诈者表达的内容

在 2003-2005 年间,提交美国证券交易委员会(SEC)的民事强制执行债权中,25%不得不做假帐。美国证券交易委员会利用文本分析软件,来识别年度报告中的诈骗信号,这些报告中的内容包含了所有高管填写的关于公司当前的业绩和未来的目标。

文本分析发现,报告中出现不同的用词,其中可能包含诈骗行为的信号。例如,系统发现,相比正常的报告,不诚实的年度报告中会出现更少的“我”和“我们”。这个词分析程序被加入到美国证券交易委员会的“会计信息质量模型”(AQM)中,这需要来自于大约 9000 家上市公司的数据,来识别欺诈行为。该程序确定了一个在诈骗行为中普遍存在的关键字和词组的列表,并将列表添加到 AQM 规则库中。

使用文本分析自动化欺诈检测

如上面例子中的这些组织,使用了多种不同的文本分析策略,以及时发现和打击欺诈行为。自动欺诈检测通过文本分析可以节省分析时间和成本,并且相比分析师手动分析每个数据块,它能够更快速、更准确地检测到欺诈行为。


感谢杜小芳对本文的审校。

给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

语言 & 开发架构机器学习