东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

明略技术合伙人任鑫琦:数据关系挖掘算法、技术难点及应用场景分析

  • 2016-04-28
  • 本文字数:3596 字

    阅读完需:约 12 分钟

数据孤岛、零散数据等现象一直是企业大数据应用过程中所常见的问题,当数据以及数据来源增加过快时,不同数据之间的打通就成了最大的困难,有时这对于传统企业来说更是尤为困难。而数据关系挖掘作为解决数据孤岛等难题的手段之一,可以有效的帮助企业将多样化的数据进行统一存储并挖掘出其中隐藏的价值,目前在公安、电信、金融等传统行业中的应用也正变得愈加广泛。为了了解数据关系挖掘背后的算法应用、技术难点等问题,InfoQ 对明略数据技术合伙人及 SCOPA 产品负责人任鑫琦进行了独家专访。

SCOPA 是明略数据去年底刚刚推出的一款数据关系挖掘新产品,它构建在企业大数据平台之上,可结合明略数据在特定领域与行业中积累的业务知识,进行领域模型的转换,并且将转换后的领域模型对象数据进行关联,将所有数据转换成业务人员能轻松理解的数据形式,挖掘出这些数据之间的联系,把有关联的数据放在一起,最后交给上层的业务人员用以展示或分析。

InfoQ:提到数据挖掘和数据分析,就不得不谈算法的问题。前一段时间谷歌 AlphaGo 在围棋对战中战胜世界顶级围棋棋手李世石,这使得机器算法的话题引起了一阵热议。能否请您谈一谈明略的 SCOPA 在实际使用时都用到了哪些算法?怎么用的?这些算法各自又有什么不同的特点?

任鑫琦:SCOPA 在做数据的关系构建或数据关联时,要用到的方法是多种多样的。因为在这一过程中所面对的数据形式、数据来源、数据种类同样也是多种多样的。基础的数据挖掘算法肯定是必要的,比如基础的分类算法和聚类算法,这也是明略数据在公安和金融领域通过实践而知的,不同于其他行业应用的一个重要方面。

传统行业的业务人员更多的是依靠自己的经验和习惯去总结一些类似于公式的东西,然后将抽样数据或者是能找到的结构化数据套用在这个公式上去计算,然后得到比如像重点人防控的数据模型或者是金融行业里的反欺诈数据模型等等。这些模型的问题大多在于它是源于“人”的经验,其数据特征都是由“人”的主管意识来决定的。

从传统的数据挖掘方法上来看,明略其实是利用相关技术,先将所有数据进行人工智能处理,比如先自动的按照一些基本特征去进行分类、聚类,虽然这中间产生的数据处理结果并一定能被人类完全理解,但是 SCOPA 会在这个基础之上再根据一些真实的数据样本,比如公安部门中的案件数据,或者金融领域里过去发生的欺诈行为的数据,来作为样本再进行训练。这样的话,之后得出来的规则集和模型,其实都是由真实的数据特征所决定的结果,相比“人”的主观意识来说会更精确。

另外在解决数据关联问题上,明略会把数据转化成类似知识图谱的形式去进行存储,帮助业务人员能够更容易地去理解这些数据。而在这之后,就可以结合很多在互联网领域中很成熟的图像数据挖掘与分析的方法,从中再继续提取数据特征,找到有用的信息。

比如一些离线的图挖掘算法,可以做一个省内一亿人口之间的数据记录关系网,然后就能从数据关系网当中挖掘出一些可疑的团伙或是一些正常的交集群,这些通过现成的数据挖掘算法就可以实现。甚至还可以做一些 link prediction 的预测工作,分析这张数据关系网里面哪部分处于活跃状态,哪部分未来可能会发生一些关联的事件。

同时这张数据关系网也可以做一些可视化的展示,或是可视化的分析。比如在一个群体内部,可以分析出哪些方面是权重点,而这就需要一些更具体的图挖掘或图分析的算法了。比如可以利用基于 Betweenness 或 Closeness 等方法去计算出一些核心点。

举一些简单例子,比如基于 Betweenness 计算的点,它相当于在一个犯罪团伙内所有通路和路径交汇最多的一个点,也相当于这个团伙组织架构的一个核心点,而这个点可能并不只一个,那么如果能够把这些点都一一破获的话,那么这个团伙或者组织就基本会落网了,这在公安部门打击一些非法传销或者非法金融链条的时候会有所应用。而基于 Closeness 的方法则是利用计算中心度的方式来寻找一些团伙内真正的核心人物,这个人关联到团伙内其他人的平均距离应该是最短的,这也是打击非法团伙的最快方式。

此外由于在大量的结构化数据之外还有很多非结构化的数据,尤其是像公安部门中的案情、笔录、出警描述这样的文本数据,里面往往都包含着非常重要信息,所以 SCOPA 所使用比较多的另外一类算法,就是自然语言处理 NLP,同时也会进行非常精准的命名实体识别,并计算实体之间的关系。比如可以通过一段文字描述锁定在某地区出现过的一群人,同时分析这些人之间的联系,其中哪些人跟某个案件有什么样的关联,受害人或被害人是谁,他们是否有一些共同的特征,某些地址、单位是否会跟他们产生关联,这些都是自然语言处理算法需要解决的问题。

当需要处理的案件描述非常多的情况下,比如 110 接警电话记录,或是警察调查走访的笔录等等,那么 SCOPA 就可以进行自动化的案件对比和分类工作,以便在大规模的案件描述里挖掘出一些数据特征,为一线调查人员的工作起到指引作用。

InfoQ:数据关系挖掘的作用毋庸置疑,理论上的方法也有很多,但是要想在实际的应用场景中做好落地,还需要考虑更多的细节问题。那么能否请您谈一谈进行数据 **** 关系挖掘时会面临哪些技术难点?

任鑫琦:关联数据挖掘或者更深入的说关系数据挖掘,研究的不仅仅是客观上的关联度,还会深入挖掘在物理世界中真实存在的某种准确的直接联系,同时还要确定是什么样的联系。那么在进行关系数据挖掘时的难点,主要就在于确定数据模型的特征时,必须要保证数据特征的准确性,否则可能做出来的模型也是不够精确的,而这种似是而非的数据模型在很多行业中其实是没有意义的,比如公安部门就必须要使用非常严格的数据模型。

SCOPA 所使用的算法都是依赖于底层数据支持的,然而数据量越大并不一定就越好,而是数据的种类和来源越多越好。比如说公安部门需要确定犯罪嫌疑人之间的关系,那么如果能够拥有关联类数据、轨迹类数据、网络虚拟化数据、电信运营商数据等的话,就能确定嫌疑人经常出现的位置,这样可以依靠出现时间、空间、频次等几类模型来将这个人以及与之有关系的人或物给确定下来。

然而真正要完成这项工作,还需要克服两个挑战,第一个是如何尽可能多的收集和处理数据;第二个是如何在这么多复杂的数据之上挖掘关联性,这需要足够强的计算能力。

InfoQ:随着企业在大数据方面的需求不断扩大,数据的关联、关系挖掘在行业中的应用范围也正变得越来越广。您认为数据关系挖掘相关技术最近有哪些发展趋势呢?

任鑫琦:在没有大数据概念之前,很多时候是用数据库去做一些显性关联分析,而当有了大数据概念之后,更多地其实是想做隐性的关联分析与挖掘,也就是结合不同类型的数据,然后找到其中的联系。因此这其中的趋势,实际就是目前的数据关系挖掘更加偏向于跨领域数据或者跨类型数据的综合分析。

另外一个趋势就是数据分析中需要考虑的数据各种特征以及各种维度都越来越多,比如时间纬度、空间纬度、关系纬度、频次纬度等等,而这样一来数据关系挖掘的结果就会变得越来越准确。

目前还出现了一些类似于搜索引擎相关技术的数据分析技术,它可以通过一些文本及文字的匹配,进行一些类似关联度分析的数据挖掘。但是这种数据关系挖掘,可能今后发展的空间以及潜力会相对少一些。

InfoQ:目前看来,数据关系挖掘在保障公共安全以及维护治安方面的作用是非常显著的,通过技术层面的手段,寻找数据之间的隐藏信息,这对于公安部门来说正是提升执法效率的途径之一,您能否简单地介绍一个相关的数据关系挖掘应用案例呢?

任鑫琦:明略曾经为一个市级公安局做了数据系统,之后当某个区域内经常出现电动车或者电动三轮车盗窃案后,直接通过数据关系挖掘在一分钟之内锁定了该盗窃团伙。

这其实是根据这个区域中的摄像头数据,先找出一些可疑车辆,接着分析在一定时间范围内这些车辆出现的位置,基于这些筛查工作的结果,再对比车主个人信息、违章记录以及与车主有关联的人,从而把范围缩小到一些小人群上,然后把这些人群的行为轨迹进行区域数据模型验证,确定他们在固定的时间段内,在固定范围内出现的概率,在进一步的筛查之后,计算出关联度最高的那群人,最后由调查人员再通过进一步的调查取证,锁定了该电动车盗窃团伙。

而过去一般遇到这样的案件,如果警方只用传统的数据检索和数据比对的方式的话,可能至少需要一个小团队工作三到四天才能破案。

关于受访者

任鑫琦是明略数据技术合伙人及 SCOPA 产品负责人,同时也是大数据架构、分布式计算、数据交互可视化领域的专家,主要从事大数据系统高效落地、优化架构以及便捷应用方面的工作。任鑫琦于 2009 年毕业于北京大学计算机科学与技术系,2009 年至 2012 年在 SLB 从事核心软件开发与架构设计工作;2012 年加入秒针系统,负责大数据集群运维和系统架构工作,在两年的时间中完成了公司计算架构的转变,集群规模达到 500 台,总数据量超过 3PB;2013 年加入明略,先后负责集群管理和日志分析两款产品的研发工作,曾落地实践多个金融、公安领域项目。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2016-04-28 21:002488

评论

发布
暂无评论
发现更多内容

墨天轮访谈 | 拓扑岭雷鹏:数据库新思维下的弹性压缩与内存计算

墨天轮

数据库 redis 国产数据库 键值数据库

网络协议之:haproxy的Proxy Protocol代理协议

程序那些事

Java Netty 程序那些事 4月月更

14岁懂社会-《被你讨厌的昆虫们》读书笔记

懒时小窝

读书笔记 14岁懂社会

Java全栈开发---Java ERP系统开发:商业ERP(七

爱好编程进阶

Java 程序员 后端开发

云管平台有哪几家?现在采购福利哪家好?

行云管家

云计算 混合云 云管平台

Java中关于内存泄漏分析和解决方案,都在这里了

爱好编程进阶

Java 程序员 后端开发

最新区块链招聘:高薪招开发产品运营人才

TinTinLand

区块链

AIRIOT物联网低代码平台如何配置OPC DA驱动?

AIRIOT

驱动配置

设备如何使用go sdk轻松连接华为云IoT平台

华为云开发者联盟

华为云 sdk go sdk IoT平台 华为云IoT平台

技术人的必备特质

Hockor

迎战大厂!“金三银四”和通过率达95%的Java面试八股文

Java架构追梦

Java 后端开发 程序员面试

开发一个不需要重写成Hive QL的大数据SQL引擎

华为云开发者联盟

sql 大数据 mapreduce SQL引擎 大数据仓库

阿里大牛评:入门到大成!GitHub新上线并发编程深度解析实战PDF

Java架构追梦

Java 后端开发 程序员面试

科创人·数智未来私董会第4期:转型的实证-幸存者偏差与盲人摸象| 活动报名

科创人

硬核!8个类手写一个配置中心!

码农参上

微服务 配置中心 4月月更

如何选择不同类型的AI服务器?

Finovy Cloud

人工智能 gpu GPU服务器 GPU算力

java中锁的四种状态

爱好编程进阶

Java 程序员 后端开发

浪潮信息加入,已完成与龙蜥操作系统产品兼容性验证

OpenAnolis小助手

云计算 服务器 龙蜥社区 CLA 浪潮

为团队投资CRM系统的投资回报率是多少?

低代码小观

CRM 客户关系管理 低代码开发 CRM系统 客户关系管理系统

Java之Spring Boot入门到精通【IDEA版】SpringBoot整合其他框架

爱好编程进阶

Java 程序员 后端开发

【等保小知识】等保测评是安全认证吗?

行云管家

等保 等级保护 等保测评 安全认证

华为数字化转型实践

乌龟哥哥

4月月更

与 Dfinity 明星项目面对面,各大赛道开发经验一览

TinTinLand

区块链

21天连更回归,这个五一宅家写作,挑战一触即发!

InfoQ写作社区官方

热门活动 5月月更

广袤之中:沿着克拉克三大定律,读懂华为的最深期待

脑极体

零基础开启 Neo 开发之旅,NEP17 智能合约实战教学

TinTinLand

区块链

加入 Flow ,共同成为 Web3的建设者

TinTinLand

区块链

以图搜图应用篇-家具家居行业

视觉智能

人工智能 以图搜图 图像搜索 视觉智能

搞懂这份大厂Java面试知识点笔记汇总,涨薪15K你也没问题

Java架构追梦

Java 程序员 后端开发

如何在优麒麟上进行超大型文件的远程传输?这个命令帮你快速搞定!

优麒麟

Linux 开源 命令行 优麒麟 远程传输

科创人·SUSE大中华区董事长江永清:真开源要有打磨技术的匠心,要能持续创造社会价值

科创人

明略技术合伙人任鑫琦:数据关系挖掘算法、技术难点及应用场景分析_大数据_刘羽飞_InfoQ精选文章