腾讯亿级用户规模自研业务的上云实践解读,立即报名 了解详情
写点什么

专访明略数据任鑫琦:解密关联分析大数据产品的算法

  • 2015-12-04
  • 本文字数:2238 字

    阅读完需:约 7 分钟

关联关系挖掘是一种具有实际意义的数据挖掘技术,广泛应用于金融、医疗、社交网络、科学数据分析等,将海量多样的数据统一存储起来,利用关联挖掘、时空分析等方式来发掘隐藏在大数据中的有使用价值的关联信息,进而可以做出决策或对事物的发展趋势做出预测。传统的关联关系挖掘算法有 Apriori 和 FP-growth 等,但是各有缺陷,当这些算法无法满足实际应用需要的时候该采用什么方法呢?明略数据前不久发布了一款最新的关联分析大数据产品,InfoQ 采访了这款产品的产品经理任鑫琦,我们可以了解下他们是应用什么算法进行数据挖掘的。

任鑫琦,大数据架构、分布式计算、数据交互可视化领域专家。负责大数据系统高效落地、优化架构和便捷应用工作。2013 年加入明略,先后负责集群管理和日志分析两款产品的研发工作;曾落地实践多个金融、公安领域项目。现在是明略数据技术合伙人兼 SCOPA 产品经理。

InfoQ:在明略数据最新一款产品中有将海量多样数据转化为统一存储模型,那么请问这种处理方式跟数据降维有区别吗?使用的是什么样的算法?

任鑫琦:这种数据转换不同于机器学习中讲的“数据降维”。数据降维,是将样本点从输入空间通过线性或非线性变换映射到一个低维空间,从而获得一个关于原数据集紧致的低维表示;用于简化机器学习的计算。而 SCOPA 里面的统一存储模型,是将各种类型、各种来源的全部数据,根据领域的语义结构,进行重新组织并存储的方式。举个例子,我们可以将公安领域的几百个库表和数十种轨迹数据,按人、事、地、物、组织重新定义,并将所有数据存进相应的实体和事件里。

InfoQ:什么样的情况下需要做关联挖掘和时空分析?

任鑫琦:将数据表示成实体和事件之后,就可以进行显性或隐形的关联挖掘了。有些数据关联是数据中显性包含的,比如人与身份证号的关联、人与亲属的关联;但更多的关联是隐形的,需要计算的,如人与人之间的同行、同住关系。在进行具体问题的关联分析时,往往会限定一些条件,并且实时发现一定时间范围和区域内的实体和事件,此时需要用到独特的时空分析。

InfoQ:针对实时数据流的处理您们是怎么样做的?

任鑫琦:实时数据一般通过 kafka 或 flume 等消息收集通道,进行实时或准实时的汇总;将数据导入流式计算平台 spark-streaming,进行实时的数据清洗和规则筛选。并将清洗后的数据存储于 hdfs 平台之中,并将清洗后的数据投入到数据流当中去。流式计算在众多领域的应用都很重要,例如公安领域的重点人实时管控、重大时间的实时预警;金融领域的实时反欺诈发现、实时贷款分析等等。通常的流程有如下几部分:1. 实时的数据采集或实时数据流对接,保证数据源的实时性;2. 根据实时的数据,进入实时计算框架;3. 根据实时的计算规则和发现模型,进行实时分析,如果命中异常规则,则进行报警处理。

InfoQ:假如说对实时性高的数据我们叫热度高的数据,使用后需要存储起来的叫热度低的数据,那么明略数据是如何处理热度不同的数据呢?

任鑫琦:我们会用不同的技术框架处理冷、热数据。通常,对于数据实时比对和关联的计算,会在内存或内存数据库中进行;之外全量数据的查询和检索,会考虑 BigTable 与 MPP 的混合架构;而对于冷数据的运算,则会选择批量计算框架,如 spark 或 map/reduce。

InfoQ:明略数据的架构中数据处理层应用了不少算法,最引以为豪的算法是什么?应用于什么样的场景?

任鑫琦:SCOPA 中利用多种基于关联关系的挖掘算法,发现海量异构数据中隐藏的潜在信息。

SCOPA 首先需要从海量的多源异构数据中,抽取跟应用相关的复杂关系。传统的基于特定规则的挖掘算法不能高效的处理现实应用中的数据规模。Scopa 则以知识图谱为辅,大规模机器学习算法为主,采用了自适应的学习模型,从而能从多源异构数据快速而精确的发现关系数据。

在抽取关系数据的数据上,SCOPA 进一步利用图挖掘算法,社交网络分析等技术分析网络,挖掘应用相关的领域知识。例如,为了打击和挖掘集团犯罪,警员需要重点调查集团中的核心人物,为此 SCOPA 提供了一系列高效计算节点中心性 (centrality) 的算法,有效的检查网络中关键节点。为了使得能在大规模图上快速计算节点中心性,SCOPA 采用了一种基于蒙特卡洛随机模拟的计算框架,此框架能支持多种重要的中心性快速估算。

进一步,为了达到预防犯罪的效果,SCOPA 也将引入针对网络的时序分析技术,从而达到实时监测网络中的关键节点,社区结构等的变化趋势。SCOPA 以时间窗为基础,可以根据不同粒度的历史数据,对变化趋势进行预测,使得其具有很强的灵活性,能适应多种不同的应用。

InfoQ:能讲一讲你们的大数据开发团队吗?他们的背景如何?日常工作是怎么样的?还需要什么样的人才?

任鑫琦:我们的研发团队有 80 人左右,大部分来自于北大、清华、CMU、北航、北邮等高校;并且曾经就职于著名互联网公司或大型 IT 外企,在业内有丰富的经验和口碑。我们的研发技术团队不仅仅来自各大高校,同时也都是各领域的佼佼者,有 Apache Kylin committer,Apache Hadoop & Spark Contribution,当然他们也都属于技术圈里面的网红人物,我们算是技术明星的聚集地了。日常工作采用扁平化的管理制度,给员工以最大的自由,帮助员工迸发其创造力和技术能力,CTO 也会同研发团队为明略数据自主知识产权的大数据技术加班加点共同奋斗,我们平日里相比同事的这个关系来讲,更像是兄弟姐妹,大家拧成一股绳为中国的大数据技术奋斗着。不过虽然有如此强的技术团队,我们更加认识到人才的重要性,求贤若渴、共同成功是我们的招聘理念;只要是技术牛人,我们都热烈欢迎。

2015-12-04 18:002918
用户头像
Tina InfoQ高级编辑

发布了 767 篇内容, 共 436.5 次阅读, 收获喜欢 2607 次。

关注

评论

发布
暂无评论
发现更多内容

架构训练营 模块四

Leach Sun

架构实战营模块四作业 - 设计千万级学生管理系统的考试试卷存储方案

李焕之

netty系列之:使用netty搭建websocket服务器

程序那些事

Java Netty 网络协议 websocket 程序那些事

浅谈语音质量保障:如何测试 RTC 中的音频质量?

阿里云视频云

阿里云 测试 WebRTC 语音 音频

如何使用ESD二极管,设计运算放大器电压保护?

不脱发的程序猿

电路设计 ESD二极管 运算放大器 电压保护 嵌入式硬件

(model4)千万学生管理系统存储架构设计

消失的子弹

架构 微服务 云原生

毕业设计电商秒杀系统

Clarke

架构实战营

GK架构营模4作业

Ping

🏆【SpringBoot技术专题】「FtpServer文件服务」教你如何基于Springboot开发一个”可移植“的轻量级文件服务项目系统!

洛神灬殇

Apache springboot ftp服务 9月日更 FtpServer

模块四作业-考试试卷存储设计

potti

架构实战营

[Golang 基础] Map 数据类型

baiyutang

golang 9月日更

0 基础架构入门 - 4(千万级学生管理系统的考试试卷存储方案)

felix

架构实战营 0 基础架构入门

Linux用户/用户组编辑

在即

9月日更

论文阅读丨神经清洁: 神经网络中的后门攻击识别与缓解

华为云开发者联盟

神经网络 深度学习 论文阅读

【大咖直播】Elastic 企业搜索实战工作坊(第一期)

腾讯云大数据

elasticsearch

千万级学生管理系统的考试试卷存储方案

Sky

架构训练营

云原生时代,如何构建数字化转型架构?

博文视点Broadview

极客时间架构实战营作业四

jjn0703

架构实战营

HarmonyOS荣膺2021世界互联网大会领先科技成果奖

Geek_283163

华为 鸿蒙

智云盾捕获多个僵尸网络利用最新ConfluenceRCE漏洞的活动

百度开发者中心

安全 漏洞

解密秒杀系统架构,不是所有的系统都能做秒杀!

华为云开发者联盟

架构 秒杀 电商系统

如何设计高可用高性能架构

眼镜盒子

架构实战营

极客时间【架构实战营】第二期 模块四作业

Geek_91606e

架构实战营

如何使用FL Studio录制外部音频

懒得勤快

金秋国庆|官微掌门人火热征集!期待你的掌舵!

InfoQ写作社区官方

国庆中秋 热门活动

Prometheus 2.28.0 新特性

耳东@Erdong

Prometheus 9月日更 relaese

设计千万级学生管理系统的考试试卷存储方案

Yina🌝很浪🌊

【架构实战营作业】模块四——学生管理系统存储

聆息

案例分享 | dubbo 2.7.12 bug导致线上故障

捉虫大师

dubbo 问题排查

专访明略数据任鑫琦:解密关联分析大数据产品的算法_大数据_Tina_InfoQ精选文章