最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

大数据时代的数据管理

  • 2011-10-24
  • 本文字数:4318 字

    阅读完需:约 14 分钟

不知怎么地,大数据, Big Data 这个词就变得流行起来。

处理大数据惯常是属于商业智能(BI)的事情。抽取数据、挖掘数据,制成报表、OLAP、仪表盘、挖掘模型,作为辅助决策之用。不过在BI 领域都不这么叫法,大伙儿都说海量数据,Large-scale Data。这听起来还是略显学术气,不如Big Data 来的通俗——大数据。这大概是因为如今随处可见的数据,一种爆炸效应带来的结果,已经脱离某种专业的范畴,人们需要用更简单的术语来命名这种数据爆炸。这给不温不火的BI 带来一些新的刺激,让BI 人看到一些希望。

以前,不说国内,就算是国外,做BI 也大多是局限在几个大行当,电信、金融、零售、政府,他们需要数据来帮助自己理性决策。在国内很长一段时间里,更是仅限于电信和金融两个行当。可是尴尬的地方在于,决策者有时候更愿意相信自己的直觉,而非数据。这种意识虽然逐渐在变化,可从来没有发生过根本的变化。意识的变化是艰难的。当一些新兴行业的介入,他们对数据的利用方式,价值的榨取,让人看到数据分析不仅仅用于辅助决策,而是可以从数据中获得收益了,它已经不再是一种锦上添花的东西了,那正是因为大数据时代的到来。这得感谢互联网以及还未兴起的物联网,在这些行当里面,数据在爆发,不断增长。他们不甘心只是如报表、OLAP、仪表盘之类的分析应用。数据分析部门可以按照推荐系统的点击效果利润分成;交易的数据可以包装成分析服务销售给商户,让他们自己去洞察市场商机;根据用户的点击流行为和上网内容,个性化广告布放等等。

就在刚过去的9 月, TDWI(数据仓库学院)发布了 2011 年第四季度最佳实践报告,而这份最佳实践的主题正是大数据分析。TDWI 会通过调查问卷的方式,对全球范围的企业调查,目标对象既有 IT 人,有业务单位的人,也有咨询顾问。问卷的问题一般都会询问企业应用 BI 技术的实际情况,现在如何,计划如何。所以,这类最佳实践报告可以反映出当下某项技术的现状和趋势。报告的内容也遵循一定结构,一下定义,二看现状,三分长短,四谈趋势,最后再来个厂商介绍。同样,这份大数据分析的最佳实践报告也是如此结构。

其中关于“大数据”的定义,值得关注。如果我们仅仅从字面上看,大数据似乎跟海量数据差别不大,仅仅是变得更加通俗?并非如此,这份报告给出一些区别,TDWI 赋予这个术语更多的含义,更多符合目前数据爆炸时代的含义。

大数据的 3V

Big Data 的 3V。大数据有 3V 的特性。

Volume、Variety、Velocity。这 3V 表明大数据的三方面特质:量大、多样、实时。对,不光是数据量大了。对 TB、PB 数据级的处理,已经成为基本配置。还能处理多样性的数据类型,结构化数据和非结构化数据,能处理 Web 数据,能处理语音数据甚至是图像、视频数据。实时。以前的决策支持时代,可以用批量处理的方式,隔夜处理数据,等决策者第二天上班,可以看到昨天的经营数据。但现在的互联网时代,业务在 24 小时不间断运营,决策已经不是第二天上班才做出,而是在客户每次浏览页面,每次下订单的过程中都存在,都会需要对用户进行实时的推荐,决策已经变得实时。

这个定义非常完美,形式上也很漂亮,3 个 V。

可细细想想,这每个方面的 V,难道不是传统 BI 一直在试图征服的嘛?也许所谓大数据时代,是新瓶装旧酒。只是换了一个称呼,而具体要解决的问题,仍是那些存在已久的问题。可毕竟大数据时代轰轰烈烈地,踏着旧的海量数据浪潮而来,而且这将是更高一浪。平常人站在下面,是否会腿脚发软,或是识破浪头的力度,来个漂亮的转身冲浪呢?

大数据管理的需求与挑战

在这样的大数据时代,数据仍然是最关键的。如何将大数据管理好,仍然是对企业的考验。

无处不数据。手机通话、移动在产生数据,ATM 在产生数据,商品上的 RFID 在产生数据,包裹从一个城市到另一个城市在产生数据。就算是一个小小的店铺,当它销售出去一瓶水,也可能会记录到 Excel 里面,产生了数据。数据记录这世界的存在和变化。

当企业的某项资产非常重要,数量巨大时,就需要有效管理。如今,数据已经成为这种资产。以前人们还不会将它看做是资产,而是一种附属物。客户来办理业务,在系统中产生了这种附属物。而现在,发现在客户办理业务这条信息中,蕴含这一些客户的需求,成千上万条这类信息累积下来,就能洞察客户所需,为设计新产品,为客户个性化营销产生新的价值。数据变成一种资产了,需要被管理起来。

数据仓库是管理数据的工具。在近二三十年里,以某种类似蜗牛的速度爬行,它始终还是贵族家的玩具。只有那些多金的买主才会为它买单。这让数据管理变得高高在上,数据当做资产只是停留在理念层面。人们还在争论着,数据仓库能够给我们带来什么?

我自己曾总结过一句话,体现数据仓库的六项价值——“能快速、及时、方便、准确而安全地访问整合过的数据。”现在看看,发现这个描述还蛮符合大数据时代,对数据管理的需求。

而这六方面价值也对应了不同的技术领域。

  • 数据仓库硬件、软件、模型要保障对数据的快速访问。比如专用设备,按照数据温度选择数据是否高速存储,采用特殊存储技术;
  • DW 模型确保数据的整合性,当你需要企业视图的数据,需要以年为周期的数据,需要数据模型的支持;
  • ETL 保障数据及时性。批量的 ETL 已经不足够,需要准实时,甚至是数据流式处理;
  • 元数据管理让数据访问更方便,不仅仅将数据以表、字段的方式管理,要将数据切分地更小,可管理;
  • 数据质量管理保障数据的准确一致,让数据可信;
  • 数据仓库架构、权限管理保障数据访问安全。

大数据时代对六项价值之一——快速访问数据的性能,有明显推动。人们最迫切的希望还是从无到有,从慢到快吧。让数据唾手可得。

数据库技术在变化

传统数据库并未专为数据分析而设计,数据仓库专用设备的兴起(Data Warehouse Appliance),如 Teradata、Netezza、Greeplum、Sybase IQ 等等,正表明面向事务性处理的传统数据库和面向分析的分析型数据库走向分离,泾渭分明。数据仓库专用设备,一般都会采用软硬一体,以提供最佳性能。这类数据库会采用更适于数据查询的技术,以列式存储或 MPP(大规模并行处理)两大成熟技术为代表。另外,新兴的互联网企业也在尝试一些新技术,比如 MapReduce 技术(这得感谢 Google 将它发扬光大),Yahoo 的开源小组开发出 Hadoop,就是一种基于 MapReduce 技术的并行计算框架。在 2008 年之前,Facebook 就在 Hadoop 基础上开发出类似数据仓库的 Hive,用来分析点击流和日志文件。几年下来,基于 Hadoop 的整套数据仓库解决方案已日臻成熟。目前在国内也有不少应用,尤其在互联网行业的数据分析,很多就是基于这个开源方案,比如淘宝的数据魔方。而在一些商业性的产品中,也已经融入 MapReduce 技术,如 AsterData。

低廉的数据仓库解决方案降低了数据管理的门槛,长尾的中小企业不一定非得去跟 Oracle、IBM 这样的大公司去谈高高在上的价格。开源的产品,配置足够的硬件存储,有一支专业的服务团队,就可以架构一个数据仓库平台。在去年,就曾有多位朋友向我咨询的数据仓库方案,他们有一个不约而同的期望,价格不要太高。他们有服务团队。我没有其他推荐,只有推荐 Hadoop。

还有一些其他的技术可以让数据访问性能提高,比如数据温度技术,可以区分经常被访问和很少被访问的数据,经常访问的就是高温数据,这类数据将存储在高速存储区,访问路径会非常直接,而低温数据则可以放在非高速存储区,访问路径也可一些相对复杂一些。近两年,存储访问的技术也在变化着,比如 Teradata 前几年推出固态硬盘数据仓库,用接近闪存的性能访问数据,比原来在磁盘上顺序读取数据快很多。后来又兴起一批内存数据库产品,这类产品在 DBMS 软件上进行优化,规避传统数据库(数据仓库)读取数据时的磁盘 IO 操作,再次大大节省访问时间。比如 SAP 的 HanaBI、Oracle 的 TimesTen、SolidDB、extremeDB、Altibase。

文本、语音、图像、社交网络、地理位置…大数据时代的数据类型如此丰富。用关系型数据库存储这类数据,再深入去分析挖掘这些数据,开始有些负累。

于是,越来越多的 NoSQL 数据库涌现出来,其中很大一部分是用于分析用途。比如西班牙有个小厂商,叫 illumnate,他们拥有一个叫 Correlation DBMS 的数据库产品。它不像关系数据库那样按照表、字段存储,那样冗余很大。CDBMS 的做法是,针对每个不同的值,只有一个地方存储,而所有对这个值的引用,都在索引中记录。比如有个客户的姓名叫“张三”,而还有一个公司名字也叫“张三”,那么在 CDBMS 里面,只存有一个“张三”这个值,但在索引里面记录了有两个地方引用它。这种数据库是专门为分析而设计的。因为不存储冗余数据,所以它对于海量数据,非常节省空间。如果说这个有点不太吸引人的话,另一个据称的优点就是做 ad-hoc 查询非常快捷。

社交网络很火热,Facebook、Twitter、QQ、MSN,甚至是普通的电信通话、邮件,都构成社交网络。人们决策的一个重要依据其实就跟社交群体相关,周围人的决策会带动你的决策,用社交网络理论来做决策支持是一个重大方向。

用关系型数据库来存储社交数据有点吃力。我跟你打电话,“我”是一个“用户”的实体,“你”是另一个“用户”的实体,我们之间存在了“通话”的关系;“你”还可能跟“她”发生了关系。但社交网络的分析还需要关注圈子、关系紧密度…… 人们想从中找到人与人之间的关系、圈子,是不是一个家庭的,是不是一个公司的,是不是情侣关系。甚至还要去发现一个人的重要程度,是否具备某种影响力。用实体关系来表述这种社交网络需要绕些弯路转换。所以,自然出现了一种图数据库(Graph DBMS)。数据按照节点、关系和属性键值存储。开源产品 Neo4j 就是这类 GDBMS。基本上这也是一种键值数据库,也就是说其最底层数据存储都是按照 key-value 存放的,这种存储方式是比较适合并行处理,适用于分析。而 graph database 的重要特点就是内置了常见的 graph 算法,它的存储结构让这类算法性能倍增。可想,未来也许会出现专为图像分析而出的数据库,专为视频分析的,等等。

数据的量越来越大,种类越来越丰富,大数据时代需要新的数据管理手段。列式、MPP 的关系型数据仓库在改变着,NoSQL 的 CDBMS、GDBMS 也试图在改变着。关系型数据库是企业 IT 建设时代的数据管理基石,而在 Big Data 时代,也许需要一种新的,正在探索中的数据管理基石。

作者简介

刘庆(网名:Q),定居合肥,BI 独立顾问,兼职于 Teradata ,从事电信业的 BI 咨询服务工作,入 BI 一行 10 余年,早期研究 BI 架构,近些年偏重业务分析。另一身份为 ttnn BI 论坛创办人,写写文章,编编杂志。


感谢李明对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家加入到 InfoQ 中文站用户讨论组中与我们的编辑和其他读者朋友交流。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2011-10-24 00:0017977

评论

发布
暂无评论
发现更多内容

AngularJS进阶(三十七)IE浏览器兼容性后续

No Silver Bullet

AngularJS 12月月更 浏览器兼容 下拉加载

实测|超融合数据库 MatrixDB 实现百万级 TPS!

YMatrix 超融合数据库

intel OLTP 超融合数据库 YMatrix tpcb

企业的可视化分析能力想要提升,还需要多多关注瓴羊Quick BI

巷子

云数据库技术行业动态:ClickHouse Cloud正式GA或有融资;openGauss社区引入新成员

数据库小组

行业资讯 企业动态 产品功能 数据库技术

面对庞大复杂的身份和权限管理,企业该怎么办?

华为云开发者联盟

后端 开发 数字化 华为云 12 月 PK 榜

LED电子显示屏加速在生活中的应用

Dylan

LED LED显示屏 led显示屏厂家

如何利用A/B实验提升产品用户留存?看字节实战案例给你答案!

字节跳动数据平台

大数据 AB testing实战 12 月 PK 榜

React源码解读之更新的创建

flyzz177

React

AngularJS进阶(三十六)AngularJS项目开发技巧之利用Service&Promise&Resolve解决图片预加载问题(后记)

No Silver Bullet

项目开发 AngularJS 12月月更

构建高性能内存队列:Disruptor yyds~

小小怪下士

Java 高性能

凡泰极客荣获了第二届产业互联高峰论坛「2022年度行业科技创新产品奖」

FinClip

Span抽取和元学习能碰撞出怎样的新火花,小样本实体识别来告诉你!

阿里云大数据AI技术

机器学习 12 月 PK 榜 小样本学习

城市云灾备,为业务连续性保驾护航

华为云开发者联盟

云计算 公有云 华为云 政务云 12 月 PK 榜

AngularJS进阶(三十五)浏览器兼容性解决之道

No Silver Bullet

AngularJS 12月月更 浏览器兼容

元年SecDevOps的实践之路

元年技术洞察

数字化转型 趋势研究 方舟平台

DevEco Studio 3.1差异化构建打包,提升多版本应用开发效率

HarmonyOS开发者

HarmonyOS

跟我学Python图像处理丨带你入门OpenGL

华为云开发者联盟

Python 人工智能 华为云 12 月 PK 榜

数据安全新战场,EasyMR为企业筑起“安全防线”

袋鼠云数栈

数据安全 大数据基础平台

React源码解读之任务调度

flyzz177

React

11月月更开奖啦!看看获奖名单有没有你?

InfoQ写作社区官方

热门活动

一文带你读懂 Google GUAC 项目

SEAL安全

Google 软件供应链安全 12 月 PK 榜 GUAC

BI智慧仓储行业应用方案,让你的仓储物流不再复杂

葡萄城技术团队

前端 数据可视化 仓储 智慧仓储 大屏

NFT盲盒质押分红挖矿dapp系统开发源码搭建

开发微hkkf5566

RISC-V SIG 推出基于openEuler 的下游发行版 Eulaceura

openEuler

Linux 开源 操作系统 openEuler risc-v

全面支持 PyTorch 2.0:BladeDISC 5月~11月新功能发布

阿里云大数据AI技术

深度学习 编译器 PyTorch 12 月 PK 榜

企业想要提升数据分析能力,还需要选择瓴羊Quick BI

三十

云安全系列5:2023 年需要了解的 40个云安全术语

HummerCloud

云计算 云安全

HMS Core 6.8.0版本发布公告

HMS Core

HMS Core

Nexus3常用功能备忘

程序员欣宸

Java maven nexus3 12月月更

react hook 源码完全解读

flyzz177

React

如何将传统 Web 框架迁移部署到 Serverless 架构?

Serverless Devs

Python 架构 前端

大数据时代的数据管理_数据库_刘庆_InfoQ精选文章