写点什么

大数据基础框架设计——实时分析技术平台洞察与实践

  • 2016-11-04
  • 本文字数:2041 字

    阅读完需:约 7 分钟

今年是 IoT 物联网的元年,也是人工智能的元年。之所以人工智能这么热,与大数据有密不可分的关系,大数据就是现在网络时代的石油。2016 年 10 月 28 日上午 7 位大数据相关专家齐聚“2016 易观 A10 大数据应用峰会”对实时分析技术的看法和实践经验进行了分享和讨论,从技术角度解析了企业如何做到实时分析。

很久以前大数据有三个概念——“三个 V”:第一个 V 是非常大的,海量;第二个 V 是速度,很快;第三个 V 是多样化,很难。之前我们一直在强调数据要“大”,提到大数据的时候人们一般会说“一个企业有多少数据量,每天要加载多少数据,多少万个用户,每天月活是多少……”,但其实到现在为止,每一个企业 真的都有了很多的数据,接下来面临的问题是如何让这些数据高效地运转起来体现实用价值,而不仅仅是拿到很多数据存储起来。那么,企业如何对这些数据进行相关的分析和处理呢?

易观技术负责人郭炜提出一个概念,数据永远是临时的,分析永远是有时效性的。例如,你某电商平台购买了一部手机,平台就会不断向你推荐手机而不是手机配件。为什么呢?其实是因为实时分析和实时计算没做好,怎么办呢?

  • 定方向:实时分析不难但投入大,企业首先要评估自己的 ROI,选择一个适合的场景。
  • 夯实基础:其次要选择一种或者几种适合自己企业当前状态的实时计算框架。
  • 打造能力:实时分析并不等于实时计算,在分析过程中除了需要数据计算能力之外,还需要数据挖掘能力、实时采集能力。
  • 实现:突破,找到产品出口,找最合适的一到两个点,让企业自己的实时分析流畅地流转起来。

提到 Hadoop 大家必然会想到 Cloudera 公司,它在 Hadoop 生态系统中拥有极高知名度。会上 Cloudera 大中华区总经理凌琦指出大数据时代想让计算成本变得更经济可以从两方面考虑。

  • 一方面是硬件,用 X86 服务器,单台机器不考虑冗余的情况下存储可以有 12 × 6 T。
  • 另外一方面是把一部分应用放到云上面,使计算成本变得更低。

会上 Alluxio 创始人兼 CEO 李浩源分享了如何让不同的计算框架以及不同的应用在不修改自身代码的前提下,高效且高速地访问不同数据源中的数据。

  • 智能化地移动数据,保证最高效的访问
  • 把不同存储数据虚拟化
  • 采用 scale-out 架构,实现高效的线性性能提升

关于 Apache Kylin 很多人应该已经知道了,这是完全由中国工程师贡献到 Apache 软件基金会的一个项目,今年该项目拿到了“开源贡献奖”,和 Google TensorFlow 一起获得该奖。Kyligence 联合创始人兼 CEO 韩卿出席了大会并分享了《基于 Apache Kylin 的实时 OLAP 实现》,对数据查询低延迟先有处理方案表示了肯定,也提出了解决数据可达低延时的重要性。现有 Cube 构建于批处理,T+1 模式可以满足绝大部分需求。但还是有不少问题值得深思。

  • 几千条到几亿条数据如何实现一次性轻松构建?
  • 如何随意暂停或更改构建频率?
  • 如何实现自动管理集群、弹性计算资源等?

对于做数据工作的 IT 人来说 Greenplum 应该并不陌生。简单的说,它就是一个与 Oracle、 DB2 一样面向对象的关系型数据库。通过标准的 SQL 可以对 GP 中的数据进行访问存取。本质上讲 Greenplum 是一个关系型数据库集群,它实际上是由数个独立的数据库服务组合成的逻辑数据库。与 RAC 不同,这种数据库集群采取的是 MPP 架构。

现在全球有 34 个国家有 Greenplum 团队,包含研发团队、销售团队、支持团队,就在客户不断增长的时候项目选择了开源。Pivotal Greenplum 中国研发总经理姚延栋分享了 Greenplum 5.0 作为做得还不错的企业级产品要选择开源的原因,开源前和开源后的变化,以及从现有平台迁移到分布式的数据架构上的方法

最后,大会以圆桌会议为彩蛋结束了整场论坛。圆桌会议由主持人是清华海峡研究院大数据中心主任王熙主持,易观技术负责人郭炜、Kyligence 联合创始人兼 CEO 韩卿、Admaster 技术副总裁卢亿雷、Anchora 董事长兼 CEO 鲁为民和云杉网络联合创始人兼 COO 来源参与,讨论了大数据实时计算应用与分析及对大数据未来发展方向的预测

  • 在新的技术发展阶段,特别是现在云计算、大数据,开源是一个趋势。而且开源是企业创新生命力的一个重要保证。
  • 开源系统是比较复杂的,应用的时候还需要专业能力和整合能力。开源软件很多,不要迷信某一种,要根据不同的阶段,不同的业务场景做选择。比如,初创阶段数据量比较小的时候可以选择比较粗的方案,但是如果想要性能更高一些,就需要选择更细的方案了。
  • 大多开源软件原始团队都在海外,如 Hadoop,但随着中国大数据的崛起,在世界范围内有影响力的开源项目越来越多。
  • 在大数据浪潮里面,中国很多地方不仅仅是赶上国外,甚至某些领域超越了。大数据让我们能够有机会超越国外的战略技术,因为我们今天能创造的数据量是其他任何一个国家无法得到的。
  • 现在数据已经深入到了每一个行业的每一个环节里,一开始是大数据的广告推介,现在变成了场景引擎,将来变成 AI 的人工智能。
  • 现在数据来源越来越复杂,预测三到五年大数据会变得非常敏捷,这是一个大趋势。在实时挖掘和细分算法方向会有很多创业公司出现解决业务触达问题,会出现更智能的工具。
2016-11-04 07:013092

评论

发布
暂无评论
发现更多内容

倒计时2天:百度“文心一言”即将上线!

引迈信息

人工智能 低代码 AIGC ChatGPT 文心一言

我在京东做研发第五期:京东云自研服务器,如何将开发成本降低 60% 的同时还更低碳环保?

京东科技开发者

cpu 服务器 环保 节能 企业号 3 月 PK 榜

EFCore之CodeFirst

青柚1943

ORM SqlServer NET6 EFCore

vue项目中babel的最佳实践

虎妞先生

前端 Vue 3 vue cli babel

低代码平台的流程引擎设计指南

Baidu AICLOUD

低代码 爱速搭

DSC:数仓SQL脚本迁移的神奇工具

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

尚硅谷Node.js实战教程发布

小谷哥

报名开启!KunlunBase今年首场线下MeetUP,期待与您的见面!

KunlunBase昆仑数据库

Meetup kunlunbase 内核技术

Sugar BI 增强分析能力全场景解析

Baidu AICLOUD

BI

关于服务器数据迁移,介绍在服务器数据迁移计划中的7个步骤

镭速

2023主流系统 固资管理助力转型升级一步到位

加入高科技仿生人

低代码 企业数字化转型 资产管理

Seata-go 1.1.0 发布,补齐 AT 模式支持

SOFAStack

开源 互联网 开发者 开发 Seata框架

Rust的安全性和稳健型

非凸科技

研发效能度量从 0 到 1 的『六脉神剑』

思码逸研发效能

研发效能 效能度量 研发效能度量

Refit — 让Http请求变得更简单

青柚1943

微服务 REST API NET6 Refit

家电类投诉高居榜首,拿什么拯救“投诉了个寂寞”的消费者?

Openlab_cosmoplat

工业互联网 开源社区 家电

实践Pytorch中的模型剪枝方法

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 3 月 PK 榜

DBA必备的Mysql知识点:数据类型和运算符

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

功能强大的数据库管理工具:DBeaverEE 激活版

真大的脸盆

Mac 数据库管理工具 数据库管理 Mac 软件 数据库分析

Tapdata Cloud 基础课:新功能详解之「授权系统自动分析」,一键定位任务报错原因,快速获取修复建议

tapdata

大数据

MySQL创建用户与授权

源字节1号

软件开发 前端开发 后端开发 小程序开发

为什么CMS和G1都改用三色标记法,是可达性分析不香吗?

Java全栈架构师

Java 程序员 后端 JVM 架构师

3d建筑软件:Vectorworks 2023激活版

真大的脸盆

Mac Mac 软件 3D建筑动画

【云原生】k8s 环境快速部署(一小时以内部署完)

Java你猿哥

Java 学习 k8s Spring Boot ssm

关于 SysOM 2.0 网络/存储相关诊断功能介绍及案例展示 | 第 72-73 期

OpenAnolis小助手

开源 直播 系统运维 技术分享 龙蜥大讲堂

十问babel

虎妞先生

前端工程化 babel 前端‘’

Spring Boot 集成 Liquibase,数据库也能做版本控制!

Java你猿哥

Java spring Spring Boot java 编程

AREX-携程无代码侵入的自动化回归测试平台

AREX 中文社区

开源 自动化测试 回归测试

办公要有新享法,「MIAOYUN生活梦想家」焕新升级!

MIAOYUN

搬迁公告 乔迁 办公升级

大数据基础框架设计——实时分析技术平台洞察与实践_大数据_刘芸_InfoQ精选文章