阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

大数据基础框架设计——实时分析技术平台洞察与实践

  • 2016-11-04
  • 本文字数:2041 字

    阅读完需:约 7 分钟

今年是 IoT 物联网的元年,也是人工智能的元年。之所以人工智能这么热,与大数据有密不可分的关系,大数据就是现在网络时代的石油。2016 年 10 月 28 日上午 7 位大数据相关专家齐聚“2016 易观 A10 大数据应用峰会”对实时分析技术的看法和实践经验进行了分享和讨论,从技术角度解析了企业如何做到实时分析。

很久以前大数据有三个概念——“三个 V”:第一个 V 是非常大的,海量;第二个 V 是速度,很快;第三个 V 是多样化,很难。之前我们一直在强调数据要“大”,提到大数据的时候人们一般会说“一个企业有多少数据量,每天要加载多少数据,多少万个用户,每天月活是多少……”,但其实到现在为止,每一个企业 真的都有了很多的数据,接下来面临的问题是如何让这些数据高效地运转起来体现实用价值,而不仅仅是拿到很多数据存储起来。那么,企业如何对这些数据进行相关的分析和处理呢?

易观技术负责人郭炜提出一个概念,数据永远是临时的,分析永远是有时效性的。例如,你某电商平台购买了一部手机,平台就会不断向你推荐手机而不是手机配件。为什么呢?其实是因为实时分析和实时计算没做好,怎么办呢?

  • 定方向:实时分析不难但投入大,企业首先要评估自己的 ROI,选择一个适合的场景。
  • 夯实基础:其次要选择一种或者几种适合自己企业当前状态的实时计算框架。
  • 打造能力:实时分析并不等于实时计算,在分析过程中除了需要数据计算能力之外,还需要数据挖掘能力、实时采集能力。
  • 实现:突破,找到产品出口,找最合适的一到两个点,让企业自己的实时分析流畅地流转起来。

提到 Hadoop 大家必然会想到 Cloudera 公司,它在 Hadoop 生态系统中拥有极高知名度。会上 Cloudera 大中华区总经理凌琦指出大数据时代想让计算成本变得更经济可以从两方面考虑。

  • 一方面是硬件,用 X86 服务器,单台机器不考虑冗余的情况下存储可以有 12 × 6 T。
  • 另外一方面是把一部分应用放到云上面,使计算成本变得更低。

会上 Alluxio 创始人兼 CEO 李浩源分享了如何让不同的计算框架以及不同的应用在不修改自身代码的前提下,高效且高速地访问不同数据源中的数据。

  • 智能化地移动数据,保证最高效的访问
  • 把不同存储数据虚拟化
  • 采用 scale-out 架构,实现高效的线性性能提升

关于 Apache Kylin 很多人应该已经知道了,这是完全由中国工程师贡献到 Apache 软件基金会的一个项目,今年该项目拿到了“开源贡献奖”,和 Google TensorFlow 一起获得该奖。Kyligence 联合创始人兼 CEO 韩卿出席了大会并分享了《基于 Apache Kylin 的实时 OLAP 实现》,对数据查询低延迟先有处理方案表示了肯定,也提出了解决数据可达低延时的重要性。现有 Cube 构建于批处理,T+1 模式可以满足绝大部分需求。但还是有不少问题值得深思。

  • 几千条到几亿条数据如何实现一次性轻松构建?
  • 如何随意暂停或更改构建频率?
  • 如何实现自动管理集群、弹性计算资源等?

对于做数据工作的 IT 人来说 Greenplum 应该并不陌生。简单的说,它就是一个与 Oracle、 DB2 一样面向对象的关系型数据库。通过标准的 SQL 可以对 GP 中的数据进行访问存取。本质上讲 Greenplum 是一个关系型数据库集群,它实际上是由数个独立的数据库服务组合成的逻辑数据库。与 RAC 不同,这种数据库集群采取的是 MPP 架构。

现在全球有 34 个国家有 Greenplum 团队,包含研发团队、销售团队、支持团队,就在客户不断增长的时候项目选择了开源。Pivotal Greenplum 中国研发总经理姚延栋分享了 Greenplum 5.0 作为做得还不错的企业级产品要选择开源的原因,开源前和开源后的变化,以及从现有平台迁移到分布式的数据架构上的方法

最后,大会以圆桌会议为彩蛋结束了整场论坛。圆桌会议由主持人是清华海峡研究院大数据中心主任王熙主持,易观技术负责人郭炜、Kyligence 联合创始人兼 CEO 韩卿、Admaster 技术副总裁卢亿雷、Anchora 董事长兼 CEO 鲁为民和云杉网络联合创始人兼 COO 来源参与,讨论了大数据实时计算应用与分析及对大数据未来发展方向的预测

  • 在新的技术发展阶段,特别是现在云计算、大数据,开源是一个趋势。而且开源是企业创新生命力的一个重要保证。
  • 开源系统是比较复杂的,应用的时候还需要专业能力和整合能力。开源软件很多,不要迷信某一种,要根据不同的阶段,不同的业务场景做选择。比如,初创阶段数据量比较小的时候可以选择比较粗的方案,但是如果想要性能更高一些,就需要选择更细的方案了。
  • 大多开源软件原始团队都在海外,如 Hadoop,但随着中国大数据的崛起,在世界范围内有影响力的开源项目越来越多。
  • 在大数据浪潮里面,中国很多地方不仅仅是赶上国外,甚至某些领域超越了。大数据让我们能够有机会超越国外的战略技术,因为我们今天能创造的数据量是其他任何一个国家无法得到的。
  • 现在数据已经深入到了每一个行业的每一个环节里,一开始是大数据的广告推介,现在变成了场景引擎,将来变成 AI 的人工智能。
  • 现在数据来源越来越复杂,预测三到五年大数据会变得非常敏捷,这是一个大趋势。在实时挖掘和细分算法方向会有很多创业公司出现解决业务触达问题,会出现更智能的工具。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2016-11-04 07:012212

评论

发布
暂无评论
发现更多内容

浏览器视频帧操作方法 requestVideoFrameCallback() 简介

devpoint

html5 视频处理 requestAnimationFrame 7月月更

Bootstrap警告和轮播插件详解【前端Bootstrap框架】

恒山其若陋兮

7月月更

MySQL进阶--存储过程以及自定义函数

Java学术趴

7月月更

语音聊天app——如何规范开发流程?

开源直播系统源码

软件开发 直播系统源码 语音聊天系统

机器学习如何做到疫情可视化——疫情数据分析与预测实战

是Dream呀

人工智能 机器学习 爬虫 数据可视化 疫情分析

Redis设计规范

知识浅谈

redis' redis 精讲

一文读懂Plato Farm的ePLATO,以及其高溢价缘由

股市老人

Qt | 信号和槽的一些总结

YOLO.

qt 7月月更

融云 IM & RTC 能力上新盘点

融云 RongCloud

SpringBoot整合Minio 项目中使用自己文件存储服务器

宁在春

springboot Minio 7月月更

汽车智能应用生态的下一个趋势:车载小程序

Geek_99967b

车联网 物联网,

【函数式编程实战】(十) 优雅的处理代码中的时间类

小明Java问道之路

Lambda java8 Stream API 7月月更 签约计划第三季

鲜衣怒马散尽千金,Vue3.0+Tornado6前后端分离集成Web3.0之Metamask钱包区块链虚拟货币三方支付功能

刘悦的技术博客

Python 区块链 Vue 加密货币 虚拟货币

Linux环境快速搭建elasticsearch6.5.4集群和Head插件

程序员欣宸

Java elasticsearch 7月月更

数据中台建设(三):数据中台架构介绍

Lansonli

数据中台 7月月更

网络安全漏洞分析与漏洞复现

网络安全学海

网络安全 安全 渗透测试 WEB安全 漏洞挖掘

Prometheus 运维工具 Promtool (四)TSDB 功能

耳东@Erdong

Prometheus 7月月更 签约计划第三季 Promtool

Linux操作系统下Docker的完整部署过程

Java永远的神

Docker 程序员 架构 程序人生 云原生

算法题每日一练---第11天:第39级台阶

知心宝贝

程序员 算法 前端 后端 7月月更

算法题每日一练---第12天:算式900

知心宝贝

程序员 算法 前端 后端 7月月更

SRv6初登场

穿过生命散发芬芳

7月月更 SRv6

SpringBoot 整合 Swagger 自动生成在线API文档

宁在春

springboot swagger 7月月更

Starfish Os X MetaBell战略合作,元宇宙商业生态更进一步

股市老人

借助Elephant Swap打造的ePLATO,背后的高溢价解析

EOSdreamer111

Starfish Os打造的元宇宙生态,跟MetaBell的合作只是开始

鳄鱼视界

数据库故障容错之系统时钟故障

CnosDB

时序数据库 开源社区 CnosDB 工程师有话说 CnosDB Tech Talk

C# 之 方法参数传递机制

陈言必行

7月月更

C# 窗体应用使用对象绑定 DataGridView 数据绑定

IC00

C# 7月月更

《我的Vivado实战—单周期CPU指令分析》

攻城狮杰森

cpu 计算机组成原理 7月月更 vivado 计算机科学与技术

计算机视觉中Python如何实现图像操作与处理

迷彩

Python 计算机视觉 图像处理 Pillow 7月月更

Starfish Os打造的元宇宙生态,跟MetaBell的合作只是开始

EOSdreamer111

大数据基础框架设计——实时分析技术平台洞察与实践_大数据_刘芸_InfoQ精选文章