【QCon】精华内容上线92%,全面覆盖“人工智能+”的典型案例!>>> 了解详情
写点什么

大数据基础框架设计——实时分析技术平台洞察与实践

  • 2016-11-04
  • 本文字数:2041 字

    阅读完需:约 7 分钟

今年是 IoT 物联网的元年,也是人工智能的元年。之所以人工智能这么热,与大数据有密不可分的关系,大数据就是现在网络时代的石油。2016 年 10 月 28 日上午 7 位大数据相关专家齐聚“2016 易观 A10 大数据应用峰会”对实时分析技术的看法和实践经验进行了分享和讨论,从技术角度解析了企业如何做到实时分析。

很久以前大数据有三个概念——“三个 V”:第一个 V 是非常大的,海量;第二个 V 是速度,很快;第三个 V 是多样化,很难。之前我们一直在强调数据要“大”,提到大数据的时候人们一般会说“一个企业有多少数据量,每天要加载多少数据,多少万个用户,每天月活是多少……”,但其实到现在为止,每一个企业 真的都有了很多的数据,接下来面临的问题是如何让这些数据高效地运转起来体现实用价值,而不仅仅是拿到很多数据存储起来。那么,企业如何对这些数据进行相关的分析和处理呢?

易观技术负责人郭炜提出一个概念,数据永远是临时的,分析永远是有时效性的。例如,你某电商平台购买了一部手机,平台就会不断向你推荐手机而不是手机配件。为什么呢?其实是因为实时分析和实时计算没做好,怎么办呢?

  • 定方向:实时分析不难但投入大,企业首先要评估自己的 ROI,选择一个适合的场景。
  • 夯实基础:其次要选择一种或者几种适合自己企业当前状态的实时计算框架。
  • 打造能力:实时分析并不等于实时计算,在分析过程中除了需要数据计算能力之外,还需要数据挖掘能力、实时采集能力。
  • 实现:突破,找到产品出口,找最合适的一到两个点,让企业自己的实时分析流畅地流转起来。

提到 Hadoop 大家必然会想到 Cloudera 公司,它在 Hadoop 生态系统中拥有极高知名度。会上 Cloudera 大中华区总经理凌琦指出大数据时代想让计算成本变得更经济可以从两方面考虑。

  • 一方面是硬件,用 X86 服务器,单台机器不考虑冗余的情况下存储可以有 12 × 6 T。
  • 另外一方面是把一部分应用放到云上面,使计算成本变得更低。

会上 Alluxio 创始人兼 CEO 李浩源分享了如何让不同的计算框架以及不同的应用在不修改自身代码的前提下,高效且高速地访问不同数据源中的数据。

  • 智能化地移动数据,保证最高效的访问
  • 把不同存储数据虚拟化
  • 采用 scale-out 架构,实现高效的线性性能提升

关于 Apache Kylin 很多人应该已经知道了,这是完全由中国工程师贡献到 Apache 软件基金会的一个项目,今年该项目拿到了“开源贡献奖”,和 Google TensorFlow 一起获得该奖。Kyligence 联合创始人兼 CEO 韩卿出席了大会并分享了《基于 Apache Kylin 的实时 OLAP 实现》,对数据查询低延迟先有处理方案表示了肯定,也提出了解决数据可达低延时的重要性。现有 Cube 构建于批处理,T+1 模式可以满足绝大部分需求。但还是有不少问题值得深思。

  • 几千条到几亿条数据如何实现一次性轻松构建?
  • 如何随意暂停或更改构建频率?
  • 如何实现自动管理集群、弹性计算资源等?

对于做数据工作的 IT 人来说 Greenplum 应该并不陌生。简单的说,它就是一个与 Oracle、 DB2 一样面向对象的关系型数据库。通过标准的 SQL 可以对 GP 中的数据进行访问存取。本质上讲 Greenplum 是一个关系型数据库集群,它实际上是由数个独立的数据库服务组合成的逻辑数据库。与 RAC 不同,这种数据库集群采取的是 MPP 架构。

现在全球有 34 个国家有 Greenplum 团队,包含研发团队、销售团队、支持团队,就在客户不断增长的时候项目选择了开源。Pivotal Greenplum 中国研发总经理姚延栋分享了 Greenplum 5.0 作为做得还不错的企业级产品要选择开源的原因,开源前和开源后的变化,以及从现有平台迁移到分布式的数据架构上的方法

最后,大会以圆桌会议为彩蛋结束了整场论坛。圆桌会议由主持人是清华海峡研究院大数据中心主任王熙主持,易观技术负责人郭炜、Kyligence 联合创始人兼 CEO 韩卿、Admaster 技术副总裁卢亿雷、Anchora 董事长兼 CEO 鲁为民和云杉网络联合创始人兼 COO 来源参与,讨论了大数据实时计算应用与分析及对大数据未来发展方向的预测

  • 在新的技术发展阶段,特别是现在云计算、大数据,开源是一个趋势。而且开源是企业创新生命力的一个重要保证。
  • 开源系统是比较复杂的,应用的时候还需要专业能力和整合能力。开源软件很多,不要迷信某一种,要根据不同的阶段,不同的业务场景做选择。比如,初创阶段数据量比较小的时候可以选择比较粗的方案,但是如果想要性能更高一些,就需要选择更细的方案了。
  • 大多开源软件原始团队都在海外,如 Hadoop,但随着中国大数据的崛起,在世界范围内有影响力的开源项目越来越多。
  • 在大数据浪潮里面,中国很多地方不仅仅是赶上国外,甚至某些领域超越了。大数据让我们能够有机会超越国外的战略技术,因为我们今天能创造的数据量是其他任何一个国家无法得到的。
  • 现在数据已经深入到了每一个行业的每一个环节里,一开始是大数据的广告推介,现在变成了场景引擎,将来变成 AI 的人工智能。
  • 现在数据来源越来越复杂,预测三到五年大数据会变得非常敏捷,这是一个大趋势。在实时挖掘和细分算法方向会有很多创业公司出现解决业务触达问题,会出现更智能的工具。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2016-11-04 07:012200

评论

发布
暂无评论
发现更多内容

涛思数据联合长虹佳华、阿里云 Marketplace 正式发布 TDengine Cloud

TDengine

tdengine 阿里云 时序数据库

基于Java开发的拿来即用的EHR系统

金陵老街

Java Vue 低代码

苹果账号被禁用怎么办?

雪奈椰子

Redis:揭秘高效缓存与数据存储利器

互联网工科生

redis 数据结构 数据存储

Apache Paimon 流式数据湖 V 0.4 与后续展望

Apache Flink

大数据 实时计算

首批金融级行业云平台认证!天翼云实力再获权威认可!

天翼云开发者社区

云平台

构建高性能的MongoDB数据迁移工具:Java的开发实践

这我可不懂

Java mongodb 开发框架

文心一言 VS 讯飞星火 VS chatgpt (74)-- 算法导论7.2 2题

福大大架构师每日一题

福大大架构师每日一题

一种基于Nginx的热点数据调度处理方法

天翼云开发者社区

大数据

柏睿向量数据库Rapids VectorDB赋能企业级大模型构建及智能应用

新消费日报

苹果账号被禁用怎么办?

统一门户|WorkPlus整合内部应用,构筑企业统一的智能工作入口

WorkPlus

全新 – Amazon EC2 M1 Mac 实例

亚马逊云科技 (Amazon Web Services)

Amazon EC2

AirServer 7 for Mac(Mac专用投屏工具) v7.2.6激活版

mac

AirServer 投屏软件 苹果mac Windows软件

数据安全是企业发展之基,WorkPlus纯内网私有化部署保护隐私更安全

WorkPlus

浅谈JavaScript编程过程function函数的几种编程风格

高端章鱼哥

Java JavaScript Function

《企业家》杂志封面人物丨王文京:数智化助企业“基因迭代”

用友BIP

为什么我们会对中国软件行业如此悲观?

ToB行业头条

隐私计算之浅谈联邦学习

天翼云开发者社区

隐私计算 数据孤岛

GitHub Actions?! 想说爱你不容易— 记一次 Release CI 重构经验

Greptime 格睿科技

GitHub 时序数据库 Github Action Release CI

书写自动智慧文本分类器的开发与应用:支持多分类、多标签分类、多层级分类和Kmeans聚类

汀丶人工智能

人工智能 nlp 文本分类 文本聚类

绝了!学编程的还有不知道的吗?这个Java开发工具免费了

SoFlu软件机器人

开发者工具 开发工具 java\ 智能开发

C++实现一键关闭桌面

攻城狮Wayne

传统企业的智能化IPD(产品集成开发)转型

禅道项目管理

目前国内市场知名的可视化工具(2D/3D)

2D3D前端可视化开发

可视化 数据可视化 三维可视化 可视化工具 组态可视化

Pixologic ZBrush 2023 for Mac(三维数字雕刻软件)v2023.2.2中文版

mac

苹果mac Windows软件 Pixologic ZBrush 2023Z 数字雕刻软件

Presto 内存参数设置建议

冰心的小屋

presto memory query.max-memory presto 内存

网络安全作业

大肚皮狒狒

为什么我选择低代码开发这件事儿

这我可不懂

低代码开发 应用开发 代码生成器

卡奥斯团队参编信标委低代码路线图

Openlab_cosmoplat

开源

大型模型的重要基石与洞察力之源之文本数据

来自四九城儿

大数据基础框架设计——实时分析技术平台洞察与实践_大数据_刘芸_InfoQ精选文章