阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

大数据框架

收录了 大数据框架 频道下的 50 篇内容

大数据框架对比:Hadoop、Storm、Samza、Spark 和 Flink

本文将介绍大数据系统一个最基本组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据。数据的计算则是指从大量单一数据点中提取信息和见解的过程。本文对Hadoop、Storm、Samza、Spark、Flink五种大数据框架进行了介绍和对比。

金融科技盛宴(七):银行的大数据应用
金融科技盛宴(七):银行的大数据应用

本系列文章梳理了国内外银行信息化历程,包含区块链、云计算、物联网、移动端、人工智能各方面的应用情况。

中国银联大数据发展史
中国银联大数据发展史

从制作报表到数仓,中国银联的大数据转型历程。

大数据的过去、现在和未来:解读《大数据四十二条》
大数据的过去、现在和未来:解读《大数据四十二条》

本文是对中国信息通信研究院云计算与大数据研究所所长何宝宏所作《大数据四十二条》的解读。

360开源 XDML,超大规模数据与超高维特征机器学习计算平台
360 开源 XDML,超大规模数据与超高维特征机器学习计算平台

在大数据时代,需要处理的数据都是TB级或PB级以上,机器学习模型的规模也在不断地增大,机器学习模型的参数的规模可以达到百亿甚至是千亿的级别,如此大的参数规模给现有的机器学习平台带来了前所未有的挑战。同时,高维稀疏数据对于模型的构建也带来了巨大的挑战。

深度学习与大数据系统融合是dead direction吗?
深度学习与大数据系统融合是 dead direction 吗?

坚持在深度学习与大数据系统融合领域的探究是否还有意义?

OpenSOC: 安全大数据分析框架

思科在BroCON大会上亮相了其安全大数据分析架构OpenSOC,引起了大家的广泛关注。OpenSOC是一个针对网络包和流的大数据分析框架,它是大数据分析与安全分析技术的结合,能够实时的检测网络异常情况并且可以扩展很多节点。

每日生产万亿消息数据入库,腾讯如何突破大数据分析架构瓶颈
每日生产万亿消息数据入库,腾讯如何突破大数据分析架构瓶颈

几千台的 Hadoop 集群,近百 P 级的存储总量,每日产生万亿的消息数据入库,需要针对几十亿 imei 手机设备去重,海量大数据背后,腾讯如何升级分析架构?

华为数据之道:华为数据治理及数据分类管理框架和经验
华为数据之道:华为数据治理及数据分类管理框架和经验

作为一家巨型跨国企业,华为在170多个国家同时开展各种业态的业务,华为的数据底座是支撑华为业务运营的关键。

Apache Arrow和Java:大数据传输快如闪电
Apache Arrow 和 Java:大数据传输快如闪电

Apache Arrow提出了一种跨语言、跨平台、内存中的列式数据格式,设计目标是免去数据序列化的需要,并减少复制操作的开销。

玩转大数据,QCon 上海 2016 热点前瞻

预计到2020年,全球数据总量将超过40ZB。高效处理数据,逐渐也成为很多互联网企业的核心竞争力之一。在10月20~22日的QCon上海2016上,我们就准备了很多大数据方面的精彩内容,邀请了Google、Netflix、LinkedIn、Spotify、阿里巴巴、百度、腾讯、360、携程等公司的技术专家,来分享他们的实践经验。

大数据基础框架设计——实时分析技术平台洞察与实践

今年是IoT物联网的元年,也是人工智能的元年。之所以人工智能这么热,与大数据有密不可分的关系,大数据就是现在网络时代的石油。2016 年 10 月 28 日上午 7 位大数据相关专家齐聚“2016 易观 A10 大数据应用峰会”对实时分析技术的看法和实践经验进行了分享和讨论,从技术角度解析了企业如何做到实时分析。

大数据平台架构方法论、模型与实践深度观察
大数据平台架构方法论、模型与实践深度观察

大数据架构发展到今天,批流矛盾早在前几年就显现了,各大互联网公司也早就遇到了这一矛盾。

QuantCell Resarch 发布首款 Java 大数据电子表格 beta 版本

以大数据分析起家的QuantCell Reaearch最近发布了首个他们称作“大数据”表格的公开beta测试版本

用 Apache Spark 进行大数据处理——第二部分:Spark SQL

Spark SQL作为Apache Spark大数据框架的一部分,可用于结构化数据处理并可以执行类似SQL的Spark数据查询。本文中,Srini Penchikala将与读者共同探讨Spark SQL模块及其如何通过SQL接口简化数据分析的执行。此外,在本文中作者还谈及了Spark SQL的新特性,如DataFrame和JDBC数据源。

虚拟座谈会:大数据一栈式方案 Spark

Spark正在占据越来越多的大数据新闻的重要位置,除了性能优异,Spark到底具备了那些特性,让学术界和工业界对其充满了兴趣?同时,Spark还处在快速发展的阶段,开发者和用户不得不解决不稳定和bug,Scala语言也有较高的学习门槛,这些也会成为Spark普及的障碍。当然,尽管Spark提供了一栈式的大数据方案,但并不意味着他适合任何场景。本期虚拟座谈会将讨论Spark的优势和不足,分享在国内领先的Spark开发者遇到的挑战和瓶颈。

一篇文章全面解析大数据批处理框架 Spring Batch

如今微服务架构讨论的如火如荼。但在企业架构里除了大量的OLTP交易外,还存在海量的批处理交易。在诸如银行的金融机构中,每天有3-4万笔的批处理作业需要处理。针对OLTP,业界有大量的开源框架、优秀的架构设计给予支撑;但批处理领域的框架确凤毛麟角。是时候和我们一起来了解下批处理的世界哪些优秀的框架和设计了,今天我将以Spring Batch为例,和大家一起探秘批处理的世界。

【ELT.ZIP】OpenHarmony啃论文俱乐部——大数据框架性能优化系统
【ELT.ZIP】OpenHarmony 啃论文俱乐部——大数据框架性能优化系统

Apache Hadoop 提供分布式数据存储功能HDFS,还提供了用于数据处理的 MapReduce。虽然 MapReduce 是可以不依靠 Apache Spark 进行数据的处理,Apache Spark 也可以不依靠 HDFS 来完成数据存储功能,但如果两者结合在一起

大数据
OpenHarmony
压缩算法
ELT.ZIP
迈向 Data 2.0——学习使用 ADO.NET 数据服务框架

随着.NET Framework 3.5 SP1和Visual Studio 2008 SP1的正式发布,ADO.NET数据服务框架也正式来到了我们的面前。通过利用ADO.NET数据服务框架,及其背后的WCF、EDM、LINQ等一系列技术,现在我们可以迈向Data 2.0的世界了。

如何熟悉一个系统?(内含知识大图)
如何熟悉一个系统?(内含知识大图)

本文总结了熟悉系统主要分三部分:业务学习、技术学习、实战。

大数据框架专题_资料-InfoQ中文网