大数据处理

用 Apache Spark 进行大数据处理——第三部分:Spark 流

作者Srini Penchikala用一个日志分析样例应用讨论了如何将Apache Spark流框架用于实时流数据处理中。

作者: Srini Penchikala 译者: 荣耀

2016 年 3 月 2 日
Spark 大数据处理系列之 Machine Learning

在本篇文章,作者将讨论机器学习概念以及如何使用Spark MLlib来进行预测分析。后面将会使用一个例子展示...

作者: Srini Penchikala 译者: 侠天

Amazon SageMaker 增加批量转换功能和适用于 TensorFlow 容器的管道输入模式
Amazon SageMaker 增加批量转换功能和适用于 TensorFlow 容器的管道输入模式

Amazon SageMaker 功能:一是批量转换功能,这是一种新的批量推断功能,客户可以通过它对 PB 级的数据进行...

作者: 亚马逊AWS官方博客

蚂蚁金服OceanBase挑战TPCC | TPC-C基准测试之SQL优化
蚂蚁金服 OceanBase 挑战 TPCC | TPC-C 基准测试之 SQL 优化

是一个非常严苛的基准测试模型,考验的是一个完备的关系数据库系统全链路的能力。的榜单前列,出现的永远...

作者: 陈萌萌、潘毅

2019 年 10 月 21 日
Kafka-Clients源码学习:KafkaProducer篇
Kafka-Clients 源码学习:KafkaProducer 篇

本文基于 Kafka-clients:1.1.0 版本,分享了Kafka-Clients源码学习:KafkaProducer篇。

作者: zwangbo

基于Azure 数据湖分析与U-SQL实现大数据查询处理
基于 Azure 数据湖分析与 U-SQL 实现大数据查询处理

U-SQL结合了SQL和C#的概念和结构,融合了SQL与生俱来的简单性与声明式,以及C#提供的包括丰富类型和表达...

作者: Aniruddha Chakrabarti 译者: 盖磊

2019 年 10 月 16 日
Yahoo 开源实时大数据处理服务系统 Vespa

Yahoo的大数据处理和服务引擎Vespa正式在GitHub上开源了。

作者: Jon Bratseth 译者: 薛命灯

2017 年 9 月 28 日
QCon 上海 2013:软件开发者的中年规划,大数据处理技术专题深度剧透,9 折售票即将截止

内容包括《软件开发者的中年规划》、互联网移动化碎片化终端整合的思考》主题演讲,以及大数据处理技术的...

作者: 彭超

Druid:一个用于大数据实时处理的开源分布式系统

Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统,旨在快速处理大规模的数据,并能够...

作者: 李小兵

2015 年 4 月 25 日