收录了 大数据处理 频道下的 50 篇内容
这是“用Apache Spark进行大数据处理”系列文章的第六篇。在这最后一部分,我们将聚焦于如何处理图数据和学习Spark中的图数据分析库GraphX。
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。在本文中,Srini Penchikala为大家介绍了Apache Spark框架如何利用标准API帮助完成大数据处理和分析工作。另外,在本文中还将对比Spark和Apache Hadoop这类传统的MapReduce实现。
在本文,也就是Apache Spark系列的第三部分中,作者Srini Penchikala用一个日志分析样例应用讨论了如何将Apache Spark流框架用于实时流数据处理中。
在支持了机器学习数据流水线之后,Apache Spark框架已经全面支持各种功能,包括ETL、批处理分析、流数据分析和机器学习等。在这个关于Apache Spark的系列文章中,作者Srini Penchikala讨论了Spark ML包的内容,和如何用它来创建并管理机器学习数据流水线。
物联网、车联网的兴起,所采集的时序空间数据高速增长。Hadoop/Spark,但这些套件都是用来处理通用的非结构化数据的,因此在处理结构化的时序空间数据时,运行效率就大打折扣,而且因为集成多个组件,开发效率低,运维成本也很高。
Spark SQL作为Apache Spark大数据框架的一部分,可用于结构化数据处理并可以执行类似SQL的Spark数据查询。本文中,Srini Penchikala将与读者共同探讨Spark SQL模块及其如何通过SQL接口简化数据分析的执行。此外,在本文中作者还谈及了Spark SQL的新特性,如DataFrame和JDBC数据源。
本次分享介绍涛思数据设计的存储结构和时序数据处理模型。
大数据已经不是什么新话题了,在实际的开发和架构过程中,如何为大数据处理做优化和调整,是一个重要的话题,最近,咨询师Fabiane Nardon和Fernando Babadopulos在“Java Magzine”电子期刊中发文分享了自己的经验。
AWS团队发布了亚马逊Redshift的有限预览版,这个基于云的数据仓库,在成本和功能上正准备对行业造成冲击。另外,AWS还透漏了两种新型的大规模计算实例,以及一个叫做Data Pipeline的数据集成工具。
Ashishi Thusoo是Qubole 联合创始人兼CEO。Qubole是一个建设云平台进行数据分析和处理的创业企业。在创办Qubole之前,ASHISH负责Facebook数据基础设施团队。在他的领导下,团队创造了世界上最大的数据分析与处理平台。他也是Apache Hive项目的联合创始人,并作为该项目的Apache软件基金会的创始副总裁。在即将召开的ArchSummit上,他将分享他对于大数据相关技术趋势和演变的思考,以及Facebook的海量数据架构演变过程。现在报名ArchSummit可享超低折扣。
网购、叫车、订外卖、看电影......移动互联网各种场景的背后都离不开大数据技术。经过十几年的发展,大数据技术已经成为互联网企业的基础设施。
在本篇文章,作者将讨论机器学习概念以及如何使用Spark MLlib来进行预测分析。后面将会使用一个例子展示Spark MLlib在机器学习领域的强悍。
Yahoo的大数据处理和服务引擎Vespa正式在GitHub上开源了。
本文根据华大基因深圳研发部副院长方林在ArchSummit深圳2015大会上的演讲整理而成,“大牛V课堂”是Geekbang核心栏目,我们以线上微课堂的形式邀约互联网特定领域内的顶级大牛分享含金量最高的专业干货。
11月1日就是华东地区首届综合类技术大会,QCon全球软件开发大会(上海站)2013开幕的日子了。在长假来临之前,我们为大家再次奉上精彩内容预览,内容包括《软件开发者的中年规划》、互联网移动化碎片化终端整合的思考》主题演讲,以及大数据处理技术的深度剧透。需要提醒大家的是大会9折售票期即将在10月10日截止。
近日,Pivotal宣布将其大数据套件的三个核心组件开源,即基于内存的分布式NoSQL数据库GemFire、基于Hadoop架构的大规模并行SQL 分析处理引擎HAWQ、大规模并行处理分析数据库Greenplum。。同时,商业版本仍将继续提供更高级功能和商业支持服务。
对于新手来说,Scala相对比较复杂,其看起来灵活的语法并不容易掌握,但是对于熟悉Scala的用户来说,Scala是一把利器,它提供了许多独特的语言机制,可以以库的形式轻易无缝添加新的语言结构。近日,Spotify的软件工程师Neville Li发表了一篇题为《数据工程师应该学习Scala的三个理由》的文章,他认为现在的编程语言种类非常多,每种语言都各有优缺点,并且它们的适用的场景也不同,比如Scala就非常适合用于数据处理和机器学习。
在Hadoop 2.0.2-alpha之前,HDFS在机器断电或意外崩溃的情况下,有可能出现正在写的数据丢失的问题。而最近刚发布的CDH4中HDFS在Client端提供了hsync()的方法调用(HDFS-744),从而保证在机器崩溃或意外断电的情况下,数据不会丢失。这篇文件将围绕这个新的接口对其实现细节进行简单的分析,从而希望找出一种合理使用hsync()的策略,避免重要数据丢失。
Thomas Kyte现任甲骨文公司副总裁,是服务器技术部门的高级架构师。2月22日,Thomas来到北京,在访问中谈到如何处理大数据,数据中心能耗以及云时代的DBA等话题。
本文是Ignite系列的第三篇介绍性文章,内容整体比较简略,和第二篇文章一起,大体上介绍了Ignite平台的所有关键技术点,方便大家有一个整体的认识,供技术选型时参考。