收录了 流数据处理 频道下的 50 篇内容
Twitter开源了作为Storm替代者的Heron流数据处理引擎。Heron上的应用向后兼容Strom,目前已得到广泛的关注和使用。本文是InfoQ对Heron项目负责人的访谈,涉及了Heron项目的构思、特点、开发情况、主要特性及开发社区与使用情况等。
在QCon San Francisco 2016大会上,Frances Perry和Tyler Akidau做了一个关于“使用Apache Beam进行流数据处理的基础”的主题演讲。在演讲中探讨了Google的Dataflow模型以及Apache Beam的相关实现。
在本文,也就是Apache Spark系列的第三部分中,作者Srini Penchikala用一个日志分析样例应用讨论了如何将Apache Spark流框架用于实时流数据处理中。
本文介绍了以 Pulsar 做流数据平台,使用 Spark 进行批流一体数据处理的编程实践。
本文作者Michael Noll介绍了如何使用KSQL实现流处理。KSQL是Apache Kafka的数据流SQL引擎。本文内容涵盖了有状态流处理中的挑战、KSQL是如何解决这些挑战的,以及KSQL是如何通过流和表构建了流数据和数据库之间的桥梁。
本文是《Kafka的七年之痒》专题系列文章的第一篇,整理自王国璋老师在QCon 2018 上海站的演讲。从最早的“分布式消息系统”,到现在集成了分发、存储和计算的“流式数据平台”,Kafka经历了哪些挑战?又经过了什么样的演进变化?Kafka社区踩过哪些“坑”?本文将为你一一道来。
流处理 (Stream processing) 是一种计算机编程范式,其允许给定一个数据序列 (流处理数据源),一系列数据操作 (函数) 被应用到流中的每个元素。同时流处理工具可以显著提高程序员的开发效率,允许他们编写有效、干净和简洁的代码。
提高计算的时效性,更快的从数据中挖掘出信息和知识就意味着能够获取更大的价值。
本文主要介绍了如何将Hadoop和大数据生态圈的各部分重要组件有机地联系在一起去创建一个能够支撑批处理、交互式和实时分析工作的大数据平台系统。其中,我们重点尝试从计算框架、 NoSQL 数据库以及大数据平台安全这三方面分析了在不同的应用场景中相应的技术选型以及需要考虑到的权衡点,希望让大家对如何建立一个完整可用的安全大数据平台能有一个直观的认识。
视频内容:流数据在企业中往往扮演着重要的角色,是实时数据分析的基础。随着企业对数据质量,对数据分析实时性的重视程度的不断提高,企业对流数据的存储需求也越来越高。
1月10日,Apache软件基金会宣布,Apache Beam成功孵化,成为该基金会的一个新的顶级项目。谷歌坚信Apache Beam就是数据批量处理和流式处理的未来。
本文将基于实时数据可视化软件Altair Panopticon与大家共同探讨物联网及电子交易的实时BI分析场景。
流式计算的介绍
当提到“实时分析”,大家脑海里首先浮现的是大屏上不断跳跃闪烁的数字和波动的曲线,让人有种纵观全局的掌控感。
本文重点讨论了大数据系统发展的历史轨迹,行文轻松活泼,内容通俗易懂,是一篇茶余饭后用来作为大数据谈资的不严肃说明文。本文翻译自《Streaming System》最后一章《The Evolution of Large-Scale Data Processing》,在探讨流式系统方面本书是市面上难得一见的深度书籍,非常值得学习。
本文介绍贝壳找房如何建设流式数据平台来满足业务方的需求。
本次分享介绍在神经网络领域最新的突破如何帮助彭博对文件进行自动化处理,展示其在数据提取及分析方面体现出来的更高准确度和更快处理速度。
本文是分布式流存储Pravega专栏第一篇文章
本文介绍爱奇艺大数据实时分析平台RAP的设计思路、技术架构演进以及业务应用实践。
近日,从Apache官方博客中得知,开源的分布式流处理框架Apache Samza历经18个月的孵化期后终于升级成为Apache的顶级项目。Samza由LinkedIn于2013年9月开源并作为孵化项目贡献给Apache, 它能够帮助开发者进行高速消息处理,同时具有还良好的容错能力。