收录了 流处理 频道下的 50 篇内容
本文整理自Flink创始公司dataArtisans联合创始人兼CTO Stephan Ewen在Flink Forward China 2018 上的演讲《Stream Processing takes on Everything》。
本文作者Michael Noll介绍了如何使用KSQL实现流处理。KSQL是Apache Kafka的数据流SQL引擎。本文内容涵盖了有状态流处理中的挑战、KSQL是如何解决这些挑战的,以及KSQL是如何通过流和表构建了流数据和数据库之间的桥梁。
我们在思考流处理问题上花了很多时间,更酷的是,我们也花了很多时间帮助其他人认识流处理,以及如何在他们的组织里应用流处理来解决数据问题。我们首先要做的是纠正人们对流处理的错误认识。
本文将带我们了解流处理器和数据库的关联关系,以及为什么出现了一种新类型的数据库,这种数据库既关注固定数据,也关注移动数据。
分布式流处理需求日益增加,包括支付交易、社交网络、物联网(IOT)、系统监控等。业界对流处理已经有几种适用的框架来解决,下面我们来比较各流处理框架的相同点以及区别。
“可X性”是数据系统构建的头等大事。
本文介绍了 Pulsar 是怎么跟流处理中的 Spark 和 Flink 以及批处理中的 Presto 和 Hive 结合,提供批流一体的高效的数据存储。
InfoQ 热门专题之一又更新了
这是关于Yelp的实时流数据基础设施系列文章的第四篇。这个系列会深度讲解我们如何用“确保只有一次”的方式把MySQL数据库中的改动实时地以流的方式传输出去,我们如何自动跟踪表模式变化,如何处理和转换流,以及最终如何把这些数据存储到Redshift或Salesforce之类的数据仓库中去。这一篇讲的是流处理器PaaStorm。
本文阐述了Facebook流处理服务管理平台Turbine的架构设计考量及实现。
所谓的流式处理其实就是对Stream的读取-处理-写入(ETL)操作,为了保证其可靠性,就需要Pravega作为流存储与流计算引擎共同努力来完成。
在本文中,我们探讨了一个真实的API监控应用实例,它通过使用近似流处理获得了收益。我们在WSO2流处理器之上开发应用作为Siddhi扩展。Siddhi是个复杂的事件处理库,担当WSO2流管理器的事件处理引擎。
LinkedIn认为Lambda架构中固有地存在着开发和运维上的复杂性,为此其目前采用了一种结合使用Kafka和Samza的解决方案。该方案考虑了流处理中所存在的事件延迟到达、数据流乱序、在线数据实验等挑战,并将进一步给出对鲁棒性和高级操作功能的支持。
本文介绍了Facebook在设计实时流处理系统时从易用性、性能、容错、可伸缩性以及正确性等方面考虑所做的重要设计决策,以及在构建该系统的过程中Facebook所总结的经验教训。
本文是分布式流存储Pravega专栏第一篇文章
Pravega能与Flink碰撞出怎样的火花?
随着计算机和网络技术的迅猛发展以及数据获取手段的不断丰富,在越来越多的领域出现了对海量、高速数据进行实时处理的需求。对于流数据的处理存在很多技术:简单的事件处理器,流处理器和复杂的事件处理器。即使在开源社区中,也存在很多扑朔迷离的选择,其中很多的差异并没有被很好的记载,也不容易发现。为此,Ian Hellström 在其博文中对流处理技术进行了简单介绍,本文是博文的翻译稿。
在本文中,作者Robin Moffatt展示了如何借助一个电商实例应用程序使用Apache Kafka和KSQL构建数据集成和处理应用程序。本文讨论了三个应用场景:客户操作、操作仪表板、在线分析。
在QCon纽约2016大会上,Neha Narkhede在演讲“借助Apache Kafka实现大规模流处理”中介绍了Kafka Streams,这是Kafka用于处理流式数据的新特性。据Narkhede介绍,因为“无界(unbounded)”数据集随处可见,所以流处理越来越流行。那不再是一个像机器学习那样的小众问题。
本次分享介绍 Pulsar 如何为批和流处理提供高效统一的数据存储