收录了 流式计算 频道下的 50 篇内容
本次分享介绍如何设计并实现一个业界领先的流式计算系统,以及工业级场景下的设计折衷、线上验证与实践经验。
小米在流式计算方面经历了Storm、Spark Streaming和Flink的发展历程。在整个发展历程中,逐步完善了稳定性、作业管理、日志和监控收集展示等关系到用户易用性和运维能力的特性,帮助越来越多的业务接入到了Flink。
本文介绍如何优化流式计算的速度,提高时效性。
本文重点讨论了大数据系统发展的历史轨迹,行文轻松活泼,内容通俗易懂,是一篇茶余饭后用来作为大数据谈资的不严肃说明文。本文翻译自《Streaming System》最后一章《The Evolution of Large-Scale Data Processing》,在探讨流式系统方面本书是市面上难得一见的深度书籍,非常值得学习。
本文介绍了Kafka Stream的背景,如Kafka Stream是什么,什么是流式计算,以及为什么要有Kafka Stream。接着介绍了Kafka Stream的整体架构,并行模型,状态存储,以及主要的两种数据集KStream和KTable。并且分析了Kafka Stream如何解决流式系统中的关键问题,如时间定义,窗口操作,Join操作,聚合操作,以及如何处理乱序和提供容错能力。最后结合示例讲解了如何使用Kafka Stream。
流式计算的介绍
也面临着数据量级和业务复杂度的双重考验。业界的流批一体,也逐渐转变为统一到流。近年来,新的流计算形态不断涌现。
将流式图计算的门槛打下来
本次分享主要分为三部分。首先介绍流式计算的基本概念, 然后介绍Flink的关键技术,最后讲讲Flink在快手生产实践中的一些应用,包括实时指标计算和快速failover。
这不是一个挽狂澜于既倒的英雄故事,没有什么跌宕起伏的情节,也没有耀眼的鲜花与掌声。而是千千万万个普通开发者中的一小群人,一边在业务中被动接受成长,一边在开源中主动寻求突破的一段记录。
FFA 大会照例总结了 Apache Flink 过去一年的发展情况。
本文介绍了宜信数据中台顶层设计,从中间件工具到平台及案例分析。
实时大数据分析是指对规模巨大的数据进行分析,利用大数据技术高效的快速完成分析,达到近似实时的效果,更及时的反映数据的价值和意义。 所有人都能理解数据的时效性对于数据的价值至关重要。以唯品会为例,唯品会已经有一整套非常成熟的离线数据仓库系统。这套系统对于业务有非常大的指导意义,但目前碰到的问题是如何将各种计算、报表加速,从原来天级别、小时级别,加速到近实时来。
)在北京圆满结束。的行业号召力。已然成为了流式计算的事实标准。当然,对于社区开发者而言,这次大会上带来的流计算的新趋势、新实践与新进展或许才是关注的重点。
TDengine 3.0 引入了全新的流式计算引擎,既支持时间驱动的流式计算,也支持事件驱动的流式计算。本文将对新的流式计算引擎的语法规则进行详细介绍,方便开发者及企业使用。
本文分析了基于Kafka的两种计算引擎Spark和Flink的各自特点。
腾讯云 CKafka 作为大数据架构中的关键组件,起到了数据聚合,流量削峰,消息管道的作用。在 CKafka 上下游中的数据流转中有各种优秀的开源解决方案。如 Logstash,File Beats,Spark,Flink 等等。本文将带来一种新的解决方案:Serverless Function。
作为 Flink 发明人以及 data-Artisan(Flink 背后商业公司) CEO,Kostas Tzoumas 对于流式处理有深入的见解。文章分为两部分,本篇文章是上半部分有关流式计算核心能力的介绍和探讨。文章考虑到语言文化差异,对于部分较难理解部分加入译者的说明。
随着物联网、车联网、工业物联网等领域的快速发展,时序数据的处理需求也在不断增加。为了满足这一需求,时序数据库应运而生,为高频数据写入和实时分析提供了强有力的支持。在这一领域,TDengine 和 InfluxDB 是两大领先的解决方案。尽管两者都具有强大的时