Delta Lake 是 Databricks 公司开源的数据湖技术,它在 Parquet 文件格式基础上增加了丰富的数据管理功能,如元数据管理、ACID 事务、数据更新和数据版本回溯等。使用 Delta Lake 可以很方便的将流处理和批处理串联起来,快速构建 Near-RealTime 的 Data Pipeline。
一线实践案例
会议演讲推荐
更多内容推荐
如何批量导出 PPT 里的图片?
如何批量导出PPT里的图片?
2022-04-20
消息传递通信的实现方式?
消息传递通信的实现方式?
2022-04-24
RDD 与编程模型:延迟计算是怎么回事?
RDD是构建Spark分布式内存计算引擎的基石。
2021-09-13
Linux 之 netstat 命令
【Linux常用命令速查手册】关注【入门小站】,后台回复 「1001」 自取。
2022-03-09
开心档之 C++ 引用
引用变量是一个别名,也就是说,它是某个已存在变量的另一个名字。一旦把引用初始化为某个变量,就可以使用该引用名称或变量名称来指向变量。
2023-04-27
头脑风暴:最长连续递增序列
给定一个未经排序的整数数组,找到最长且 连续递增的子序列,并返回该序列的长度。
2022-08-18
01|Spark:从“大数据的 Hello World”开始
怎么用Spark完成一个小项目?
2021-09-06
模块四作业 - 学生管理系统的考试试卷存储方案
学生管理系统的考试试卷存储方案
2022-01-08
字节跳动 Flink 大规模云原生化实践
字节跳动基础架构工程师刘畅,在 Flink Forward Asia 2022 生产实践专场的分享。
2023-03-30
学习方法:建立你的大数据知识网络
一篇篇的大数据论文,并不是教科书里的一个章节或者一个知识点,而是对于一个重要的系统问题的解决方案。在读论文之前,先尝试自己去思考和解决对应的问题,有助于你更深刻地理解问题和解决方案的重点。
2021-09-22
什么是大数据:从 GFS 到 Dataflow,12 年大数据生态演化图
要想学好大数据,我们需要先正本清源,弄清楚大数据在技术上到底涵盖了些什么。所以今天这节课,我就从大数据技术的核心理念和历史脉络这两个角度,来带你理解下什么是大数据技术。
2021-09-15
Qt|编辑框的使用总结
QLineEdit、QTextEdit、QPlainTextEdit、QTextBrowser
2022-07-22
读《A Philosophy of Software Design》——(10)
读《A Philosophy of Software Design》——(10)
2022-04-07
Docker:第七章:Docker 搭建私服 - 本地镜像库
docker pull registry
2022-04-21
Shuffle 管理:为什么 Shuffle 是性能瓶颈?
今天我们用“工地搬砖的任务”来理解Shuffle及其工作原理。
2021-09-22
【7.28-8.4】写作社区优秀技术博文一览
为了让更多的创作者有展示自己的舞台,为了让更多优质内容有发光发热的机会,InfoQ 官方写作社区会时不时向大家推荐近期发布在社区的优质作品。
2023-08-04
【12.9-12.16】写作社区优秀技术博文一览
为了让更多的创作者有展示自己的舞台,为了让更多优质内容有发光发热的机会,InfoQ 官方写作社区会时不时向大家推荐近期发布在社区的优质作品和入驻的新创作者们。
2022-12-16
Flink 核心机制:Watermark 详解
讲师介绍 张涛,现任阿里巴巴集团的技术专家,2012 年工作即入职大厂,有着丰富的大型分布式系统研发经验,尤其擅长分布式原理与数据结构,并有着多年带团队的经验。在多个大厂就职且担任面试官,能从行业领域给出职业生涯建议以及意见。 背景介绍 现在的社会,人们产生越来越多的数据,而数据对每个人都产生了巨大的影响。比如你去银行贷款,那么银行必然要对你做信用评估,会涉及大数据画像等数据分析。又比如美团外卖,则需要分析足够多的数据,给买卖各方做推荐引导,并同时结合大量的订单数据给骑手做配送引导。 所有的这一切都离不开大数据计算,而Flink作为其中的经典代表,有着极其重要的作用。成千上万的服务器上都跑着Flink应用,而Flink应用中有一个非常重要的机制——Watermark,它能够帮助我们处理事件延迟、乱序等问题,掌握这一机制对开发者来说至关重要。 内容看点 Watermark 介绍 用 Watermark 处理事件延迟问题 拓展:不同 source 源 Watermark 的处理方式
2022-06-24
在线 SVG 在线编辑器
在线SVG在线编辑器
2022-02-04
linux tee 命令
Linux中的tee命令是一个非常有用的命令,它可以同时在终端和文件中输出命令的结果。以下是Linux tee命令的一些用法:
2023-04-22
推荐阅读
1. Hive 的基本概述与原理
2023-09-08
数据通信网络之 IPv6 基础
2023-09-08
链游开发 DAPP 智能合约开发搭建
2023-11-09
第 17 期 | GPTSecurity 周报
2023-10-30
9. Flink 的数据增量聚合及全量聚合
2023-09-08
交易所开发搭建
2023-11-09
4. Flink 集成 Kafka
2023-09-08
电子书
大厂实战PPT下载
换一换 袁丽雅 | 中兴通讯 标准及开源高级工程师
罗广明 | 字节跳动 基础架构部资深架构师
杨诗旻 | 火山引擎 LAS 数据湖团队负责人
评论