【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

流式数据处理在百度数据工厂应用与实践

  • 2019-08-04
  • 本文字数:576 字

    阅读完需:约 2 分钟

流式数据处理在百度数据工厂应用与实践

在 QCon 北京 2019 大会上,李俊卿讲师做了《流式数据处理在百度数据工厂应用与实践》主题演讲,主要内容如下。


演讲简介


百度数据工厂以 Spark 为基础提供了流批一体的大数据分析解决方案,流式数据处理在里面承担了其中的实时计算和实时与离线转换功能。流式数据处理不仅提供了流批统一 SQL 引擎、流批统一 META 管理和实时落数仓等技术支持,还提供了流式数据处理的一体化平台,提供流式数据处理的提交、运维、监控等能力。以百度数据工厂为基础,流式数据处理在大型日志分析、广告物料分析、实时推荐、大屏展示等方面提供了强力支撑,获得了较好的效果。本演讲将分享我们就 Spark 流式数据处理在数据工厂内做了哪些技术支持、改造及相应的实践。

听众收益

  1. 理解数据工厂在流批统一上的优势;

  2. 了解数据工厂流式数据处理的技术改进;

  3. 理解流式数据处理的一体化平台;

  4. 数据工厂流式数据处理在百度内的实践。


讲师介绍


李俊卿


百度 高级研发工程师


李俊卿,百度高级研发工程师,数据工厂流式数据处理负责人。加入百度后,一直从事大数据相关工作,参与了百度大数据离线批处理从 Hive 到 Spark1.x 到 Spark2.x 技术方案的架构升级,主导了数据工厂的流式数据处理的整体设计及核心的研发工作,提出基于 Spark 的流/批 SQL 引擎统一方案,对分布式系统流批一致处理有独到见解。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2019/beijing/schedule


2019-08-04 08:002066

评论

发布
暂无评论
发现更多内容

微信标准版交易组件使用教程

frank-say

微信小程序 微信 大前端

Yarn的架构和原理

五分钟学大数据

hadoop YARN 5月日更

技术干货 | 轻松两步完成向 mPaaS 小程序传递启动参数

蚂蚁集团移动开发平台 mPaaS

ios android 移动开发 mPaaS

Mysql的事务隔离与实现

Geek_快去搞学习

MySQL 事务隔离级别 事务

TCP传输层面试中常问的问题汇总(你所不知道的传输层)

linux大本营

c++ Linux TCP 网络编程 TCP/IP

消息队列架构设计文档

高亮

架构实战营

☕【Java技术之旅】来啊!带你认识一下String字符串

洛神灬殇

JVM string 5月日更

如何计算STM32定时器、独立看门狗和窗口看门狗

不脱发的程序猿

定时器 stm32 单片机 看门狗

网易数帆云原生故障诊断系统实践与思考

网易数帆

Docker 云计算 Kubernetes 云原生 故障诊断

IDEA 的 debug 怎么实现?出于这个好奇心,我越挖越深!

Java小咖秀

Java debug IDEA 調試

华为云数据库GaussDB(for Cassandra)揭秘第二期:内存异常增长的排查经历

华为云开发者联盟

云原生 内存泄漏 NoSQL数据库 华为云数据库 GaussDB(for Cassandra)

Vue SSR在好大夫的落地

好大夫在线技术团队

最佳实践 Vue 大前端 语言 & 开发 文化 & 方法

新建了一个Go项目的脚手架

soolaugust

GitHub 编程 Go 语言

硬核资源!清华博士的Spring Boot中AOP与SpEL笔记,码农:膜拜

牛哄哄的java大师

Java springboot spring aop

敏捷MVP面面观

禅道项目管理

敏捷 MVP

大厂常问iOS面试题汇总!

iOS猿_员

ios 面试 ios开发

这份Mybaits缓存机制总结,阿里大佬看完直呼牛批,到底有多强?

飞飞JAva

iOS 面试策略之语言工具-Swift vs. Objective-C

iOSer

ios objective-c swift 面试 移动开发

论文解读丨基于局部特征保留的图卷积神经网络架构(LPD-GCN)

华为云开发者联盟

图神经网络 图结构 图卷积神经网络 DenseNets 池化

Spring Bean生命周期、DI、IOC、AOP、循环依赖、事务管理

正亮

bean注入过程 spring aop spring事务管理

iMazing中IPA文件的介绍与管理

懒得勤快

ios iphone imazing 苹果手机管理

软件质量指标自动度量方法

鸿渐科技_mason

代码质量 源代码 软件安全 软件质量指标 鸿渐科技

STM32 GPIO的原理、特性、选型和配置

不脱发的程序猿

stm32 单片机 STM32 GPIO GPIO GPIO的原理、特性

变电站无人值守也能运筹帷幄?数据这样监控,时效节省高达90%

一只数据鲸鱼

数据可视化 3D可视化 智慧电网 变电站

带你快速入门Kotlin

Changing Lin

5月日更

新一代运营保障体系探索

鲸品堂

运营 解决方案 运营商 通信运营商

拜托阿里老表爆肝整理10W字Java高级面试精华!帮我成功入职字节

比伯

Java 编程 架构 互联网 计算机

模块三总结

竹林七贤

数据结构与算法必知基础知识

bigsai

数据结构 算法

Angular:都2021年了,你为啥还没用Angular

华为云开发者联盟

angular 数据绑定

模模搭古城搭建学习笔记4:完结篇

ThingJS数字孪生引擎

物联网 3D可视化 数字孪生

流式数据处理在百度数据工厂应用与实践_数据库_李俊卿_InfoQ精选文章