滴滴大数据研发平台最佳实践

阅读数:698 2019 年 8 月 11 日 00:00

滴滴大数据研发平台最佳实践

QCon 北京 2019 大会上,曾文秋讲师做了《滴滴大数据研发平台最佳实践》主题演讲,主要内容如下。

演讲简介

滴滴大数据研发平台致力于数据赋能业务,一站式完成数据的同步、开发、调度、数据质量、监控运维等操作,让数据开发过程顺畅高效,让数据运维省心省力。

主题摘要

1、介绍下滴滴的大数据发展史,滴滴大数据经历了裸奔状态(引擎初建,通过 Sqoop 从 Mysql 导入 Hadoop,用户通过命令行访问大数据)、割裂的工具化建设(租户管理、权限管理、任务调度等等)、一站式的智能开发 & 生产平台(覆盖离线场景;内置开发和生产两套逻辑环境,规范数据开发、生产和发布流程;)、集离线开发、实时开发、机器学习于一体的一站式的智能开发 & 生产平台;

2、集离线开发 & 实时开发 & 机器学习于一体的一站式的智能开发 & 生产平台是什么?平台包括哪些组件,每个组件的核心功能是啥?建设这个平台遇到哪些困难,是如何克服的?

3、核心组件设计剖析:离线实时元数据统一、统一任务提交网关机、列权限、数据血缘;

4、举例说明如何利用一站式的智能开发 & 生产平台进行数据治理,包括存储和计算:废弃表、同源导入、生命周期过长、暴利扫描、数据倾斜、参数不合理等等。

听众受益

1、用户可以了解大数据平台研发工具的建设思路;

2、离线和流式元数据统一体系(业界独一份);

3、如果基于开源组件来构建大数据工具体系。

讲师介绍

曾文秋

滴滴 高级专家工程师

8 年大数据平台产品研发经验,入职滴滴前曾负责阿里的大数据开发套件(包括一站式的大数据开发平台、工作流任务调度、任务智能监控、数据质量、数据管理等),目前在滴滴在负责构建基于开源大数据(Hadoop、Hive、Spark、Presto、Flink)的一站式智能数据开发、生产平台(包括离线、实时、机器学习)。

滴滴大数据研发平台最佳实践

滴滴大数据研发平台最佳实践

滴滴大数据研发平台最佳实践

滴滴大数据研发平台最佳实践

滴滴大数据研发平台最佳实践

滴滴大数据研发平台最佳实践

滴滴大数据研发平台最佳实践

滴滴大数据研发平台最佳实践

滴滴大数据研发平台最佳实践

滴滴大数据研发平台最佳实践

完整演讲 PPT 下载链接

https://qcon.infoq.cn/2019/beijing/schedule

评论

发布
用户头像
非常感谢,有三个问题想请教一下:
1、离线和流式元数据统一体系 这块是如何实现?
2、开发环境和生产环境的元数据如何统一?
3、发布包里面的内容有哪些?
2019 年 08 月 23 日 01:03
回复
没有更多了