写点什么

云上百万大数据任务的自动优化实践|QCon 北京

  • 2025-03-31
    北京
  • 本文字数:1302 字

    阅读完需:约 4 分钟

大小:701.20K时长:03:59
云上百万大数据任务的自动优化实践|QCon 北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


贝联珠贯大数据技术负责人杨少华已确认出席并发表题为《云上百万大数据任务的自动优化实践》的主题分享。近年来降本增效成为许多公司技术团队的重要工作方向,特别是上云后,云的便利性同时带来云开支的不可控,如何有效控制云开支成为上云后大家需要面临的问题。而在 IT 成本组成上,大数据相关基础设施的成本占不小比例,不少公司甚至超过一半以上。本演讲将分享贝联珠贯在开源大数据平台成本优化方面的技术实践。通过大数据任务参数动态优化、自动引擎升级以及 SQL 优化等自动优化手段,对数十家客户超过百万的大数据任务进行优化,节省了超过 500TB 内存和 15 万 CPU 核的计算资源。



杨少华毕业于哈工大本科、中科院计算所博士,2009 年毕业后加入阿里云,是阿里大数据平台(ODPS/MaxCompute)的主要创始成员,负责过 SQL、MapReduce 和 Graph 等分布式计算引擎的研发,以及平台稳定性保障和对外生态与输出,曾负责把阿里大数据集群利用率提升至 70% 以上。 之后从阿里离开先后加入知名创业公司浙江执御和哈啰出行,分别负责数据平台和算法平台的研发工作,是前哈啰出行软件技术首席架构师。现为 Finops 领域领先的技术公司贝联珠贯的合伙人、大数据产品技术负责人。他在本次会议的详细演讲内容如下:


演讲提纲

1. 问题与背景

2. 云上大数据平台成本优化的技术挑战

3. 优化方案:大数据任务参数动态优化

4. 优化方案:自动引擎升级

5. 优化方案:自动 SQL 优化

6. 实践案例分享

7. 总结与展望


您认为,这样的技术在实践过程中有哪些痛点?

  • 任务动态参数优化是一种基于历史数据的优化技术,适用于具有周期性的大数据任务(如天级/小时级任务),随机的 Adhoc 查询缺乏历史实例,则无法适用此项优化技术

  • 客户对生产稳定性极为看重,优化实施过程中需要有一套稳定性保障机制,确保不因为优化实施导致任务异常


演讲亮点

  • 优化收益明显,大部分实施案例可节省资源 30% 以上

  • 全自动任务优化,极小人力投入成本

  • 实施成本低,任务参数动态优化和自动引擎升级,零业务代码变更


听众收益

  • 可以帮助相关从业人员了解或学习大数据平台成本优化的主要技术方案,并在日常工作中进行运用


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-31 10:003511

评论

发布
暂无评论

如何成为一名合格的CRUD工程师?

博文视点Broadview

OBCE首位认证 实力与颜值并存 | 90后技术宅郑皓嘉的通关之路

OceanBase 数据库

分布式数据库 认证 oceanbase OBCE

TDSQL | 在整个技术解决方案中HTAP对应的混合交易以及分析系统应该如何实现?

腾讯云数据库

tdsql 国产数据库

你以为委派模式很神秘,其实你每天都在用

Tom弹架构

Java 架构 设计模式

《Linux一学就会》:第二章:Linux基本命令操作和文件管理

侠盗安全

Linux 运维 linux运维 云计算架构师

11.11上云嘉年华,华为云数据库助力客户备战业务高峰

华为云数据库小助手

GaussDB GaussDB(for openGauss) GaussDB ( for Redis ) 华为云数据库

如何快速应对井喷下的OCR需求?

鲸品堂

OCR

Sentinel-Go 源码系列(二)|初始化流程和责任链设计模式

捉虫大师

sentinel Go 语言 sentinel-go

白码低代码/无代码开发平台功能及作用

低代码小观

低代码 开发工具 开发平台 无代码 企业服务

业务数据清洗,落地实现方案

数据 数据清洗 数据管理 数据服务 业务数据

解放重复劳动丨华为云IoT API Explorer对接小程序实现系统化应用

华为云开发者联盟

小程序 App IoT 华为云 API Explorer

为何我中断执行的线程不起作用,Why

华为云开发者联盟

Java 线程 对象 中断

腾讯云发布容器安全白皮书

腾讯安全云鼎实验室

容器 云安全 白皮书

行云管家荣登36kr企服点评云计算软件排行榜NO.1

行云管家

云计算 软件 排行榜 IT运维

写入、读取均优于InfluxDB,TDengine在智慧水务系统中的应用

TDengine

数据库 tdengine 后端

CSS页面设计稿构思与实现(一)

Augus

CSS 11月日更

OceanBase 源码解读(六):存储引擎详解

OceanBase 数据库

数据库 开发者 高性能 资源隔离 租户

一文,动态规划入门

bigsai

算法 动态规划

Vue进阶(幺柒零):应用 rem/em 实现字体自适应

No Silver Bullet

Vue 自适应 11月日更

一文了解如何使用移动应用安全组件Soot和Flowdroid

华为云开发者联盟

移动应用 安全 Soot Flowdroid APK

深入剖析 RocketMQ 源码 - 消息存储模块

vivo互联网技术

RocketMQ 微服务 中间件 消息队列

什么是DISA STIG?概述+STIG安全

旋极智能

个人信息保护法生效,企业数据安全合规正当时

行云管家

信息安全 数据安全 企业安全 网络保护

JavaIO流核心模块与基本原理

Java nio IO流 字符流 字节流

springboot集成阿里云短信

小鲍侃java

11月日更

Flink 的状态管理实践

五分钟学大数据

flink 11月日更

Hive SQL优化思路

大数据技术指南

11月日更

MapReduce Service更换集群外部时钟源,仅需10步

华为云开发者联盟

大数据 FusionInsight ntp 时钟同步 MapReduce Service

ODC V3.2.0 新版本发布 | 着重用户体验,挑战权限管控业务场景

OceanBase 数据库

数据库 开发者 稳定性 应用场景 新功能

这场蝴蝶效应,从“丝滑”的双11开始

脑极体

IOS技术分享| WebRTC iOS源码下载&编译

anyRTC开发者

ios 音视频 WebRTC 实时通信 视频直播

云上百万大数据任务的自动优化实践|QCon 北京_大数据_QCon全球软件开发大会_InfoQ精选文章