写点什么

腾讯实时资源弹性伸缩的前沿探索与实践 | QCon 北京

  • 2025-04-04
    北京
  • 本文字数:1613 字

    阅读完需:约 5 分钟

大小:864.04K时长:04:54
腾讯实时资源弹性伸缩的前沿探索与实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


腾讯实时计算引擎负责人刘建刚已确认出席并发表题为《腾讯实时资源弹性伸缩的前沿探索与实践》的主题分享,从腾讯的实际业务场景(实时报表、实时活动、视频直播等)出发,展开介绍腾讯实时计算团队在探索出一套垂直伸缩与水平伸缩相融合的云上资源管理方案方面所做的工作。其中,垂直伸缩可以原地变更 CPU 和内存,做到业内首家实时计算零断流;水平伸缩可以做到秒级扩缩容,配合垂直伸缩实现统一的弹性伸缩服务。为了达到高精准的预测效果,弹性伸缩还融合了 AI 模型算法,做到了智能化的自动调整。


刘建刚目前在腾讯数据平台部,负责实时计算引擎的架构设计和技术规划,落地了弹性伸缩、存算分离等核心技术,为业内首家在云上的大规模实践。早前曾就职于快手,负责实时计算的架构设计和大规模落地,主导了 2020 年快手 & 央视春晚的实时链路,实现多项 streaming runtime adaption 功能做到业界领先。再早之前在百度基础架构部任职,参与了 Matrix 在离线混部的开发工作,主要负责在线服务 Solaria 的设计和开发。他在本次会议的详细演讲内容如下:


演讲提纲

1. 背景

  • 介绍业务核心高 SLA 要求、资源管理困难的两大痛点,业内通用的作业全局重启方式无法满足用户的需求

2. 实时计算弹性伸缩的实现

  • 垂直伸缩,联动 Flink 内核、K8s 和 JDK,实现资源的原地变更,做到业内首家实时计算零断流,更能实现 Pod 资源的个性化配置、做到千 Pod 千面

  • 水平伸缩,通过热更新和资源预申请实现秒级扩缩容,同时引入快照机制保障数据的 exactly-once

  • 资源全托管,融合垂直 &水平伸缩,实现用户作业全生命周期的资源托管,包括提交、运行、升级、故障等场景,做到作业资源利用率超过 90% 的同时也保障秒级延迟

3. 模型算法的高精准预测

  • 相比业内普遍的 Reactive 模式,通过对未来的精准预测来实现 Proactive 模式

  • 预测算法创新性地引入模型训练,通过时间序列和特征工程的优化,将线上预测误差降到 10% 以内

  • 异常情况下,通过健康检测、实时调控、资源抢占等方式快速恢复作业

4. 业务应用和具体收益

  • 针对数据同步、实时报表等 long-running 作业,智能化调整节约资源超过 50%

  • 针对广告模型等对断流极其敏感的业务,解决了资源变更带来的断流问题,SLA 做到 99.99%

  • 全自动化的资源调整,节约人力成本 30+%

5. 经验总结和未来展望

  • 经验:垂直伸缩的零断流有一定局限性,需要配合水平伸缩的高扩展性,才能最大程度保障用户的 SLA

  • 展望:在准确性、实时性、鲁棒性等方面继续提升弹性伸缩的体验


您认为,这样的技术在实践过程中有哪些痛点?

垂直伸缩虽然能做到零断流,但是受限于单台机器的总资源,这时可以 Fall back 到水平伸缩(大量优化),这也是我们构建综合平台的能力之一


演讲亮点

  • 业内首家实现实时计算零断流的垂直伸缩

  • 业内首家利用 AI 模型预测的弹性平台


听众收益

  • 了解腾讯实时计算的前沿技术

  • 了解云上弹性伸缩的技术架构

  • 为降本增效、智能运维提供解决方案


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-04 14:007080

评论

发布
暂无评论

openLooKeng助力中移在线获“ICT优秀案例”

LooK

拆分电商系统为微服务

tony

Microchip发布具有强大编程和调试功能的新型在线仿真器(ICE)

极客天地

模块六作业

黄秀明

「架构实战营」

Go 语言快速入门指南:Go 实现简易Web应用

宇宙之一粟

Go web服务器 Go 语言 1月月更

【笔记】学《郭东白的架构课》:访谈|对话于冰(中)

术子米德

架构师成长笔记

(1-24/24)awesome「结构」

mtfelix

300天创作 2022Y300P

并发不是并行

en

电商系统微服务化

皓月

「架构实战营」

openLooKeng基于选择率的动态过滤优化

LooK

大数据

Microchip宣布标准非混合型宇航级电源转换器系列 已新增28伏输入耐辐射选项

极客天地

ReactNative进阶(四十):应用 ListView 实现分组列表

No Silver Bullet

ListView React Native 1月月更

虎年就要玩虎符 春节就要瓜分虎符虎年大礼包

区块链前沿News

Hoo虎符 Hoo 虎年 春节活动

openLooKeng | Oracle update和delete支持简介及实现

LooK

快递,菜鸟驿站,直播购物:老年人的电商之墙

脑极体

建木持续集成平台v2.2.1发布

Jianmu

DevOps 持续集成 CI/CD

双龙贺岁,龙蜥 LoongArch GA 版正式发布

OpenAnolis小助手

Linux 开源 新年

在线时间戳计算时间差

入门小站

工具

Spark合并Iceberg小文件内存溢出问题定位和解决方案

漫长的白日梦

spark iceberg 小文件

【笔记】学《郭东白的架构课》:访谈|对话于冰(上)

术子米德

架构师成长笔记

【笔记】学《郭东白的架构课》:访谈|对话于冰(下)

术子米德

架构师成长笔记

建一座国际连锁「商场」:openEuler 的雄心与蓝图 | 开源访谈《源创者说》首播

科技热闻

第六节:SpingBoot基本配置一

入门小站

springboot java

架构训练营 week8 作业

红莲疾风

「架构实战营」

ReactNative进阶(四十一):应用 FlatList 实现分组列表

No Silver Bullet

1月月更 ReactNative FlatList

Hoo虎符研究院 | 币圈后浪 BreederDAO区块链游戏的NFT工厂

区块链前沿News

虎符 Hoo 虎符交易所

再见,Microsoft Academic——你好,开放式研究基础设施?

吴脑的键客

搜索引擎

LabVIEW播放提示声音或者音乐

不脱发的程序猿

LabVIEW 播放提示声音或者音乐

模块六 - 电商系统微服务设计

圈圈gor

架构实战营 「架构实战营」

openLooKeng算子接口和执行流程

LooK

如何系统分析项目的干系人?

石云升

项目管理 1月月更

腾讯实时资源弹性伸缩的前沿探索与实践 | QCon北京_云计算_QCon全球软件开发大会_InfoQ精选文章