写点什么

腾讯实时资源弹性伸缩的前沿探索与实践 | QCon 北京

  • 2025-04-04
    北京
  • 本文字数:1613 字

    阅读完需:约 5 分钟

大小:864.04K时长:04:54
腾讯实时资源弹性伸缩的前沿探索与实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


腾讯实时计算引擎负责人刘建刚已确认出席并发表题为《腾讯实时资源弹性伸缩的前沿探索与实践》的主题分享,从腾讯的实际业务场景(实时报表、实时活动、视频直播等)出发,展开介绍腾讯实时计算团队在探索出一套垂直伸缩与水平伸缩相融合的云上资源管理方案方面所做的工作。其中,垂直伸缩可以原地变更 CPU 和内存,做到业内首家实时计算零断流;水平伸缩可以做到秒级扩缩容,配合垂直伸缩实现统一的弹性伸缩服务。为了达到高精准的预测效果,弹性伸缩还融合了 AI 模型算法,做到了智能化的自动调整。


刘建刚目前在腾讯数据平台部,负责实时计算引擎的架构设计和技术规划,落地了弹性伸缩、存算分离等核心技术,为业内首家在云上的大规模实践。早前曾就职于快手,负责实时计算的架构设计和大规模落地,主导了 2020 年快手 & 央视春晚的实时链路,实现多项 streaming runtime adaption 功能做到业界领先。再早之前在百度基础架构部任职,参与了 Matrix 在离线混部的开发工作,主要负责在线服务 Solaria 的设计和开发。他在本次会议的详细演讲内容如下:


演讲提纲

1. 背景

  • 介绍业务核心高 SLA 要求、资源管理困难的两大痛点,业内通用的作业全局重启方式无法满足用户的需求

2. 实时计算弹性伸缩的实现

  • 垂直伸缩,联动 Flink 内核、K8s 和 JDK,实现资源的原地变更,做到业内首家实时计算零断流,更能实现 Pod 资源的个性化配置、做到千 Pod 千面

  • 水平伸缩,通过热更新和资源预申请实现秒级扩缩容,同时引入快照机制保障数据的 exactly-once

  • 资源全托管,融合垂直 &水平伸缩,实现用户作业全生命周期的资源托管,包括提交、运行、升级、故障等场景,做到作业资源利用率超过 90% 的同时也保障秒级延迟

3. 模型算法的高精准预测

  • 相比业内普遍的 Reactive 模式,通过对未来的精准预测来实现 Proactive 模式

  • 预测算法创新性地引入模型训练,通过时间序列和特征工程的优化,将线上预测误差降到 10% 以内

  • 异常情况下,通过健康检测、实时调控、资源抢占等方式快速恢复作业

4. 业务应用和具体收益

  • 针对数据同步、实时报表等 long-running 作业,智能化调整节约资源超过 50%

  • 针对广告模型等对断流极其敏感的业务,解决了资源变更带来的断流问题,SLA 做到 99.99%

  • 全自动化的资源调整,节约人力成本 30+%

5. 经验总结和未来展望

  • 经验:垂直伸缩的零断流有一定局限性,需要配合水平伸缩的高扩展性,才能最大程度保障用户的 SLA

  • 展望:在准确性、实时性、鲁棒性等方面继续提升弹性伸缩的体验


您认为,这样的技术在实践过程中有哪些痛点?

垂直伸缩虽然能做到零断流,但是受限于单台机器的总资源,这时可以 Fall back 到水平伸缩(大量优化),这也是我们构建综合平台的能力之一


演讲亮点

  • 业内首家实现实时计算零断流的垂直伸缩

  • 业内首家利用 AI 模型预测的弹性平台


听众收益

  • 了解腾讯实时计算的前沿技术

  • 了解云上弹性伸缩的技术架构

  • 为降本增效、智能运维提供解决方案


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-04 14:007145

评论

发布
暂无评论

跨越DDD从理论到工程落地的鸿沟

华为云开发者联盟

DDD 业务逻辑 领域模型 设计思想 业务治理

java高级用法之:无所不能的java,本地方法调用实况

程序那些事

Java Netty 程序那些事 3月月更

CompusAss校园社团小程序解决方案

CC同学

业内首家!百度智能云智慧金融业务通过ISO37301合规管理体系认证

百度大脑

AI人脸识别测温一体机设计

DS小龙哥

3月月更

全国人大代表建议:成立国家级“元宇宙”研发机构

CECBC

Hoo虎符研究院|区块链简报20220307期

区块链前沿News

Hoo 虎符交易所 虎符研究院

springsecurity默认用户生成

急需上岸的小谢

appsmith 怎么用?评价如何

蒋川

appsmith

如何在 Vue 中使用 Chart.js - 手把手教你搭可视化数据图表

蒋川

Vue PDF pdf阅读器

Method-Swizzling 方法交换

CRMEB

社区人物志|缪翎:见证开源世界的女性力量

ApacheDoris

大数据 开源 数据分析 OLAP apache doris

「架构实战营」模块四作业 考试试卷存储方案

hxb

「架构实战营」

Android TabLayout 选中 tab 文字加粗显示

逆锋起笔

android 3月月更 TabLayout android滑动标签

Dubbo服务如何优雅的校验参数

vivo互联网技术

dubbo 服务器 java;

《大饼卷一切》爆笑相声剧 今晚开票!

InfoQ 天津

假如让你来设计SSL/TLS协议,你要怎么设计呢?

华为云开发者联盟

网络安全 HTTP 通信 SSL/TLS 协议 网络通信安全

普通索引和唯一索引,难道还分不清

华为云开发者联盟

MySQL 数据库 索引 唯一索引 普通索引

Flutter 容器盒子布局模型

岛上码农

flutter ios 安卓 移动端开发 3月月更

安全代码审计-PHP

网络安全学海

网络安全 信息安全 渗透测试 漏洞 代码审计

关于中国芯片,这些话如鲠在喉

脑极体

python 编辑器提示 do not use bare except

AlwaysBeta

Python vscode 编辑器 pycharm Python PEP

selenium操作元素遇到的异常

红毛丹

selenium

如何避免在面试中看走眼

Hockor

个人成长 面试经验

12 款最棒 Vue 开源 UI 库测评 - 特别针对国内使用场景推荐

蒋川

Vue vue admin

免费硬件、专属导师、豪华大礼|AI达人创造营第二期项目征集启动啦!

百度大脑

React Draggable 实现拖拽 - 最详细中文教程 - 卡拉云

蒋川

React

微服务工程中,基础组件应用

架构 分布式 微服务

惨,给Go提的代码被批麻了

捉虫大师

Go 开源 Code Review

高精度轻量级目标检测产业应用,实现多类通信塔识别

百度大脑

腾讯实时资源弹性伸缩的前沿探索与实践 | QCon北京_云计算_QCon全球软件开发大会_InfoQ精选文章