写点什么

腾讯实时资源弹性伸缩的前沿探索与实践 | QCon 北京

  • 2025-04-04
    北京
  • 本文字数:1613 字

    阅读完需:约 5 分钟

大小:864.04K时长:04:54
腾讯实时资源弹性伸缩的前沿探索与实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


腾讯实时计算引擎负责人刘建刚已确认出席并发表题为《腾讯实时资源弹性伸缩的前沿探索与实践》的主题分享,从腾讯的实际业务场景(实时报表、实时活动、视频直播等)出发,展开介绍腾讯实时计算团队在探索出一套垂直伸缩与水平伸缩相融合的云上资源管理方案方面所做的工作。其中,垂直伸缩可以原地变更 CPU 和内存,做到业内首家实时计算零断流;水平伸缩可以做到秒级扩缩容,配合垂直伸缩实现统一的弹性伸缩服务。为了达到高精准的预测效果,弹性伸缩还融合了 AI 模型算法,做到了智能化的自动调整。


刘建刚目前在腾讯数据平台部,负责实时计算引擎的架构设计和技术规划,落地了弹性伸缩、存算分离等核心技术,为业内首家在云上的大规模实践。早前曾就职于快手,负责实时计算的架构设计和大规模落地,主导了 2020 年快手 & 央视春晚的实时链路,实现多项 streaming runtime adaption 功能做到业界领先。再早之前在百度基础架构部任职,参与了 Matrix 在离线混部的开发工作,主要负责在线服务 Solaria 的设计和开发。他在本次会议的详细演讲内容如下:


演讲提纲

1. 背景

  • 介绍业务核心高 SLA 要求、资源管理困难的两大痛点,业内通用的作业全局重启方式无法满足用户的需求

2. 实时计算弹性伸缩的实现

  • 垂直伸缩,联动 Flink 内核、K8s 和 JDK,实现资源的原地变更,做到业内首家实时计算零断流,更能实现 Pod 资源的个性化配置、做到千 Pod 千面

  • 水平伸缩,通过热更新和资源预申请实现秒级扩缩容,同时引入快照机制保障数据的 exactly-once

  • 资源全托管,融合垂直 &水平伸缩,实现用户作业全生命周期的资源托管,包括提交、运行、升级、故障等场景,做到作业资源利用率超过 90% 的同时也保障秒级延迟

3. 模型算法的高精准预测

  • 相比业内普遍的 Reactive 模式,通过对未来的精准预测来实现 Proactive 模式

  • 预测算法创新性地引入模型训练,通过时间序列和特征工程的优化,将线上预测误差降到 10% 以内

  • 异常情况下,通过健康检测、实时调控、资源抢占等方式快速恢复作业

4. 业务应用和具体收益

  • 针对数据同步、实时报表等 long-running 作业,智能化调整节约资源超过 50%

  • 针对广告模型等对断流极其敏感的业务,解决了资源变更带来的断流问题,SLA 做到 99.99%

  • 全自动化的资源调整,节约人力成本 30+%

5. 经验总结和未来展望

  • 经验:垂直伸缩的零断流有一定局限性,需要配合水平伸缩的高扩展性,才能最大程度保障用户的 SLA

  • 展望:在准确性、实时性、鲁棒性等方面继续提升弹性伸缩的体验


您认为,这样的技术在实践过程中有哪些痛点?

垂直伸缩虽然能做到零断流,但是受限于单台机器的总资源,这时可以 Fall back 到水平伸缩(大量优化),这也是我们构建综合平台的能力之一


演讲亮点

  • 业内首家实现实时计算零断流的垂直伸缩

  • 业内首家利用 AI 模型预测的弹性平台


听众收益

  • 了解腾讯实时计算的前沿技术

  • 了解云上弹性伸缩的技术架构

  • 为降本增效、智能运维提供解决方案


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-04 14:006508

评论

发布
暂无评论

在外包做开发3年,为了进大厂,耗时半年,整合出25W字Java全栈面试题,这就是我的决心

Java架构师迁哥

图解 JavaScript 数组方法

devpoint

ES6 array 7月日更

国内首家入驻统信系统的APaaS厂商

明道云

🐬【MySQL技术导航】常用函数介绍(1)

码界西柚

MySQL 7月日更

场景背后见真章:银行数字化转型持续深入

CECBC

快手上线本地生活榜单:自媒体平台在逐步蚕食搜索引擎市场

石头IT视角

网络安全、Web安全、渗透测试之笔经面经总结

网络安全学海

面试 网络安全 信息安全 渗透测试 漏洞分析

Linux之ln命令

入门小站

Linux

在线XML转CSV工具

入门小站

供应链、产品溯源以及区块链所面临的巨大阻碍是什么?

CECBC

oCPX简介——广告界的“无人驾驶”技术

安第斯智能云

算法

Java到底是什么?

卢卡多多

Java 入门 7月日更 Java入门

用户管理系统 - 用户权限设计从入门到精通

蒋川

后台开发 权限系统 权限管理 权限架构 用户管理

如何抓住用户体验的关键时刻?

石云升

用户体验 关键时刻 7月日更

10分钟掌握Java性能分析诀窍

安第斯智能云

Java 后端

char+char=number

喵叔

7月日更

11道高频React面试题及详解,另附有React面试题集合

前端依依

面试 大前端 React

百度智能云人脸离线识别SDK再升级,优化复杂光线识别效果,急速通行无惧暗光

百度大脑

人脸识别 百度智能云

统一预估引擎的设计与实现

安第斯智能云

算法 后端

获取微信小程序页面路径方法

一颗小树

小程序 微信开发者工具 页面路径 微信开发者

【软件测试转型自动化测试001】Python环境搭建&语法规则

程序员阿沐

Python 软件测试 自动化测试 环境搭建 语法规则

Rust从0到1-面向对象编程-概念

rust oop 面向对象编程

模型端侧加速哪家强?一文揭秘百度EasyEdge平台技术内核

百度大脑

人工智能 深度学习 百度 飞桨

下一代人工智能:逻辑理解?物理理解?

安第斯智能云

人工智能

微信朋友圈高性能复杂度分析

木云先森

架构实战营

Python OpenCV 图像的几何变换,先说不平凡的 resize 函数

梦想橡皮擦

Python 7月日更

拍乐云 X 青云科技,预见数字自由,相约 CIC 2021 云计算峰会

拍乐云Pano

微信朋友圈复杂度分析

桂阳

【架构训练营】模块二作业

zclau

云原生Web服务框架ESA Restlight

安第斯智能云

云原生

产业区块链迎来新纪元,基础设施建设成核心命题

CECBC

腾讯实时资源弹性伸缩的前沿探索与实践 | QCon北京_云计算_QCon全球软件开发大会_InfoQ精选文章