写点什么

腾讯实时资源弹性伸缩的前沿探索与实践 | QCon 北京

  • 2025-04-04
    北京
  • 本文字数:1613 字

    阅读完需:约 5 分钟

大小:864.04K时长:04:54
腾讯实时资源弹性伸缩的前沿探索与实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


腾讯实时计算引擎负责人刘建刚已确认出席并发表题为《腾讯实时资源弹性伸缩的前沿探索与实践》的主题分享,从腾讯的实际业务场景(实时报表、实时活动、视频直播等)出发,展开介绍腾讯实时计算团队在探索出一套垂直伸缩与水平伸缩相融合的云上资源管理方案方面所做的工作。其中,垂直伸缩可以原地变更 CPU 和内存,做到业内首家实时计算零断流;水平伸缩可以做到秒级扩缩容,配合垂直伸缩实现统一的弹性伸缩服务。为了达到高精准的预测效果,弹性伸缩还融合了 AI 模型算法,做到了智能化的自动调整。


刘建刚目前在腾讯数据平台部,负责实时计算引擎的架构设计和技术规划,落地了弹性伸缩、存算分离等核心技术,为业内首家在云上的大规模实践。早前曾就职于快手,负责实时计算的架构设计和大规模落地,主导了 2020 年快手 & 央视春晚的实时链路,实现多项 streaming runtime adaption 功能做到业界领先。再早之前在百度基础架构部任职,参与了 Matrix 在离线混部的开发工作,主要负责在线服务 Solaria 的设计和开发。他在本次会议的详细演讲内容如下:


演讲提纲

1. 背景

  • 介绍业务核心高 SLA 要求、资源管理困难的两大痛点,业内通用的作业全局重启方式无法满足用户的需求

2. 实时计算弹性伸缩的实现

  • 垂直伸缩,联动 Flink 内核、K8s 和 JDK,实现资源的原地变更,做到业内首家实时计算零断流,更能实现 Pod 资源的个性化配置、做到千 Pod 千面

  • 水平伸缩,通过热更新和资源预申请实现秒级扩缩容,同时引入快照机制保障数据的 exactly-once

  • 资源全托管,融合垂直 &水平伸缩,实现用户作业全生命周期的资源托管,包括提交、运行、升级、故障等场景,做到作业资源利用率超过 90% 的同时也保障秒级延迟

3. 模型算法的高精准预测

  • 相比业内普遍的 Reactive 模式,通过对未来的精准预测来实现 Proactive 模式

  • 预测算法创新性地引入模型训练,通过时间序列和特征工程的优化,将线上预测误差降到 10% 以内

  • 异常情况下,通过健康检测、实时调控、资源抢占等方式快速恢复作业

4. 业务应用和具体收益

  • 针对数据同步、实时报表等 long-running 作业,智能化调整节约资源超过 50%

  • 针对广告模型等对断流极其敏感的业务,解决了资源变更带来的断流问题,SLA 做到 99.99%

  • 全自动化的资源调整,节约人力成本 30+%

5. 经验总结和未来展望

  • 经验:垂直伸缩的零断流有一定局限性,需要配合水平伸缩的高扩展性,才能最大程度保障用户的 SLA

  • 展望:在准确性、实时性、鲁棒性等方面继续提升弹性伸缩的体验


您认为,这样的技术在实践过程中有哪些痛点?

垂直伸缩虽然能做到零断流,但是受限于单台机器的总资源,这时可以 Fall back 到水平伸缩(大量优化),这也是我们构建综合平台的能力之一


演讲亮点

  • 业内首家实现实时计算零断流的垂直伸缩

  • 业内首家利用 AI 模型预测的弹性平台


听众收益

  • 了解腾讯实时计算的前沿技术

  • 了解云上弹性伸缩的技术架构

  • 为降本增效、智能运维提供解决方案


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-04-04 14:007038

评论

发布
暂无评论

研发提效:想快速定制一个OLAP应用?你可以这么做!

京东零售技术

架构 后端 研发提效 企业号 6 月 PK 榜

API接口测试指南:确保接口稳定性与可靠性的实践

Noah

Web3.0区块链技术开发方案丨NFT项目开发

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

探索API主导的最佳AI创业项目商业模式

幂简集成

AI 商业模式 API

Web3.0区块链技术开发方案丨dapp项目模式制度开发

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

利用Python调用KimiGPT API接口

我再BUG界嘎嘎乱杀

Python 后端 开发语言 GPT

对象业务的追加写接口

不在线第一只蜗牛

对象 业务开发

卡塔尔央行启动CBDC项目 5月Solana区块链上创建近五十万种代币

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

Web3.0区块链技术开发方案丨ICO与IDO代币开发

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

你还不懂区块链就out了

web3区块链创业团队DappNetWork

Web3.0区块链技术开发方案丨2D3D多类型链游开发

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

Web3.0区块链技术开发方案丨中心化与去中心化交易所开发

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

低代码平台:国内十大低代码开发平台排名

优秀

低代码 低代码平台

生成式 AI 码力全开,动手搭建未来商城

亚马逊云科技 (Amazon Web Services)

Serverless

面试官:说说Netty对象池的实现原理?

王磊

Java

豆瓣评分9.6!有趣又实用的典范,Python小白应该人手一份!

我再BUG界嘎嘎乱杀

Python 编程 入门 开发语言 零基础

软件测试学习笔记丨Flask操作数据库-数据增删改查

测试人

软件测试

腾讯实时资源弹性伸缩的前沿探索与实践 | QCon北京_云计算_QCon全球软件开发大会_InfoQ精选文章