#阿里云 #飞天发布时刻 正在直播!中企出海的「技术引擎」来了! 了解详情
写点什么

Gödel:字节跳动在离线混部统一调度系统

  • 2023-12-07
    北京
  • 本文字数:785 字

    阅读完需:约 3 分钟

Gödel:字节跳动在离线混部统一调度系统

2023 年 10 月 30 日至 11 月 1 日,SoCC 2023 将在美国加州 Santa Cruz 举行。字节跳动基础架构-编排调度团队的研究成果被 SoCC 2023 接收,并受邀进行现场报告。


SoCC 会议全称 Annual ACM Symposium on Cloud Computing,是云计算领域顶级会议之一,同时也是 ACM 所有会议当中唯一一个同时被 SIGMOD 和 SIGOPS 赞助的顶会,代表了当前云计算领域在学术界、工业界和开源社区的前沿水平。


SoCC 会议伴随着云计算的兴起而成立,至今已经举办到第 14 届。该会议每年吸引全球顶级研究机构和知名大公司投稿,对系统创新性、完整性、和有效性等方面都要求很高。今年,会议论文的接收率只有 30%。


Gödel: Unified Large-Scale Resource Management and Scheduling at ByteDance


Gödel 是字节跳动基础架构-编排调度团队自主研发、面向大规模云原生基础设施管理的在离线统一调度系统。


字节跳动旗下业务线在过去几年的飞速发展中对计算资源的需求与日俱增,在数据中心的不断膨胀和对计算资源的差异化需求中,原生的 Kubernetes 调度器对于各种在离线业务负载统一托管、资源统一运营都带来了一系列挑战。


在此背景下,Gödel 调度系统应运而生。和 Kubernetes 原生调度器相比,Gödel 能同时在一套集群环境支持各类在离线、机器学习负载混合调度,同时具有高吞吐(up to 10X)、高弹性(sub-minute 资源流转)、高资源利用率(up to 60%)等特点,更好地满足了字节各业务间混合部署、资源并池等部署要求。在满足各形态业务负载 SLA 要求的同时,为计算集群资源统一运营提供了通用平台,进而提高了字节数据中心的资源利用率和任务灵活性,达到降本增效的目的。



Gödel 论文与现场报告将于 10 月底正式亮相 SoCC 2023。届时,字节跳动基础架构团队也将发布该论文的对应解读文章,欢迎持续关注。


目前,字节跳动在离线混部的另一核心组件——资源管控系统 Katalyst 已开源,点击了解社区【编程挑战】!



2023-12-07 11:421473
用户头像

发布了 21 篇内容, 共 11.0 次阅读, 收获喜欢 13 次。

关注

评论

发布
暂无评论
发现更多内容

如何给 CloudWeGo 做贡献

baiyutang

golang 微服务 11月日更

Prometheus Exporter (一)Node Exporter

耳东@Erdong

Linux Prometheus exporter 11月日更 Node Exporter

Go语言,语法糖规则,可别掉入陷阱

微客鸟窝

Go 语言 11月日更

如何优雅的获取 Mac OS 系统 IP 地址?

liuzhen007

11月日更

在线等差数列项生成器

入门小站

工具

云迹科技林小俊:商业服务机器人如何破局“低价+同质化”?

朋湖网

.NET6新东西--隐式命名空间引用

喵叔

11月日更

助力政企自动化自然生长,华为WeAutomate RPA是怎么做到的?

王吉伟频道

华为 RPA WeAutomate 政企 超自动化

OceanBase 监控工具 OBAgent

OceanBase 数据库

数据库 开源 学习方法 分布式 oceanbase

[Pulsar] 使用Proxy进行认证和鉴权

Zike Yang

Apache Pulsar 11月日更

Moment.js 如何使用 Epoch Time 来构造对象

HoneyMoose

零拷贝原理的文章网上满天飞,但你知道如何使用零拷贝吗?

中间件兴趣圈

Netty 零拷贝 11月日更

NodeJs深入浅出之旅:文件系统

空城机

大前端 Node 11月日更

Mysql事务的实现原理之Redo Log的分析

卢卡多多

Redo Log 11月日更

Apache Pulsar 与 Kafka 性能比较:延迟性(测试过程)

Apache Pulsar

kafka 分布式 云原生 消息中间件 Apache Pulsar 消息系统

模块三-架构详细文档

🌾🌾🌾小麦🌾🌾🌾

架构实战营

【LeetCode】K 个一组翻转链表Java题解

Albert

算法 LeetCode 11月日更

2021最新Apache漏洞分析

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

元宇宙和当今最活跃的三家元宇宙平台

devpoint

以太坊 元宇宙 11月日更

linux之抓包神器tcpdump

入门小站

Linux

如何使用 MySQL 慢查询日志进行性能优化 - Profiling、mysqldumpslow 实例详解

蒋川

MySQL 数据库 MariaDB 慢查询

Apache Pulsar 与 Kafka 性能比较:延迟性(测试结果)

Apache Pulsar

kafka 云原生 Apache Pulsar 消息 延迟性

javaScript基础篇之数组是怎样锻炼你的逻辑能力

你好bk

JavaScript 大前端 数组 数组合并

开源数据库OceanBase源码解读(九):tableAPI和OB多模型

OceanBase 数据库

数据库 开源 oceanbase

0718作业:Hadoop RPC

arctec

0919作业:HyperLogLog算法在Presto的应用

arctec

回收与价值赋能:动力电池的“退休”之旅

脑极体

AlmaLinux安装OpenVINO

IT蜗壳-Tango

IT蜗壳 OpenVINO 11月日更

JavaScript 的 parseInt() 函数

HoneyMoose

Moment.js 如何获得当前时间的零时时间

HoneyMoose

0711作业:MapReduce 编程作业

arctec

Gödel:字节跳动在离线混部统一调度系统_云计算_字节跳动云原生_InfoQ精选文章