AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

优步针对微服务和大规模计算工作负载完成了大规模的 Kubernetes 迁移

作者:Claudio Masolo

  • 2025-05-31
    北京
  • 本文字数:1685 字

    阅读完需:约 6 分钟

大小:828.08K时长:04:42
优步针对微服务和大规模计算工作负载完成了大规模的Kubernetes迁移

优步(Uber)已成功完成一项大规模的Kubernetes迁移,将其整个计算平台从Apache Mesos迁移到Kubernetes,覆盖了多个数据中心和云环境。这家网约车巨头的工程团队在一系列技术博客文章中详细描述了他们的全面旅程,揭示了迁移数千个微服务和大规模计算工作负载时所面临的挑战、解决方案和经验教训。

 

这一迁移代表着优步基础设施架构的根本性转变,影响着全球市场上从叫车到送餐的数千项服务。该公司之前的计算平台是基于 Apache Mesos 构建的,在优步(Uber)快速增长阶段为其提供了良好的服务,但随着组织向更云原生的方式演进,它也呈现出了局限性。

 

优步的工程团队解释说:“这次迁移不仅仅是一次技术变革,而是对我们如何运营计算基础设施的彻底重新构想。”该项目历经多年,并需要在众多工程团队之间进行了仔细协调,以确保关键服务的零停机时间过渡。

 

优步对 Kubernetes 迁移的方法是有条理且存在风险规避的,优先考虑服务的可靠性而不是迁移速度。工程团队开发了一个复杂的迁移框架,允许逐步进行服务转换,同时保持与现有基于 Mesos 的服务的完全向后兼容性。

 

迁移策略围绕几个关键原则展开:

  • 在整个转换过程中保持服务的可靠性

  • 确保与现有工具和工作流程的无缝集成

  • 在新的 Kubernetes 环境中建立健壮的监控和可观测性能力。

 

该团队采用了双栈方法,在过渡期间同时在 Mesos 和 Kubernetes 上运行服务,以最大限度地降低风险。

 

最重要的技术挑战之一是如何调整优步内部广泛的工具和平台套件,使其与 Kubernetes 适配并协同工作。这包括重新实现部署管道、监控系统和与 Mesos 生态系统紧密集成的服务发现机制。

 


优步从 Mesos 迁移到 Kubernetes 的生态系统

 

除了迁移标准的微服务之外,优步还面临着迁移大规模计算工作负载的复杂性挑战,这些工作负载为包括机器学习模型训练、数据处理管道和分析工作负载在内的关键业务功能提供动力。由于资源需求和性能敏感性,对这些计算密集型应用程序提出了独特的挑战。

 

工程团队为在 Kubernetes 中处理这些工作负载开发了专门的解决方案,例如将 DSW 会话建模为 Kubernetes 中的自定义资源定义(Custom Resource Definition,CRD),优化的网络配置和增强的调度能力。优步工程师还使用 Federator 实施了复杂的资源分配机制,Federator 是一个集群联邦层,提供了对 Kubernetes 批处理集群的抽象。这因为如此,大规模批处理作业才可以与实时服务高效共存,而不会影响面向用户的应用程序。

 


使用联邦和不使用联邦的 Kubernetes 集群

 

迁移过程中并非没有重大的技术障碍。优步的工程团队遇到了与网络复杂性、大规模资源管理和在不同基础设施范式之间保持性能基准相关的挑战。该公司的全球业务对此增加了额外的复杂性,需要在多个地区和云提供商之间提供一致的有效解决方案。

 

其中一个特别的挑战是,在将服务前移到新平台时,需要保持优步严格的延迟要求。团队实施了全面的性能测试和逐步的推出策略,以确保在整个迁移过程中服务质量能保持一致。

 

工程团队还必须解决文化和运营方面的挑战,包括培训数百名工程师以了解 Kubernetes 的概念,并更新开发工作流程以与云原生实践保持一致。

 

完成的迁移在多个维度上带来了实质性的好处。优步报告说称,其运营效率得到了提高,开发人员的生产力得到了增强,整个基础设施的资源利用率也得到了提高。迁移到 Kubernetes 还使公司能够更好地利用云原生技术和实践,实现了更快的创新和更灵活的部署策略。

 

新平台提供了增强的可扩展性能力,使优步能够更有效地处理流量高峰和季节性的需求变化。此外,迁移还简化了优步的基础设施管理,降低了运营开销,并使团队能够更多地专注于产品开发,而不是平台维护。

 

同样,其他大公司也将他们的核心基础设施迁移到了 Kubernetes:Figma 在 12 个月内将核心服务迁移到了 Kubernetes,或者像 CERN 这样的组织,他们将 CMSWEB 集群迁移到了 Kubernetes。这些例子以及优步成功迁移到 Kubernetes 的案例,为其他考虑类似转型的大型组织提供了宝贵的案例研究。该公司详细记录了他们的旅程,提供了对企业采用 Kubernetes 的最佳实践的洞见,特别是对于那些在显著规模上运营的组织。

 

原文链接:

https://www.infoq.com/news/2025/05/uber-kubernetes-migration/

2025-05-31 12:005408

评论

发布
暂无评论

专有云运维如何更快、更准、更稳?丨智能运维

百度大脑

人工智能

金融小程序风险如何控制,WeTest小程序质量专项方案一步到位

WeTest

「干货分享」如何做好应急响应工作?常见应急响应流程

H

网络安全 应急响应

LabVIEW实现PCB电路板坐标定位(实战篇—2)

不脱发的程序猿

机器视觉 图像处理 LabVIEW PCB电路板坐标定位

InfoQ写作平台|Python板块试运行

IT蜗壳-Tango

InfoQ-Python板块

一周信创舆情观察(1.4~1.9)

统小信uos

龙蜥利器:系统运维工具 SysAK的云上应用性能诊断 | 龙蜥技术

OpenAnolis小助手

开源 运维

2022中国低代码十大发展趋势,市场规模预计达42.6亿

J2PaaS低代码平台

低代码 低代码开发 J2PaaS

酒店资产管理系统解决方案

低代码小观

CRM 企业管理系统 CRM系统 企业管理工具 企业管理软件

实时音视频入门学习:开源工程WebRTC的技术原理和使用浅析

JackJiang

音视频 WebRTC IM 即时通讯IM

Tengine + BabaSSL ,让国密更易用!

SOFAStack

密码学 tengine 国密 BABASSL

时空大数据 AI 研究院在京成立,助推时空产业高质量发展

百度大脑

人工智能

微软Office新增实用功能允许用户在不同设备上轻松送同步字体

淋雨

Flink 在字节跳动数据流的实践

字节跳动数据平台

大数据 flink 字节跳动 埋点 数据流

不优雅的 React Hooks

CRMEB

关于A股投资--《香帅中国财富报告》摘录(3/100)

hackstoic

投资

到底什么是云?其实云计算从业者也不懂!

Geek_f56666

云计算

元宇宙时代:银行如何探索数字化转型

CECBC

2022 起始篇

万万

不是私密链接,如何继续前往?

BUG侦探

https HSTS 劫持

JuiceFS 即将发布 1.0 并调整开源许可

Juicedata

开源 文件系统 云存储

重磅功能!Apache APISIX 拥抱 WASM 生态

API7.ai 技术团队

开源 云原生 Wasm Apache APISIX

一个cpp协程库的前世今生(十七)带时限的锁

SkyFire

c++ cocpp

用 SwiftUI 实现一个开源的 App Store

37手游iOS技术运营团队

swift appstore SwiftUI App榜单 App免费榜

组件发布效率提升15倍是怎么做到的——基于 Gradle 调度机制深度研究与优化

字节跳动终端技术

字节跳动 Gradle Andriod

金融云原生漫谈(五)|如何打造更适合云原生的数据存储方案?

York

云原生 数据存储

VuePress 博客优化之开启 HTTPS

冴羽

Vue 前端 博客 vuepress 博客搭建

Cloudera的企业数据云

郭华

云计算 大数据 数据仓库 云原生

ORTC与SIP融合通信服务架构

安第斯智能云

音视频 RTC 流媒体

百度智能云以“3D+AI”技术,助力“三亿人上冰雪”

百度开发者中心

人工智能

Go语言gorm框架MySQL实践

FunTester

Go MySQL gorm FunTester

优步针对微服务和大规模计算工作负载完成了大规模的Kubernetes迁移_云计算_InfoQ精选文章