写点什么

优步针对微服务和大规模计算工作负载完成了大规模的 Kubernetes 迁移

作者:Claudio Masolo

  • 2025-05-31
    北京
  • 本文字数:1685 字

    阅读完需:约 6 分钟

大小:828.08K时长:04:42
优步针对微服务和大规模计算工作负载完成了大规模的Kubernetes迁移

优步(Uber)已成功完成一项大规模的Kubernetes迁移,将其整个计算平台从Apache Mesos迁移到Kubernetes,覆盖了多个数据中心和云环境。这家网约车巨头的工程团队在一系列技术博客文章中详细描述了他们的全面旅程,揭示了迁移数千个微服务和大规模计算工作负载时所面临的挑战、解决方案和经验教训。

 

这一迁移代表着优步基础设施架构的根本性转变,影响着全球市场上从叫车到送餐的数千项服务。该公司之前的计算平台是基于 Apache Mesos 构建的,在优步(Uber)快速增长阶段为其提供了良好的服务,但随着组织向更云原生的方式演进,它也呈现出了局限性。

 

优步的工程团队解释说:“这次迁移不仅仅是一次技术变革,而是对我们如何运营计算基础设施的彻底重新构想。”该项目历经多年,并需要在众多工程团队之间进行了仔细协调,以确保关键服务的零停机时间过渡。

 

优步对 Kubernetes 迁移的方法是有条理且存在风险规避的,优先考虑服务的可靠性而不是迁移速度。工程团队开发了一个复杂的迁移框架,允许逐步进行服务转换,同时保持与现有基于 Mesos 的服务的完全向后兼容性。

 

迁移策略围绕几个关键原则展开:

  • 在整个转换过程中保持服务的可靠性

  • 确保与现有工具和工作流程的无缝集成

  • 在新的 Kubernetes 环境中建立健壮的监控和可观测性能力。

 

该团队采用了双栈方法,在过渡期间同时在 Mesos 和 Kubernetes 上运行服务,以最大限度地降低风险。

 

最重要的技术挑战之一是如何调整优步内部广泛的工具和平台套件,使其与 Kubernetes 适配并协同工作。这包括重新实现部署管道、监控系统和与 Mesos 生态系统紧密集成的服务发现机制。

 


优步从 Mesos 迁移到 Kubernetes 的生态系统

 

除了迁移标准的微服务之外,优步还面临着迁移大规模计算工作负载的复杂性挑战,这些工作负载为包括机器学习模型训练、数据处理管道和分析工作负载在内的关键业务功能提供动力。由于资源需求和性能敏感性,对这些计算密集型应用程序提出了独特的挑战。

 

工程团队为在 Kubernetes 中处理这些工作负载开发了专门的解决方案,例如将 DSW 会话建模为 Kubernetes 中的自定义资源定义(Custom Resource Definition,CRD),优化的网络配置和增强的调度能力。优步工程师还使用 Federator 实施了复杂的资源分配机制,Federator 是一个集群联邦层,提供了对 Kubernetes 批处理集群的抽象。这因为如此,大规模批处理作业才可以与实时服务高效共存,而不会影响面向用户的应用程序。

 


使用联邦和不使用联邦的 Kubernetes 集群

 

迁移过程中并非没有重大的技术障碍。优步的工程团队遇到了与网络复杂性、大规模资源管理和在不同基础设施范式之间保持性能基准相关的挑战。该公司的全球业务对此增加了额外的复杂性,需要在多个地区和云提供商之间提供一致的有效解决方案。

 

其中一个特别的挑战是,在将服务前移到新平台时,需要保持优步严格的延迟要求。团队实施了全面的性能测试和逐步的推出策略,以确保在整个迁移过程中服务质量能保持一致。

 

工程团队还必须解决文化和运营方面的挑战,包括培训数百名工程师以了解 Kubernetes 的概念,并更新开发工作流程以与云原生实践保持一致。

 

完成的迁移在多个维度上带来了实质性的好处。优步报告说称,其运营效率得到了提高,开发人员的生产力得到了增强,整个基础设施的资源利用率也得到了提高。迁移到 Kubernetes 还使公司能够更好地利用云原生技术和实践,实现了更快的创新和更灵活的部署策略。

 

新平台提供了增强的可扩展性能力,使优步能够更有效地处理流量高峰和季节性的需求变化。此外,迁移还简化了优步的基础设施管理,降低了运营开销,并使团队能够更多地专注于产品开发,而不是平台维护。

 

同样,其他大公司也将他们的核心基础设施迁移到了 Kubernetes:Figma 在 12 个月内将核心服务迁移到了 Kubernetes,或者像 CERN 这样的组织,他们将 CMSWEB 集群迁移到了 Kubernetes。这些例子以及优步成功迁移到 Kubernetes 的案例,为其他考虑类似转型的大型组织提供了宝贵的案例研究。该公司详细记录了他们的旅程,提供了对企业采用 Kubernetes 的最佳实践的洞见,特别是对于那些在显著规模上运营的组织。

 

原文链接:

https://www.infoq.com/news/2025/05/uber-kubernetes-migration/

2025-05-31 12:005459

评论

发布
暂无评论

聚焦科学智能|第412期双清论坛“AI for Science:战略与行动”在京召开

ModelWhale

科学智能 AI4S

飞书多维表格利用 Amazon Bedrock AI 能力赋能业务

亚马逊云科技 (Amazon Web Services)

比亚迪座舱接入通义大模型,未来将联合打造更多AI智能座舱场景

科技汇

华南会议|嘉宾阵容揭秘,邀您共享 2025 Altair 区域技术大会华南站

Altair RapidMiner

AI HPC 数字孪生 仿真 CAE

一文掌握 HarmonyOS5 模拟器与真机调试技巧

颜颜yan_

架构 Harmony5

当AI学会"看图说话":人类专家如何为视频描述生成器把关?

澳鹏Appen

AI 视频处理

去中心化交易所(DEX)架构:智能合约驱动与AMM算法创新

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

【HarmonyOS5】DevEco Studio 使用指南:代码阅读与编辑功能详解

颜颜yan_

HarmonyOS DevEco Studio Harmony5

【Gartner权威解答】:合格CTO必懂的开源软件十大热点问题

白鲸开源

如何将SeaTunnel MySQL-CDC与Databend 高效整合?格式与方案全解析

白鲸开源

阿里云可观测 2025 年 5 月产品动态

阿里巴巴云原生

TTS走向拟人化时代:数据堂高质量语音资源全面支撑模型升级

数据堂

人工智能 数据 语音合成 语言模型 语音数据

日志易 ELK 国产替代:自主可控+性能跃升,信创背景下的企业数字化转型优选

日志易

#日志易 #ELK #ELK国产化替代 #日志分析

HPE SPP 2025.05.00.00 - HPE 服务器固件、驱动程序和系统软件包

sysin

SPP

豆包大模型1.6发布!更强模型、更高性价比

新消费日报

从 AI Agent 到模型推理:端到端 AI 可观测实践

阿里巴巴云原生

24届软件开发-华为OD面经(Java开发岗)!

程序员高级码农

Java 程序员 面试

中心化交易所(CEX)架构:高并发撮合引擎与合规安全体系

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 代币开发 代币开发公链开发

Traefik 可观测性最佳实践

观测云

Traefik

币币/合约交易所架构:多资产支持与风控体系设计

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

使用DevEcoStudio 开发、编译鸿蒙 NEXT_APP 以及使用中文插件

飞龙AI

DevEco Studio HarmonyOS NEXT

观测云,全球领先的监控观测平台亮相亚马逊云科技中国峰会!

观测云

观测云

中东AI迷雾里的中美棋局

脑极体

AI

超实用!手把手教你Dify版本升级

王磊

什么是低代码(Low Code)?低代码平台的组成要素包含有哪些?

优秀

低代码 低代码开发 低代码平台

让通义灵码越用越懂你?使用记忆功能,打造你的专属编程搭档

阿里云云效

通义灵码

【生产实践】Dolphinscheduler集群部署后Web控制台不能登录的问题解决了!

白鲸开源

开源 大数据任务调度 部署 Apache DolphinScheduler

融云开源 MCP Server,让大模型轻松调用 IM 能力

融云 RongCloud

技术解读:国内外RPA产品技术特点及财务应用实现

Techinsight

RPA RPAxAI RPA Agent

2025 必知!市面上那些超好用的 AI Agent,你用过几个?

Techinsight

AI+ AI 图像生成 +AI

真金白银扶持新质商家,拼多多在为下一个十年布局

Alter

优步针对微服务和大规模计算工作负载完成了大规模的Kubernetes迁移_云计算_InfoQ精选文章