写点什么

Uber 的云旅程:在 x86 世界中拥抱 ARM

作者:Claudio Masolo

  • 2025-03-25
    北京
  • 本文字数:1417 字

    阅读完需:约 5 分钟

Uber 的云旅程:在 x86 世界中拥抱 ARM

2023 年 2 月,Uber 开始从本地数据中心战略性地迁移到 Oracle 云基础设施(OCI)和 Google 云平台。此次迁移的一个关键环节是将基于 ARM 的计算机集成到以 x86 为主的集群中,以降低成本、提高性价比,并在供应链不稳定的情况下确保硬件灵活性。


x86 和 ARM 架构代表了处理器设计中的两种完全不同的理念,它们的区别奠定了数十年来的计算产业格局。x86 处理器通常为计算密集型任务提供更高的峰值性能,但消耗更多电量,这使得它们在电源插座随时可用的台式机和服务器领域占据主导地位;与此同时,ARM 处理器在能效方面表现出色,提供更好的每瓦性能比,使其成为移动设备、嵌入式系统以及日益注重功耗的数据中心的首选架构。


多架构集成面临的挑战不仅在于部署新的硬件。对于 Uber 的基础设施团队来说,这意味着重新看待多年来完全基于 x86 的基础系统。这一历程也显示出架构假设可以深度渗透到技术栈的每一层中。


此次转变的基础是 Oracle Cloud Infrastructure 对 Ampere Computing 的 ARM 处理器的战略性引入。这些芯片提供了卓越的能效——这是 ARM 在移动领域的最显著优势,现已扩展到数据中心环境。对于云提供商来说,这意味着大幅节省电力和提高计算密度,从而降低能源成本和物理占用空间要求。


对于 Uber 来说,这些优势与其可持续发展目标完美契合。随着公司努力实现零排放,采用节能计算基础设施是在减少环境影响的同时改善成本结构的重要一步。


整个转换过程从主机级的准备工作开始——创建包含操作系统、内核和基本基础设施组件的 ARM 兼容镜像。主机启动后,团队开始着手构建各种管道,找出了复杂的 Web 依赖关系。Uber 的容器系统依赖于 Makisu,这是一种针对 x86 优化的工具,无法针对 ARM 进行交叉编译。



为容器镜像构建管道


团队没有重写 5,000 多个服务构建流程,而是采用了一种巧妙的引导方法。他们利用 Google Bazel 构建了 Makisu 本身的 ARM 版本,然后就可以原生构建其他服务了。这个看似简单的任务暴露了一种循环依赖关系:Makisu 在 Buildkite 上运行,而 Buildkite 在 Uber 的 Odin 平台上运行,Odin 平台又依赖主机代理——所有这些都是用 Makisu 构建的。


打破这种循环依赖关系需要使用 Bazel 的多架构特性有条不紊地重建每一层。团队从主机代理开始,然后重建 Odin 的组件,接着是 Buildkite,最后是 Makisu。这个基础启用了分布式构建管道,可以生成统一的多架构容器镜像。


虽然这种方法使构建成本翻倍(每周有超过 400,000 个容器构建),但从经济角度来看,采用 ARM 仍然是有利可图的。分布式构建系统还提供了一个关键优势:它支持逐步、受控的迁移,而不是全有或全无的方法。


部署系统需要类似的增强。Uber 实施了针对架构的放置约束和自动回退机制,如果出现兼容性问题,这些机制将恢复到 x86。这些保护措施让团队可以逐步迁移服务,同时保持生产可靠性。


成功部署他们的第一批基于 ARM 的服务标志着一个技术里程碑,证明了多架构基础设施可以在 Uber 的规模下正常工作。然而,从最初的成功到迁移数千个服务的过程还需要额外的策略和工具。


随着云提供商扩展其处理器架构选项,Uber 和 Bitmovin 等组织展示了将各种计算架构整合到大型基础设施系统中的挑战和潜在好处。Bitmovin 将其编码服务完全迁移到 ARM 处理器的历程,以及 Uber 的经验,为企业如何在大规模范围内应对架构异构性提供了宝贵的见解。


原文链接:

Uber’s Cloud Journey: Embracing ARM in an x86 World(https://www.infoq.com/news/2025/02/uber-arm-cloud/)

2025-03-25 08:00103

评论

发布
暂无评论

一个CURD三年的Java程序员刷完这份《阿里面试指南(恒山版)》

Java 程序员 后端

【数据结构 Java 版】玩转顺序表

Java 程序员 后端

【数据结构与算法 11】常见的7种排序算法

Java 程序员 后端

【设计模式系列17】中介者模式原理及其在JDK源码中的体现

Java 程序员 后端

【死磕JVM】什么是JVM调优?

Java 程序员 后端

JDK16的新特性

程序那些事

Java 程序那些事 java16 11月日更 JDK16

【源码分析设计模式 10】SpringMVC中的适配器模式

Java 程序员 后端

【程序人生】为什么Java开发人员在简历上不敢轻易写精通Java(1)

Java 程序员 后端

一周4大厂Java开发岗面试日记(已拿offer)

Java 程序员 后端

Java程序媛的秋招历程(附字节,阿里,百度,网易,美团等面经)

Java spring 程序员 面试 大厂

【源码分析设计模式 9】SpringIOC中的模板方法模式

Java 程序员 后端

【设计模式系列24】GoF23种设计模式总结及软件设计7大原则

Java 程序员 后端

【面试准备】Spring框架面试题

Java 程序员 后端

存储大师班 | 浅谈 RDMA 与无损网络

QingStor分布式存储

网络 分布式存储

基于etcd实现大规模服务治理应用实战

百度Geek说

百度 架构 后端 etcd 服务治理

【数据库实验】《小型MIS的开发》

Java 程序员 后端

【消息队列最佳实践】消息恰好被消费一次(1)

Java 程序员 后端

外包学生管理系统详细架构设计

stars

架构训练营

《黑客之道》-- 网络安全之利用0day双杀-java环境-宏感染渗透

学神来啦

网络安全 漏洞 渗透 kali

【备战秋招冲击大厂】Java面试题系列—数据库

Java 程序员 后端

音频 AI 算法在 RTC 中的实践

网易云信

人工智能 算法 音视频

【玩转Linux】史上最详细的Linux命令大全和线上问题排查手册

Java 程序员 后端

一个简单的字符串,为什么-Redis-要设计的如此特别?

Java 程序员 后端

【消息队列最佳实践】消息恰好被消费一次

Java 程序员 后端

【程序人生】为什么Java开发人员在简历上不敢轻易写精通Java

Java 程序员 后端

【设计模式系列14】组合模式及其在JDK和MyBatis源码中的运用

Java 程序员 后端

做云原生时代标准化工具,实现高效云上研发工作流

CODING DevOps

云原生 研发管理工具 CODING

一个SpringBoot问题就干趴下了?我却凭着这份PDF文档吊打面试官

Java 程序员 后端

【大厂技术内幕】字节跳动原来是这么做数据迁移的!

Java 程序员 后端

【并发编程】Thread类的详细介绍

Java 程序员 后端

【并发编程系列3】volatile内存屏障及实现原理分析(JMM和MESI)

Java 程序员 后端

Uber 的云旅程:在 x86 世界中拥抱 ARM_云计算_InfoQ精选文章