写点什么

优步使用谷歌云平台实现大数据基础设施的现代化

作者:Claudio Masolo

  • 2024-07-21
    北京
  • 本文字数:1658 字

    阅读完需:约 5 分钟

优步使用谷歌云平台实现大数据基础设施的现代化

最近,优步在其官方工程博客上发布了一篇 文章,阐述了将批数据分析和机器学习(ML)训练的技术栈迁移到 谷歌云平台(GCP) 的战略。优步运行着世界上最大的 Hadoop 装置之一,在两个区域的数万台服务器上管理着超过上艾字节(exabyte)的数据。开源数据生态系统,尤其是 Hadoop,一直是数据平台的基石。


迁移计划的战略包括两个步骤,即初始迁移和利用云原生服务。优步的初始战略包括利用 GCP 的对象存储作为数据湖存储,同时将数据技术栈的其他部分迁移到 GCP 的基础设施即服务(IaaS)上。这种方式可以实现快速迁移,并将对现有作业和流水线的影响降至最低,因为他们可以在 IaaS 上复制其内部软件栈、引擎和安全模型的对应版本。在此阶段之后,优步工程团队,计划逐步采用 GCP 的平台即服务(PaaS)产品,如 Dataproc 和 BigQuery,以充分利用云原生服务的弹性和性能优势。



迁移的范围(图片来源:优步博客)


初始迁移完成后,团队将重点集成云原生服务,以最大程度地提升数据基础设施的性能和可扩展性。这种分阶段的方式能够确保优步的用户(从仪表盘的所有者到 ML 的参与者)在不改变现有工作流或服务的情况下体验无缝迁移。


为了确保平滑和高效的迁移,优步团队制定了几项指导原则:


  1. 通过将大部分批处理数据栈原封不动地转移到云 IaaS 上,最大限度地减少使用中断;他们的目标是避免用户的人工制品或服务发生任何变化。利用众所周知的抽象和开放标准,他们努力使迁移尽可能做到透明。

  2. 他们将依赖于一个云存储连接器,该连接器实现了到谷歌云存储(Google Cloud Storage)的 Hadoop FileSystem 接口,确保了 HDFS 兼容性。通过标准化 Apache Hadoop HDFS 客户端,他们将会抽象出内部 HDFS 实现的具体细节,从而实现与 GCP 存储层的无缝集成。

  3. 优步团队为 Presto、Spark 和 Hive 开发了数据访问代理,对底层计算集群进行了抽象。这些代理将支持在测试阶段有选择性地将测试流量路由到基于云的集群,并在全面迁移阶段将查询和作业全部路由到云技术栈中。

  4. 利用优步的云中立基础设施。优步现有的容器环境、计算平台和部署工具可以在云和内部环境之间自由切换。这些平台使其能够轻松地将批数据生态系统微服务扩展到云 IaaS 上。

  5. 团队将构建和增强现有的数据管理服务,以支持已选定和已批准的云服务,确保健壮的数据治理。公司的目标是保持与内部环境相同的授权访问和安全级别,同时支持对对象存储数据湖和其他云服务的无缝用户身份验证。



迁移前和迁移后的优步批数据技术栈(图片来源:优步博客)


优步团队重点关注迁移过程中的数据桶映射和云资源布局。将 HDFS 文件和目录映射到一个或多个桶中的云对象至关重要。他们需要在不同的粒度水平上应用 IAM 策略,同时要考虑对桶和对象的限制,比如读 / 写吞吐量和 IOPS 限流。团队的目标是开发一种映射算法,以满足这些约束条件,并按照以组织为中心的层级方式组织数据资源,从而改进数据的管理。


另外一个工作方向是安全集成,调整现有的基于 Kerberos 的令牌和 Hadoop Delegation 令牌,使其适用于云 PaaS,尤其是谷歌云存储(Google Cloud Storage,GCS),这是非常重要的。这个工作方向旨在支持无缝的用户、群组和服务账户的认证与授权,并保持与内部环境一致的访问级别。


团队还关注数据复制。权限感知的双向数据复制服务 HiveSync 能够让优步以双活模式运行。他们扩展了 HiveSync 的功能,以便于将内部环境中数据湖的数据复制到基于云的数据湖和对应的 Hive Metastore 中。这包括初始的批量转移和持续的增量更新,直到基于云的技术栈成为主方案。


最后一个工作方向是在 GCP IaaS 上提供新的 YARN 和 Presto 集群。在迁移过程中,优步的数据访问代理会将查询和作业流量路由至这些基于云的集群,确保平稳迁移。


优步向谷歌云的大数据迁移将面临一些挑战,比如存储方面的性能差异和遗留系统所导致的难以预知的问题。团队计划通过使用开源工具、利用云弹性进行成本管理、将非核心用途迁移到专用存储,以及积极主动的测试集成和淘汰过时的实践来解决这些问题。


原文链接:

https://www.infoq.com/news/2024/06/uber-bigdata-migration-gcp/

2024-07-21 08:008533

评论

发布
暂无评论
发现更多内容

当DevOps落地实施撞上技术债务,如何量化债务突破困局

禅道项目管理

DevOps 软件开发 技术债务 效能管理 禅道项目管理软件

企业如何选型:业务系统带低代码更好,还是不带更好?

星云低代码中间件

低代码 企业系统

2025中国算力大会:中昊芯英自研TPU全栈能力获权威认可,获评“创新先锋案例”

科技热闻

AppsFlyer 电商 App 营销现状报告:从 iOS 买量到再营销,中国电商重塑全球投放逻辑

财见

非传统创新者奖学金:从校园“麻烦制造者”到网络安全领航者

qife122

网络安全 黑客精神

CST基础教程:如何从SYZ参数提取电容C和电感L --- 单端口

思茂信息

cst cst操作 cst电磁仿真 CST软件 CST Studio Suite

工业数字化 信息化经验总结(5)

万里无云万里天

数字化转型 信息化 工业 工厂运维

掘金AI时代计算产业红利的商业伙伴,为什么跟华为组队?

脑极体

AI

元图 CAD 插件化革命:突破效率瓶颈,重构智能协作新范式

元图CAD

插件化 场景化解决方案 元图cad 模块化赋能

当AI有了温度,三星正在重新定义生活的边界

Alter

AI

小红书商品详情API数据解析(附代码)

tbapi

小红书API 小红书数据采集 小红书商品详情API 小红书数据分析

区块链RWA系统的外包开发费

北京木奇移动技术有限公司

区块链开发 软件外包公司 RWA开发

什么是低代码平台?2025低代码平台选型指南

万界星空科技

低代码 低代码平台 mes 万界星空科技低代码平台 AI低代码MES

仓颉之编译和构建的奇妙旅程

华为云开发者联盟

编译 构建 仓颉 华为开发者空间

一看就是AI做的网页?ClaudeCode+5句提示词5分钟告别「蓝紫色」AI味儿

阿星AI工作室

AI 产品经理 AI编程 aicoding vibecoding

基于Cursor连接华为开发者空间-云开发环境,部署Dify+MaaS构建智能问答助手

华为云开发者联盟

LLM AIAgent DeepSeek 华为开发者空间 cursor

(CAPP集成CAD)网页CAD二次开发图纸表格提取功能

WEB CAD SDK

网页CAD 在线CAD WEB CAD CAD表格提取

中昊芯英亮相 CCF HPC China 2025:入选“WEC 2025 算力产业全景图”,解码国产 TPU 算力新范式

科技热闻

区块链RWA外包开发

北京木奇移动技术有限公司

区块链开发 软件外包公司 RWA开发

2025年中国楼宇对讲企业排名前十榜单

新消费日报

小红书商品列表API数据解析(附代码)

tbapi

小红书API 小红书商品列表API 小红书商品数据采集 小红书商品数据分析

爬虫新神器:基于MCP的智能体,让数据获取“一键通关”

阿Q说代码

数据分析 智能体 数据获取 MCP 亮数据

工业数字化 信息化经验总结(4)

万里无云万里天

数字化转型 信息化 工业 工厂运维

《2025年,传统企业如何低成本引入AI?》

石头哥谈架构

在AI技术唾手可得的时代,挖掘新需求成为创新关键——某知名向量搜索框架需求洞察

qife122

需求分析 AI技术

AI技术落地IT运维!贝锐向日葵智能审计与脚本功能提效显著

科技热闻

OpenAI杀进服装店!ChatGPT指挥RFID看店

斯科信息

ChatGPT 斯科信息 RFID技术 OpenAl RFID相控阵门禁

Playwright与PyTest结合指南

测吧(北京)科技有限公司

#人工智能

大模型那么懂你,为什么(白话篇)

石头哥谈架构

2025 年主流低代码开发平台推荐与特点分析

科技热闻

仓颉之I/O 操作的交互奥秘

华为云开发者联盟

I/O 仓颉 华为开发者空间

优步使用谷歌云平台实现大数据基础设施的现代化_Google_InfoQ精选文章