智能体刷屏的背后,是 AI 应用拐点的来临?AICon 北京站议程重磅公布,50+ 硬核分享不容错过 了解详情
写点什么

优步使用谷歌云平台实现大数据基础设施的现代化

作者:Claudio Masolo

  • 2024-07-21
    北京
  • 本文字数:1658 字

    阅读完需:约 5 分钟

优步使用谷歌云平台实现大数据基础设施的现代化

最近,优步在其官方工程博客上发布了一篇 文章,阐述了将批数据分析和机器学习(ML)训练的技术栈迁移到 谷歌云平台(GCP) 的战略。优步运行着世界上最大的 Hadoop 装置之一,在两个区域的数万台服务器上管理着超过上艾字节(exabyte)的数据。开源数据生态系统,尤其是 Hadoop,一直是数据平台的基石。


迁移计划的战略包括两个步骤,即初始迁移和利用云原生服务。优步的初始战略包括利用 GCP 的对象存储作为数据湖存储,同时将数据技术栈的其他部分迁移到 GCP 的基础设施即服务(IaaS)上。这种方式可以实现快速迁移,并将对现有作业和流水线的影响降至最低,因为他们可以在 IaaS 上复制其内部软件栈、引擎和安全模型的对应版本。在此阶段之后,优步工程团队,计划逐步采用 GCP 的平台即服务(PaaS)产品,如 Dataproc 和 BigQuery,以充分利用云原生服务的弹性和性能优势。



迁移的范围(图片来源:优步博客)


初始迁移完成后,团队将重点集成云原生服务,以最大程度地提升数据基础设施的性能和可扩展性。这种分阶段的方式能够确保优步的用户(从仪表盘的所有者到 ML 的参与者)在不改变现有工作流或服务的情况下体验无缝迁移。


为了确保平滑和高效的迁移,优步团队制定了几项指导原则:


  1. 通过将大部分批处理数据栈原封不动地转移到云 IaaS 上,最大限度地减少使用中断;他们的目标是避免用户的人工制品或服务发生任何变化。利用众所周知的抽象和开放标准,他们努力使迁移尽可能做到透明。

  2. 他们将依赖于一个云存储连接器,该连接器实现了到谷歌云存储(Google Cloud Storage)的 Hadoop FileSystem 接口,确保了 HDFS 兼容性。通过标准化 Apache Hadoop HDFS 客户端,他们将会抽象出内部 HDFS 实现的具体细节,从而实现与 GCP 存储层的无缝集成。

  3. 优步团队为 Presto、Spark 和 Hive 开发了数据访问代理,对底层计算集群进行了抽象。这些代理将支持在测试阶段有选择性地将测试流量路由到基于云的集群,并在全面迁移阶段将查询和作业全部路由到云技术栈中。

  4. 利用优步的云中立基础设施。优步现有的容器环境、计算平台和部署工具可以在云和内部环境之间自由切换。这些平台使其能够轻松地将批数据生态系统微服务扩展到云 IaaS 上。

  5. 团队将构建和增强现有的数据管理服务,以支持已选定和已批准的云服务,确保健壮的数据治理。公司的目标是保持与内部环境相同的授权访问和安全级别,同时支持对对象存储数据湖和其他云服务的无缝用户身份验证。



迁移前和迁移后的优步批数据技术栈(图片来源:优步博客)


优步团队重点关注迁移过程中的数据桶映射和云资源布局。将 HDFS 文件和目录映射到一个或多个桶中的云对象至关重要。他们需要在不同的粒度水平上应用 IAM 策略,同时要考虑对桶和对象的限制,比如读 / 写吞吐量和 IOPS 限流。团队的目标是开发一种映射算法,以满足这些约束条件,并按照以组织为中心的层级方式组织数据资源,从而改进数据的管理。


另外一个工作方向是安全集成,调整现有的基于 Kerberos 的令牌和 Hadoop Delegation 令牌,使其适用于云 PaaS,尤其是谷歌云存储(Google Cloud Storage,GCS),这是非常重要的。这个工作方向旨在支持无缝的用户、群组和服务账户的认证与授权,并保持与内部环境一致的访问级别。


团队还关注数据复制。权限感知的双向数据复制服务 HiveSync 能够让优步以双活模式运行。他们扩展了 HiveSync 的功能,以便于将内部环境中数据湖的数据复制到基于云的数据湖和对应的 Hive Metastore 中。这包括初始的批量转移和持续的增量更新,直到基于云的技术栈成为主方案。


最后一个工作方向是在 GCP IaaS 上提供新的 YARN 和 Presto 集群。在迁移过程中,优步的数据访问代理会将查询和作业流量路由至这些基于云的集群,确保平稳迁移。


优步向谷歌云的大数据迁移将面临一些挑战,比如存储方面的性能差异和遗留系统所导致的难以预知的问题。团队计划通过使用开源工具、利用云弹性进行成本管理、将非核心用途迁移到专用存储,以及积极主动的测试集成和淘汰过时的实践来解决这些问题。


原文链接:

https://www.infoq.com/news/2024/06/uber-bigdata-migration-gcp/

2024-07-21 08:008413

评论

发布
暂无评论
发现更多内容

【YashanDB知识库】如何排查YMP报错:”OCI版本为空或OCI的架构和本地系统的架构不符“

YashanDB

数据库 yashandb

启用Linux防火墙日志记录和分析功能

运维有小邓

IT自动化运维 linux日志管理 防火墙日志管理

天润融通解决方案:大模型让SOP执行监管更智能

天润融通

JVM简介—垃圾回收器和内存分配策略

不在线第一只蜗牛

Python JVM

【YashanDB知识库】启动数据库时报错:YAS-02059 control file version 0.2.64 is incompatible with YashanDB version 0.2.65

YashanDB

数据库 yashandb

【YashanDB知识库】如何解决共享集群部署遇到报错:YAS-05721 invalid input parameter, reason: node name invalid.

YashanDB

数据库

【YashanDB知识库】如何处理报错"UDT column batch insert" has not been implemented yet

YashanDB

数据库 yashandb

Hume 语音模型 OCTAVE:实现情感语音合成、声音克隆和多角色对话生成;通义开源多模态说话人识别项目 3D-Speaker

声网

什么是企业组网?企业组网的重要性解析

Ogcloud

组网 企业组网 企业网络 公司网络

告别传统FAQ,天润融通如何通过AI优化员工服务体验?

天润融通

什么是原生IP?

Ogcloud

IP 海外原生IP 海外IP 海外IP代理 海外静态IP

今日分享 | 新增任务交互秘籍

inBuilder低代码平台

设计 UX 交互设计

京东科技基于 Apache SeaTunnel 探索复杂场景适配

白鲸开源

Clickhouse 数据同步 数据集成 Apache SeaTunnel 京东科技

矩阵起源荣膺"2024AI最佳实践案例"------多模态AI数据智能平台,让您的数据成就您的AI

MatrixOrigin

数据库 AI InfoQ 技术创新 MatrixOrigin

技术干货丨OptiStruct 非线性之前车门下沉分析

Altair RapidMiner

汽车 制造 仿真 sheji altair

开发一个DApp项目:DeFi、DApp开发与公链DApp开发

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

图像识别大揭秘:从安防到自动驾驶,视觉模型如何重塑世界

测吧(北京)科技有限公司

测试

一文了解多云原生的现代化实时数仓 SelectDB Cloud

SelectDB

云计算 数据仓库 云原生 云数据库 SelectDB

开源for Huawei,Beam适配GaussDB实践案例分享

华为云开发者联盟

Beam GaussDB Java’ #数据库 #开源

和鲸科技荣获 2024 全国人工智能应用场景创新挑战赛二等奖,赋能“学科+AI”人才培养与实验室建设

ModelWhale

人工智能 大数据 AI

金融领域研发效能的特性有哪些?拓展边界是什么?

思码逸研发效能

研发效能 金融科技 研发效能度量 研发效能管理 思码逸

比特币市场震荡:回调背后的机遇与挑战

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

测试人生 | 手工转测试开发成功秘籍揭秘:从裁员到入职18k+,收获4个Offer,道阻且长不怯步

测吧(北京)科技有限公司

测试

阿里P8面试官重磅首发2025年Java岗春招面试总结!

程序员高级码农

Java 编程 程序员 java面试 Java面试题

鸿蒙元服务审核上的一些思考

flfljh

英特尔IEDM 2024大晒封装、晶体管、互连等领域技术突破

E科讯

优步使用谷歌云平台实现大数据基础设施的现代化_Google_InfoQ精选文章