最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

大数据公司 LiveRamp 上云记(一):为什么选择 GCP?

  • 2020-02-19
  • 本文字数:1987 字

    阅读完需:约 7 分钟

大数据公司LiveRamp上云记(一):为什么选择GCP?

LiveRamp 是一家大数据公司。


很多公司拥有大数据。每天早餐之前,健壮的日志框架就已经生成了 PB 级别的日志,并以防万一将这些数据长期保存在了亚马逊的 S3 上。


还有一些公司会使用他们自己的大数据。他们拥有自己的产品,他们会通过 Hadoop 和 Spark 来做一些机器学习,从而生成针对客户的产品推荐。


但是像 LiveRamp 这样的大数据公司就很少了。我们从客户那里赚取的每一分钱都来自于我们的 Hadoop 处理流水线。LiveRamp 的产品线很广,但这些产品都经由了相同的生产流程,即提取、转换、加载、加入 Hadoop 处理管道。如果说今天我们关闭了 Hadoop 基础设施,那公司也就可以直接关门停业了。


到去年为止,LiveRamp 所有的大数据计算都是在本地数据中心完成的。我们的数据中心部署了一个超过 2500 节点的 Cloudera Hadoop 集群。而从今年开始,我们逐步把它们迁移到了 GCP(谷歌云计算平台)。


Sasha Kipervarg,Patrick Raymond 和我在 Google Next 大会上展示了这次迁移之旅,包括我们从中学到的经验教训,以及接下来的计划等。在本系列博客文章中,我将从技术角度更深入地探讨这次迁移,重点有:


  • 在 2018 年及其以前,我们是如何在本地运营 LiveRamp 大数据基础设施的?

  • 我们为什么要决定迁移?

  • 我们希望 LiveRamp 基础设施在 GCP 上是什么样子?

  • 我们是如何实现的?

  • 我们下一步该如何发展?


尽管这是一项巨大的工程,但我们仍然对其感到兴奋,因为它将改变 LiveRamp 的开发体验,让我们可以用前所未有的速度将可扩展的、可靠的产品推向市场。

LiveRamp 一览


LiveRamp 有很多产品,但它们都是本着匹配客户 CRM(客户关系管理)以及匹配数据集的原则在不同生态系统之间转移数据。我们通过批文件传输管道和实时的像素服务器这两种方式将这些转换后的数据传输到数字广告生态系统中去。


Hadoop 生态系统尤其适合执行大规模数据连接,这也是我们所使用的。我们的绝大多数硬件都用在了 Cloudera Hadoop 集群。本地集群的最大规模可达到为:


  • 2500 个工作节点

  • 90000 个 CPU

  • 300TB 的内存

  • 100PB 的存储


我们的基础设施非常繁忙,每天有超过 10 万个 YARN 应用在运行,读写量超过 13 个 PB/天,以及超过 80%的系统利用率:



任何拥有 150 名工程师并且在不断增长的公司都会面对大量的服务以及与之对应的支持基础设施。截至 2018 年,我们使用了 500 多个由 Chef 统一配置管理的 VMWare 虚拟机(一个相对小一些的基于 CoreOS Tectonic 版本的 Kubernetes 集群。我们的实时键值服务平台则由内部的一个开源项目实现。


我们需要每天从合作伙伴处获取文件和日志,然后将处理后的文件送还,平均数据量约为 8TB 每天,像素服务器的平均访问量也达到了 20 万 QPS。


尽管我们在 AWS 运行了一些与国际团队和像素服务器相关的服务,但如此大的工作任务仍然用尽了本地数据中心的硬件资源。

上云

虽然我们对自己的基础设施有诸多不满,但是本着“正常工作”优先的原则,我们一直没有对它进行改变。但到了 2017 年中旬,我们开始意识到本地数据中心的规模已经无法满足我们的国际化需求。于是我们具备了所有迁移到云的一般动机:


  • 规模扩展:我们需要能够更快地扩展我们的基础设施,而不再受限于数据中心物理设备的搭建,例如 2 个月的硬件购买时间以及更多的空间放置需求等。

  • 灾难恢复:我们并不满意自己的灾难恢复系统。我们希望在数小时内就可以从灾难性的停机状态中恢复过来,而不是花费几个星期从冷备份开始恢复。

  • 招聘:工程师们希望能够接触到更重要和实用的技能,而在 2019 年,这就是着云计算。

  • 开发速度:假如我们有 30%的开发人员可以从基础设施维护中解放出来,这意味着他们可以重新转向产品开发,从而将产品推向市场的速度提高 30%。


因此,到 2017 年底,我们开始认真地评估云服务供应商,并开始把 LiveRamp 想象成一家云原生技术公司。

为什么选择 GCP?


我们喜欢 GCP,但我们知道它并不是默认选项。我们之所以选择 GCP 主要有两个驱动因素:


  • 技术


技术评估并不适合放在本篇文章中,但我要强调的一点是 GKE(谷歌Kubernetes引擎)是一个非常关键的因素。本次迁移有一个很明确的方向,那就是要把所有的应用程序和服务迁移到 Kubernetes 平台。可以粗略地讲,GKE 就是 Kubernetes 领域事实上的领头羊。


虽然我们可以选择任意一家云供应商并最终完成迁移,但一个很大的区别就是云供应商背后的技术支持人员。GCP 把我们同那些想回答我们问题并提供解决方案的工程师很好地联系了起来。


我们对 GCP 的技术支持合约也非常满意。我们总是能够与专业工程师及时取得联系并迅速得到解决措施。这也给了我们信心,通过与 GCP 合作,我们相信可以解决任何问题,这一点都现在也没有改变。


在下一篇文章中,我将讨论一些大数据基础设施迁移到 GCP 的细节,哪些方面可以直接转换到 GCP,而哪些方面又需要重新设计。敬请期待!


原文链接:


https://liveramp.com/engineering/migrating-a-big-data-environment-to-the-cloud-part-1/


2020-02-19 09:523358

评论

发布
暂无评论
发现更多内容

[教你做小游戏] 用177行代码写个体验超好的五子棋

HullQin

CSS JavaScript html 前端 8月月更

面试突击76:${} 和 #{} 有什么区别?

王磊

Java 常用面试题

SpringBoot 整合 MyBatis-Plus

SpringBoot 2 Mybatis-Plus 8月月更

Kubernetes 1.25 发布!博云带你玩转新特性

BoCloud博云

容器 云平台 #k8s

Spring 全家桶之 Spring Security(二)

小白

8月月更

开源一夏 | 大佬,人人都说精通的单例模式,你精通了吗

知识浅谈

单例模式 8月月更

高效的工作从取消汇报开始|敏捷实践

LigaAI

高效工作 Scrum 敏捷开发 研发团队 每日站会

基于STM32的录音机设计(STM32F103+VS1053B)

DS小龙哥

8月月更

Go-Excelize API源码阅读(十八)——GetPageMargins、SetWorkbookPrOptions、GetWorkbookPrOptions

Regan Yue

Go 开源 源码解析 8月日更 8月月更

密集计算场景下的 JNI 实战

vivo互联网技术

Java c++ 性能 JVM jni

藏不住了,数据分类分级利器「极盾·智辨」发布

极盾科技

网络安全 安全 数据 数据分类 数据安全

RedisSyncer同步引擎的设计与实现

京东科技开发者

同步代码 key 引擎 redis 底层原理

阿里P8 架构师耗时几个月编写的这份微服务深度学习宝典,GitHub 星标10K+

了不起的程序猿

Java 阿里巴巴 微服务架构 JAVA开发 java程序员

Spring 全家桶之 Spring Security(五)

小白

8月月更

JS【数组合并】的性能差异对比

掘金安东尼

JavaScript 前端 8月月更

HMS Core Discovery第17期直播预告|音随我动,秒变音色造型师

HMS Core

Spring 全家桶之 Spring Security(四)

小白

8月月更

语音聊天app源码:系统功能有哪些?

开源直播系统源码

软件开发 直播系统源码 语音直播系统 语音直播

从零开始实现一个MyBatis加解密插件

vivo互联网技术

spring mybatis

图灵访谈 | Vue.js官方团队成员霍春阳:跨专业做程序员,是什么感受?

图灵社区

vue.js 代码人生

极盾·析策XDR,助力顶级汽车集团构建安全运营中台

极盾科技

网络安全 安全 信息安全 数据安全 xdr

【python】通用的json_diff方法

转转技术团队

测试工具

Spring 全家桶之 Spring Security(三)

小白

8月月更

Apache顶级项目Ranger和Alluxio的最佳实践(附教程)

Alluxio

Ranger Alluxio Apache 分布式 大数据 开源 8月月更

数据治理几乎所有常见问题的简答都在这里了

雨果

数据治理

说实话,Hibernate 和 MyBatis 哪个更好用?

TimeFriends

8月月更

静态IP是什么意思?和动态IP 有什么区别

郑州埃文科技

静态IP 动态IP IP地址

我想搞信息资讯聚合类产品,如何编写PHP爬虫?

智伍应用

灏天农业签约旺链科技,推动中药材产业健康发展

旺链科技

区块链 产业区块链 中药材

阿里云丁宇:以领先的云原生技术,激活应用构建新范式

阿里巴巴中间件

阿里云 Serverless 容器 RocketMQ 云原生

数据治理(七):Atlas搭建启动

Lansonli

数据治理 8月月更

大数据公司LiveRamp上云记(一):为什么选择GCP?_服务革新_Benjamin Podgursky_InfoQ精选文章