生成式AI领域的最新成果都在这里!抢 QCon 展区门票 了解详情
写点什么

大数据公司 LiveRamp 上云记(一):为什么选择 GCP?

  • 2020-02-19
  • 本文字数:1987 字

    阅读完需:约 7 分钟

大数据公司LiveRamp上云记(一):为什么选择GCP?

LiveRamp 是一家大数据公司。


很多公司拥有大数据。每天早餐之前,健壮的日志框架就已经生成了 PB 级别的日志,并以防万一将这些数据长期保存在了亚马逊的 S3 上。


还有一些公司会使用他们自己的大数据。他们拥有自己的产品,他们会通过 Hadoop 和 Spark 来做一些机器学习,从而生成针对客户的产品推荐。


但是像 LiveRamp 这样的大数据公司就很少了。我们从客户那里赚取的每一分钱都来自于我们的 Hadoop 处理流水线。LiveRamp 的产品线很广,但这些产品都经由了相同的生产流程,即提取、转换、加载、加入 Hadoop 处理管道。如果说今天我们关闭了 Hadoop 基础设施,那公司也就可以直接关门停业了。


到去年为止,LiveRamp 所有的大数据计算都是在本地数据中心完成的。我们的数据中心部署了一个超过 2500 节点的 Cloudera Hadoop 集群。而从今年开始,我们逐步把它们迁移到了 GCP(谷歌云计算平台)。


Sasha Kipervarg,Patrick Raymond 和我在 Google Next 大会上展示了这次迁移之旅,包括我们从中学到的经验教训,以及接下来的计划等。在本系列博客文章中,我将从技术角度更深入地探讨这次迁移,重点有:


  • 在 2018 年及其以前,我们是如何在本地运营 LiveRamp 大数据基础设施的?

  • 我们为什么要决定迁移?

  • 我们希望 LiveRamp 基础设施在 GCP 上是什么样子?

  • 我们是如何实现的?

  • 我们下一步该如何发展?


尽管这是一项巨大的工程,但我们仍然对其感到兴奋,因为它将改变 LiveRamp 的开发体验,让我们可以用前所未有的速度将可扩展的、可靠的产品推向市场。

LiveRamp 一览


LiveRamp 有很多产品,但它们都是本着匹配客户 CRM(客户关系管理)以及匹配数据集的原则在不同生态系统之间转移数据。我们通过批文件传输管道和实时的像素服务器这两种方式将这些转换后的数据传输到数字广告生态系统中去。


Hadoop 生态系统尤其适合执行大规模数据连接,这也是我们所使用的。我们的绝大多数硬件都用在了 Cloudera Hadoop 集群。本地集群的最大规模可达到为:


  • 2500 个工作节点

  • 90000 个 CPU

  • 300TB 的内存

  • 100PB 的存储


我们的基础设施非常繁忙,每天有超过 10 万个 YARN 应用在运行,读写量超过 13 个 PB/天,以及超过 80%的系统利用率:



任何拥有 150 名工程师并且在不断增长的公司都会面对大量的服务以及与之对应的支持基础设施。截至 2018 年,我们使用了 500 多个由 Chef 统一配置管理的 VMWare 虚拟机(一个相对小一些的基于 CoreOS Tectonic 版本的 Kubernetes 集群。我们的实时键值服务平台则由内部的一个开源项目实现。


我们需要每天从合作伙伴处获取文件和日志,然后将处理后的文件送还,平均数据量约为 8TB 每天,像素服务器的平均访问量也达到了 20 万 QPS。


尽管我们在 AWS 运行了一些与国际团队和像素服务器相关的服务,但如此大的工作任务仍然用尽了本地数据中心的硬件资源。

上云

虽然我们对自己的基础设施有诸多不满,但是本着“正常工作”优先的原则,我们一直没有对它进行改变。但到了 2017 年中旬,我们开始意识到本地数据中心的规模已经无法满足我们的国际化需求。于是我们具备了所有迁移到云的一般动机:


  • 规模扩展:我们需要能够更快地扩展我们的基础设施,而不再受限于数据中心物理设备的搭建,例如 2 个月的硬件购买时间以及更多的空间放置需求等。

  • 灾难恢复:我们并不满意自己的灾难恢复系统。我们希望在数小时内就可以从灾难性的停机状态中恢复过来,而不是花费几个星期从冷备份开始恢复。

  • 招聘:工程师们希望能够接触到更重要和实用的技能,而在 2019 年,这就是着云计算。

  • 开发速度:假如我们有 30%的开发人员可以从基础设施维护中解放出来,这意味着他们可以重新转向产品开发,从而将产品推向市场的速度提高 30%。


因此,到 2017 年底,我们开始认真地评估云服务供应商,并开始把 LiveRamp 想象成一家云原生技术公司。

为什么选择 GCP?


我们喜欢 GCP,但我们知道它并不是默认选项。我们之所以选择 GCP 主要有两个驱动因素:


  • 技术


技术评估并不适合放在本篇文章中,但我要强调的一点是 GKE(谷歌Kubernetes引擎)是一个非常关键的因素。本次迁移有一个很明确的方向,那就是要把所有的应用程序和服务迁移到 Kubernetes 平台。可以粗略地讲,GKE 就是 Kubernetes 领域事实上的领头羊。


虽然我们可以选择任意一家云供应商并最终完成迁移,但一个很大的区别就是云供应商背后的技术支持人员。GCP 把我们同那些想回答我们问题并提供解决方案的工程师很好地联系了起来。


我们对 GCP 的技术支持合约也非常满意。我们总是能够与专业工程师及时取得联系并迅速得到解决措施。这也给了我们信心,通过与 GCP 合作,我们相信可以解决任何问题,这一点都现在也没有改变。


在下一篇文章中,我将讨论一些大数据基础设施迁移到 GCP 的细节,哪些方面可以直接转换到 GCP,而哪些方面又需要重新设计。敬请期待!


原文链接:


https://liveramp.com/engineering/migrating-a-big-data-environment-to-the-cloud-part-1/


2020-02-19 09:523355

评论

发布
暂无评论
发现更多内容

从“预见”到“遇见”SAE 引领应用步入 Serverless 全托管新时代

Serverless Devs

阿里云 Serverless

EMQ&思岚科技:物联网+AI支援抗疫,“无接触”机器人保障上海方舱稳定运转

EMQ映云科技

物联网 IoT mqtt emq 6月月更

信息时代,您需要这样的知识管理工具

小炮

OpenHarmony 3.2 Beta1版本正式发布

OpenHarmony开发者

Open Harmony

面向高校 | “云原生技术应用与实践”示范课程项目开放申报

Serverless Devs

C#入门系列(六) -- 分支语句

陈言必行

C# 6月月更

【爬虫必备->Scrapy框架】初篇

孤寒者

爬虫 6月月更 scrapy框架

创新不止,英特尔强调HPC的开放性和可持续性

科技之家

选择广州软件定制开发的10个理由

低代码小观

软件开发 管理软件 企业管理软件 项目管理软件 软件定制

优酷移动端弹幕穿人架构设计与工程实战总结

阿里巴巴文娱技术

技术 音视频 弹幕 视频 移动端

常见滑动窗口实现(Java语言实现)

工程师日月

6月月更

一键部署Java构件到Nexus,同事见了都说好

Jianmu

后端 持续集成 私服 自动化运维 Java构件

InfoQ 极客传媒 15 周年庆征文|业务中台与B-PaaS的前世今生

小诚信驿站

架构 如何落地业务建模 领域建模 热门活动 InfoQ极客传媒15周年庆

大型物联网平台如何来保障亿级设备安全连接上云?

华为云开发者联盟

物联网 华为云 iotda 大型物联网平台

趣步运动挖矿系统开发模式分析

开发微hkkf5566

打金?工作室?账号被封?游戏灰黑产离我们有多近

行者AI

新一期HarmonyOS认证正式发布,速来围观!

HarmonyOS开发者

HarmonyOS

程序员自我修炼:《匠艺整洁之道》读书总结

博文视点Broadview

当运行npm install 命令的时候带上ignore-scripts,会发生什么?

华为云开发者联盟

前段

最好用的 6 个 React Tree select 树形组件测评与推荐

蒋川

低代码 开发工具 React 组件 树形选择器

一篇万字博文带你入坑爬虫这条不归路 【万字图文】

孤寒者

爬虫 6月月更 爬虫必备知识讲解 万字图文 爬虫入坑文

小程序IDE,大趋势下催生的效能提速工具

Speedoooo

ide 效率工具 编程效率 移动开发 APP开发

微信团队分享:微信后台在海量并发请求下是如何做到不崩溃的

JackJiang

微服务 即时通讯 im开发 微信架构

重磅!KubeEdge单集群突破10万边缘节点|云原生边缘计算峰会前瞻

华为云开发者联盟

云计算 云原生 华为云

安势信息技术市场总监王峰,OpenChain线上研讨会首秀!

安势信息

Linux 开源 DevSecOps SCA SCA工具

软件开发教父 Martin Fowler:幸好我当初没把它扔进垃圾桶

图灵教育

软件开发

flutter系列之:用来管理复杂状态的State详解

程序那些事

flutter 程序那些事 6月月更 widget

2022年软饮料国潮发展洞察报告

易观分析

饮品市场

NFT+DeFi链游系统开发技术

薇電13242772558

NFT

大容量、高性能,国家级实验室分布式并行文件存储实践

焱融科技

人工智能 大数据 AI 基础设施 存储

【智人智语】剑维软件大中华区油气和智能制造业务部总经理刘晓光:我谨代表剑维软件预祝第六届世界智能大会圆满成功

InfoQ 天津

大数据公司LiveRamp上云记(一):为什么选择GCP?_服务革新_Benjamin Podgursky_InfoQ精选文章