【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

五步成功构建私有云

  • 2017-10-18
  • 本文字数:4064 字

    阅读完需:约 13 分钟

本文要点

  • 公有云领域正在蓬勃发展。首先,云解决方案迎来更多的竞争和机遇。其次,数据监管和安全控制正成为新的挑战。

  • 你需要清晰的数据监管策略来驱动工程实践,以免阻碍业务的发展。

  • 利益相关者的参与对你的成功至关重要,需要让他们接受你的策略,并了解风险和义务。

  • 你无法预测未来的需求,所以要提供足够的灵活性便于后续的扩展。

  • 使用自动化,包括硬件部署的自动化。给供应商施加压力,让他们参与进来。

在 2017 年云基础设施即服务 Gartner 魔力象限中,Amazon Web Services 无疑是当之无愧的领跑者。尽管如此,AWS 仍然不足以成为事实上的云服务解决方案。最近,AWS 的部分用户因为与 Amazon 零售业务存在竞争关系,宣布要停止使用 AWS。Walmart 构建了自己的私有云,并要求它的技术供应商撤出 AWS,转而寻求与 Google 和 Microsoft 合作。主流的云供应商纷纷加入 Cloud Native Computing Foundation(CNCF),推动行业朝着基于容器的跨云微服务架构发展。VMware 停止与四个主要的公有云供应商合作(Amazon、Microsoft、IBM、Google),Microsoft 启动了 Azure Stack——轻量版的 Azure。业界出现了另一个非常重要的趋势,数据隐私和安全的区域合规性(中国、俄罗斯、欧洲)正崭露头角,比如即将于 2018 年 5 月开始实行的欧洲通用数据保护条例(GDPR)。业务部门需要重新定义他们的云策略,拥抱混合云解决方案,并加入更严格的数据监管,这意味着需要向私有云迈出一大步。

云基础设施即服务 Gartner 魔力象限图:

下列是在构建私有云解决方案时需要考虑的五个方面。

1. 愿景和战略规划

很多私有云因无法发挥应有的作用而以失败告终。与工程项目一样,错误的期望值和不现实的目标会导致糟糕的结果,但实际上本不该如此。在了解了所要解决的问题之后,必须定义出清晰的目标和需求。比如,了解开发者的痛点,看看私有云将如何解决或缓解他们的问题。改进开发者体验,确保方案能够得到快速的实施,并取得长久的成功。

构建私有云需要专注,需要坚持不懈的毅力,需要强烈的动机,需要责任心和有效的沟通,需要进行所有权总成本分析,以便了解当前的服务成本。私有基础设施的日常运维是怎样的?需要为利益相关者定义拒付模型吗?如果有必要,那么有成功的先例吗?计划运行哪些类型的工作负载?如何简化容量规划?最小的预算和最大的预算分别是多少?你的解决方案能够与现有的CI/CD 管道和开发者工作流顺畅地集成在一起吗?你为你的工程团队准备好容器化的环境了吗?又或者你需要计划在混合云环境中使用容器吗?如果需要重新设计组件,那么就需要考虑这么做的成本。你的部署流程需要作出变更,为你的工程团队提供顺畅、积极正向的体验。你要定义好上层的SLA,并以KPI 的方式监控它们。在定义好策略之后,下一步就是制定战术和计划。

要记住一句话,计划得太多,反而不利于事情的进展。不过如果没有急切的目标,也就没有了动力。所以,需要在功能目标和现实技术之间做出权衡。

案例

#1 Adobe 的云广告平台通过TubeMogul 构建了自己的混合云解决方案。那么他们的愿景是什么?通过完全自动化的自有基础设施赋予利益相关者处理核心负载的能力,解决低延迟和大规模存储问题。他们的策略又是什么?通过简单的CI/CD 工作流在裸机和虚拟实例上实现性能和配置的灵活性。战术呢?使用开源的OpenStack 进行基础设施的编排和自动化。组建一支精益的团队开发和维护私有云,为开发者提供统一的CI/CD 工作流。

#2 在考虑使用私有云方案时,我们直接向我们的公有云提供商AWS 提出了质疑。我们对所使用的技术进行总体成本分析,疑问重重。在头三年的时间里,我们时刻准备着我们的私有云计划。在相当长一段时间内,我们的私有云计划成为与公有云提供商商谈价格的筹码(BATNA【1】)。

2. 设计的灵活性

在确定了你要交付的服务类型和运营模型之后,要在设计中保持足够的灵活性。研发阶段的投入是不可或缺的,你将需要进行多次迭代,并留有余地以便应对不可预测的情况。在进行技术选型时总会引发激烈的争论,然后是确定网络和服务器的规格。有句话叫“如果你要为大牲畜构建农场,就不要把它建成宠物的小窝”。在私有云架构里,你所选择的技术需要用上好多年,你要成为它们的拥护者,为此打造一个社区,支持它们,并让脾气暴虐的架构师们知道它的好处。做好升级计划,比如如何从 v1 升级到 v2。保持技术更新是支持新需求、跟随新趋势、留住人才的关键因素。

先交付一个可以带来关键商业价值的最小价值产品(MVP),后续再进行改进。尽可能利用裸机基础设施,而不仅仅是把私有云当成一个“IT 项目”。不要试图在内部构建另一个公有云,那是不可能成功的。你的方案要具备足够的灵活性,为开发人员提供有价值的支持。你要提供新的方案、API、服务,为工程利益相关者带来顺畅的体验。确保你的私有云服务遵循现有的标准,加快开发人员采用私有云的速度,并可以在多个云环境上重用功能。你可能还需要设计 SDN 并开发出一些服务层,当然,这些要视你的实际情况而定。

保持学习曲线的平滑和敏捷是非常重要的。从简单的开始,标准化开发者的工作流,用好 VLAN,部署核心服务(身份识别管理、网络、计算能力、存储),定义好清晰的升级路径。

案例

#1 在 TubeMogul,我们通过反复试错来进行技术选型或选择供应商。这当中有些技术可能已经不存在(CloudStack、Eucalyptus 等)了,最后我们选择了 OpenStack,并结合使用了裸机。我们最初的设计倾向于使用便宜但强大的日常硬件,结合简单的网络,并设计好故障应对措施。我们只用了 OpenStack 的核心服务,以及 Jenkins 的基本 CI/CD 工作流和用于配置裸机的 PXE。开发人员也使用了相同的 CI/CD 管道来管理跨云的 canary 和生产应用程序部署。多个环境之间需要具有标准的命名约定,我们才能重用现有的工具和服务。

3. 基础设施自动化

私有云部署很关键的一点是如何处理数据中心、网络和采购问题。这里涉及到资产管理和售后,它们很容易成为痛点,并给部署造成麻烦。所以,要想清楚你擅长做什么以及不擅长做什么。根据你的投资目标和团队结构的不同,你可能会承担很多压力,所以不要让那些供应商闲着。我时常提醒我的团队,VAR 指的是“Value Added Reseller”,所以不要忘了增值部分。根据参与度模型的不同,你可能需要定义好机架排布、线缆布局、端口映射、电力拉线等等。在极端情况下,你可能要使用以机架为单位的模型(rack-at-a-time)代替以服务器为单位的模型(server-at-a-time),直接将装备好的机架搬进数据中心。你只需要将机架接近核心网络就可以了,不需要自己组装和拉线。

在进行硬件自动化时,要确保你的设计适用于你的数据中心。你希望你的设计是 Top-Of-Rack【2】式的吗?或许你对 TIA 942-A 不甚了解,那么就让供应商提供想法并进行设计评审。这有可能会影响到硬件的选择和冷却通道的位置。这里有许多细节需要考虑。确保你考虑到了数据中心的空间位置和电力供应,知道如何利用现场人员处理售后问题。这些都是成功构建一个私有云的关键因素。

案例

#1 Adobe 广告云平台数据中心的最小化部署单位为两个机架。所有机架都由供应商搭建,然后进行自动化的镜像和组件部署。我们使用了 Puppet 进行配置管理,如果有一个资源处于空闲状态,或者经过售后之后需要进行重新部署,只需要标记一下状态,然后重新触发构建即可。

4. 自己搞定

你需要对自己构建的东西进行反复的测试,需要一个真实的实验室承担测试工作。你要感受到痛点,并把它们解决掉。

在跨过一系列坑之后,你要为利益相关者提供可见的数据,让他们了解整个流程。要敢于把整个私有云的状态和风险点展示出来。你是否做好了计算资源的容量规划?利益相关者是否了解网络的局限以及这将给他们的使用带来的影响?如何提供网络的可见性以便建立良好的信任和信心?是否存在过载的计算资源和超额认购?在进行迭代和增长时,这些问题都是需要解决的。

案例

#1 TubeMogul 的第一个 OpenStack 开发环境在一开始很成功,直到一个礼拜之后 Ceph 出现了问题,导致整个环境都崩溃了。这个环境是一个共享的环境,既是私有云的测试环境,也是开发环境。所以,我们得到了教训,就是不要将开发环境和利益相关者的环境混在一起。如果有人依赖你的服务,你就要承担起交付高质量服务的责任。

#2 做好容量规划是很难的,你希望了解你的业务,但又不希望业务的增长仅依赖你。知道什么时候提前增加容量至关重要。我们以两个机架作为部署单位,如果一个地方的资源不够用了,我们就增加两个机架。这个时候,设计的灵活性就发挥了它的作用,我们因此可以快速地扩展私有云。

结论

这是一个旅程。构建私有云不是件小事,而大部分公司未必需要私有云。如果有可能,就使用公有云吧。但如果要构建私有云,你需要搞清楚目标是什么。数据监管和业务决策将把你带向不同的方向。私有云并不是一个简单的工程项目,而是一个战略决策。了解大方向,取得利益相关者的支持,做好敏捷计划,以便进行迭代。Adobe 广告云平台经历了多个阶段,这些阶段都要求坚实的软件和运营工程来自动化基础设施。现在,我们交付了一个核心的基础设施,可以降低资源占用和延迟,处理更多的流量,甚至提供三倍于 AWS 原生网络的性能。

参考

【1】Roger Fisher 和 William Ury 在 1981 年出版的畅销书“Getting to Yes: Negotiating Without Giving In”中发明了术语 BATNA,它是“Best Alternative To a Negotiated Agreement”的缩写。

【2】 Cisco 数据中心的 Top-Of-Rack 架构设计

关于作者

****Nicolas Brousse,云计算领袖人物,在 TubeMogul(NASDAQ:TUBE)被 Adobe(NASDAQ:ADBE)收购之后,他成为了运营工程总监。Nocolas 领导了一支全球化的团队,包括 SRE 工程师、云计算工程师、安全工程师和数据库架构师,他们构建、管理和监控着 Adobe 广告云平台的基础设施。Nicolas 是美国技术大会的演讲常客,并经常为其他运营工程师提供建议。在加入 TubeMogul 之前,Nicolas 已经在技术领域拥有超过 15 年的经验,为 MultiMania、Lycos 和 Kewego 等公司管理高负载的数据库。

查看英文原文: The Five Steps to Building a Successful Private Cloud

2017-10-18 17:183811
用户头像

发布了 322 篇内容, 共 133.7 次阅读, 收获喜欢 142 次。

关注

评论

发布
暂无评论
发现更多内容

java培训JVM基础面试题分享

@零度

Java JVM

从撞“新秀墙”到带团队,XTransfer海归码农升级之路

XTransfer技术

程序员 职场 创业公司

大数据培训hive数仓存储格式详解

@零度

hive 大数据开发

在 Manjaro 上安装 Chrome

信号量

chrome Linux

技术创想 | shiro550和721反序列化简谈

领创集团Advance Intelligence Group

反序列化

安全大讲堂 | 谭晓生:安全即服务,万物互联下的网络安全新机遇

腾讯安全云鼎实验室

网络安全 商业化 产业安全

周边生态|StreamNative 联合 Cloudera 开源 Apache Pulsar+Apache NiFi 集成处理器

Apache Pulsar

cloudera 开源 架构 云原生 Apache Pulsar

数字化时代,如何做好用户体验与应用性能管理

云智慧AIOps社区

监控宝 监控工具 自动化运维 数字化经济

社区活动| Apache Pulsar 中文开发者与用户组志愿者招募

Apache Pulsar

开源 架构 云原生 Apache Pulsar pulsar 社区

【工具】多人在线协同编辑文档软件

小炮

团队协作 工作效率

征文丨TiDB 社区专栏第一届征文大赛,快来一次性集齐所有周边吧!

PingCAP

Flink CDC 项目 GitHub star 破 2000,新增来自XTransfer的Maintainer 成员

XTransfer技术

mongodb flink 社区

MQTT、CoAP 还是 LwM2M?主流物联网协议如何选择

EMQ映云科技

物联网 IoT mqtt emq 物联网协议

翻译 | Kubernetes 将改变数据库的管理方式

RadonDB

数据库 Kubernetes RadonDB

VuePress 博客之 SEO 优化(三)标题、链接优化

冴羽

Vue 前端 vuepress SEO 博客搭建

微博系统中”微博评论“的高性能高可用计算架构

Geek_8d5fe5

#架构实战营 「架构实战营」

Rust类型

Shine

读书笔记 rust

如何使用 Checkmk 监控 SSL TLS 证书?

Ethereal

私有云与公有云,哪种云模型最适合企业的需求

Ethereal

web前端培训MySQL面试题binlog日志的作用

@零度

MySQL 前端开发

JavaScript实现网页截屏五种方法

锋享前端

2022年了,微信商城小程序还值得做吗?

源字节1号

小程序 微信小程序 开发商城

2022 年值得关注的 9 个最新 Java 趋势

Ethereal

新华三解答:乘“东数西算”东风 算力网络向何处?

科技热闻

【C语言】三子棋游戏与多子棋 (保姆级的实现过程)

謓泽

3月月更

netty系列之:java中的base64编码器

程序那些事

Java 程序那些事 3月月更

Web 键盘输入法应用开发指南(9)—— 标准与实现

天择

JavaScript 键盘 输入法 3月月更

电科申泰加入龙蜥社区并成为理事单位,共创基础软硬件生态新未来

OpenAnolis小助手

开源 理事单位 申威 软硬件

一站式运维管理工具平台 OCP 到底有多好用,看这篇文章就够了!

OceanBase 数据库

开源IM项目OpenIM 客户端SDK架构剖析-确保消息的有序性,以及消息百分百可达

Geek_1ef48b

这门面向应用开发者的 TiDB 使用教程,TiDB SQL、Connector API、架构体系…你一定不能错过!

PingCAP

五步成功构建私有云_服务革新_Nicolas Brousse_InfoQ精选文章