NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

OaaS 会是理想的运维外包模式吗?

  • 2014-02-17
  • 本文字数:4484 字

    阅读完需:约 15 分钟

2013 年,互联网上出现了一个新的概念:OaaS(Operations as a Service,运维即服务)。该概念的主要推动者、云络科技的 CEO 兼 CTO Steve Mushero 在数次访谈演讲中曾多次介绍过 OaaS 的概念,简单来说就是:

服务器运维的外包。

运维外包本身不是非常新的概念,只不过过去经常服务于企业和事业单位,以人员驻场,定期巡检,短期项目或者故障响应的方式来提供服务。云络科技的重点则放在了“拥有上百万用户的互联网系统”上面,专门处理大型互联网系统在运维中遇到的问题。在云计算业务发展迅速的当下,他们也专注于做针对 AWS、RackSpace、阿里云等云平台用户的运维服务。

可以想象,此类“高大上”的运维服务在推广上会面临巨大的挑战,而执行起来也并不容易。在本次采访中,我们列出了一些此类服务面临的一些可以预见到的问题,希望借此了解云络科技在做这块业务五年以来积累的一些感想和经验。

嘉宾简介:

Steve Mushero,云络科技 CEO 兼 CTO。从业 20 多年,曾任土豆网 CTO、Beyond Access Communications 和 AirReview 首席架构师。他也是《Managing White-Collar Job Migration to Asia》一书的作者。

InfoQ:首先,您觉得云络科技的运维服务,或者说 OaaS 的模式,跟传统的运维外包模式有什么不同呢?

Steve:运维外包本身并不是非常新的概念,但云络的运维外包服务和我们所熟悉的服务有所不同,主要有如下几点:

一、服务的周期不同

常见的运维外包服务多以短期项目的方式来进行。例如搭建一个企业 内部业务系统,搭建一个高可用集群或者应用服务器等,只要安装部署完成,通过验收,再给予一定时期或一定次数的免费质保服务。 而云络的运维外包服务立足于长期持续的服务模式,每年持续签约,问题负责到底,服务没有终点站,质保不设有限期。

二、服务的内容不同

常见的运维外包服务多针对某个专业的系统或软硬件设备,或者某个项目,总之服务的技术范围总是局限于先前所销售的某个产品或系统,与之无关的产品,工具或系统则一概不负责。例如用户自身制定的备份计划任务,对系统的监控数据跟踪和分析等,原有的运维外包服务均不负责。

而云络的运维外包服务服务的对象是用户,而不是只是某个系统。云络的运维服务内容异常的丰富,基本涵盖了一个运维团队日常工作中所需要做的所有事务,包括各种常见系统和日常琐事,甚至像开设一个新用户账户并为之分配 ftp 上传空间配额这样的小事,云络也非常乐意替用户完成。云络所服务的用户时常会感觉到他们多了一个强力的运维部,而不是多了一个只负责特定事务的外包服务商。

三、服务的时机和目标不同

常见的运维外包服务商通常以项目来进行服务,服务期内包含一定的服务次数,在用户出现故障寻求帮助时进行快速响应。因此他们服务的时机是“事后”服务,执行服务的时候,故障已经发生,所以服务的目标是尽快“修复”故障。

而云络的服务是 24x7 不间断服务,而非仅在“事后”响应的服务。由于有独立的监控团队持续跟踪用户的系统和服务器状况,云络常常会提前预知潜在的故障并做出预防措施,即便出现突发故障,云络也会比用户先一步得知故障,尽快开展工作。因此云络的服务是全天候的“事前预防”,“事中处理”,“事后总结”的专业运维服务。 而且由于云络的服务是按年续约,期间并不限制服务次数,所以云络的服务目标是尽全力“避免故障”,而非仅仅是尽全力“解决故障”。

四、服务的对象和技术不同

常见的运维外包服务最主要的服务对象是各种企业,政企,事业单位等,主要涉及 Windows 和企业信息化应用的技术领域,例如 CRM 系统,SAP 系统,OA 系统,邮件系统或者审计系统等。由于这类用户的工作和时间特性,非工作时间服务器的压力会小得多,再者由于用户群较小,数量固定,发展变化慢,服务器的并发压力并不大。同时这类用户常常也允许服务器有更多的容错时间。例如在深夜发生故障或停机调整,对企业的业务影响甚微。

而云络所服务的对象主要为互联网,移动互联网,游戏,视频媒体,电子商务等,他们的系统通常构建在开源的系统之上,对服务器运行稳定的要求相对会更高。不仅用户数无法准确预估,还常常会发生爆炸式增长,这对服务器的性能和安全都是严峻挑战,况且这些企业的业务高峰时间常常发生在非工作时间。在这些企业巨大的刚性需求下,这方面的专业运维人员却相对更少,而云络提供的服务正是在尽力弥补这方面的缺口。

InfoQ:你认为哪一类的任务属于关键型任务,以至于人们需要为这些任务配置高质量的运维服务?

Steve:任何对公司来说属于核心业务的在线系统都属于关键型任务,这天然包括各类电子商务、游戏、移动应用和类似的典型互联网系统。对于此类系统而言,不可靠、缓慢、不安全或者管理成本过高,都会造成公司的麻烦。

InfoQ:一般是哪一类客户会认可你的观点?

Steve:我们发现那些服务器上了一定规模的正规互联网公司对我们的服务有较大的需求。有些小企业的网站比较简单,对运维工作往往不在意,但如果在线系统涉及到他们的核心业务,他们也会非常关心。一般而言,在遭遇过网站宕机事故,或者在服务器上投入了很多成本之后,大家会意识到他们的服务器其实很重要,但很多人不知道如何解决自己的问题,如何增强可靠性,同时不会浪费太多的钱。

InfoQ:运维在“工作成效”方面有一个悖论:如果你做得好,没人会看到;人们仅仅在出现问题的时候才注意到你。这个悖论困扰很多运维团队,同时也使得对外的运维服务很难作为商品售卖。你是如何让你的客户理解运维工作的价值的?

Steve:的确,运维工作存在于互联网的影子里,这些后端的工作仅在出现问题的时候才被人们发现并抱怨。但是现在情况有些好转:当人们看到在双十一这样的大活动或其他大促活动中,系统没有出现任何问题,他们开始意识到其中的价值。我看到的大部分互联网公司都遭遇过系统问题或宕机事故,所以他们十分明白自己需要做哪些改进。另外,被黑客攻击过,或者服务器 /IDC 成本增长惊人的公司也十分明白其中的价值。

InfoQ:理想的 OaaS 应该是通用的可扩展的服务,还是定制化的一对一服务?

Steve:两者都有。首先,针对所有的系统来说,运维的理念、技术、最佳实践和过程都是通用的。但是,每个公司和每个系统都有一些不同,所以以做第三方运维服务来做生意其实是很困难的事情。我们的 OaaS 是标准化的,但是有很多可以定制的组件,同时定制组件的方式是标准的,这样可以同时实现灵活性和可伸缩性。

InfoQ:你如何计算你们团队的成本?客户又如何计算使用你们的成本? 一般来说,你们是运维领域的专家,雇佣你们的费用要高于招聘一个普通运维工程师的价格。

Steve:使用我们的服务其实比客户自己招聘运维要更加便宜,因为我们虽然在各个领域都很专业,但我们的成本可以分摊到所有的客户身上。比如,很少有客户能够负担专职 MySQL DBA,但是使用我们的服务的话,可能每个月只需要用一天,这样的成本效率就很高了。

InfoQ:你们每个客户关系的确立都需要长期的沟通,这意味着获取每一个新客户的成本是相当高的。你们在销售团队方面的投入如何?

Steve:我们的确需要很强的销售团队,不过很多时候,很多合作伙伴提供了很多的帮助。同时,每个新客户的跟进并没有很长的时间,一般有一个月的周期,见面两三次也就有结论了,因为我们这类服务的客户,要么是比较着急需要运维服务的,要么是了解一下情况再等等的。如果对方要等等,我们会继续跟进三个月。这段期间如果他们遇到问题,或者工程师离职了,或者有了新项目,他们往往还会回来找我们的,因为我们在这个领域还没有竞争对手。

InfoQ:你们目前有 90 多人的规模,团队方面是如何划分的?

Steve:有三分之二的人员是为客户做实施的,其中有一半是系统工程师,另外一半是项目管理、7x24 客服、协调、紧急响应等支持性的团队。我们还有研发团队,系统改进团队,培训团队,QA 团队,安全团队,以及流程 / 文档团队。

其他就是销售、市场、管理、财务、人力和行政。

InfoQ:运维服务化在美国市场似乎还挺流行的,为什么在中国市场做起来这么困难?你是如何探索这背后的原因的?

Steve:实际上我们这类服务在美国市场也是比较新的,我们的合作伙伴 RackSpace 算是这个市场上最大的玩家,不过他们的核心服务是基于他们自己的数据中心来提供的。全球范围来看,此类服务都是比较新的,因为运行一个大规模的互联网系统是很困难的事情,尤其对于那些成百上千的服务器都分散在上百家 IDC 或云平台、甚至分散在不同国家、不同行业、运行着不同技术栈的系统来说更是如此。

在中国市场,外包服务本身就比较新,对销售团队来说是很大的挑战,我们需要时间来建设我们的销售团队和合作伙伴渠道,让客户能够更充分的理解我们是做什么的。我们需要创作大量的文章,举办各种会议,做很多市场活动以赢得认可,这方面我们已经做的已经越来越好了。

InfoQ:你之前提到过,对你们业务更加有效的沟通都是跟老板沟通,而不是跟运维工程师沟通。你是如何发现这一点的?

Steve:这实际上要看情况,我们其实也经常会直接跟运维工程师沟通。这往往取决于公司的 CEO/CTO 对运维团队的信任度,因为有些管理层担心运维团队的实力不够,或者运维团队的工作太忙。我们其实很愿意跟公司现有的运维团队一起合作,我们的工作让他们的工作更加轻松可控,而他们也能够从我们的团队那里学习不少东西。

当然,老板们更关心可靠性、规模、成本控制这些宏观层面的东西,所以他们对我们的说法更敏感也更容易接受。其实不少运维团队、IT 经理和 IT 工程师对新事物的接受度还是很高的。

也有工程师会担心我们来了会抢他们的饭碗,不过一起工作之后他们会明白我们的服务不仅对他们的公司有好处,对他本人的职业发展也有好处。

InfoQ:你觉得运维服务这个市场有多大?目前看起来,似乎是一个比较小的市场,大部分都是接私活的,就你们在正规做并发出比较大的声音。你觉得运维服务市场的增长点在哪里?

Steve:中国共有百万量级的互联网服务器,全球有亿级的服务器,所以这是个很大的市场。抛去腾讯、百度、Google、微软这些巨头和那些规模特别小的系统,需要管理的服务器仍然有上百万。AWS 应该很快也有百万台服务器了。

在西方,像 2nd Watch 和 DataPipe 这样的公司已经在企业级管理服务方面做的不错,他们为企业管理 ERP、email、HR、财会等核心业务。虽然他们做的不是互联网业务,不过随着整个世界向互联网迁移的过程,类似的互联网服务也会越来越多。

与此同时,云计算的发展也会扩大这个市场的边界,每个人都在重新思考他们的战略和技术。将业务运转在云上往往要比将业务跑在物理服务器单机上更加复杂、更加困难,所以公司会需要更多的帮助。

InfoQ:你们会一直做运维服务这个业务吗?还是也在尝试一些其他的业务?

Steve:运维服务是我们的核心业务,我们会一直做下去。我们也在尝试为规模较小的云计算用户提供一些云端的自动化服务,也在为一些较大的客户在他们自己的系统中提供自动化服务。我们自己的产品线一直在增加,比如我们的全球备份系统、系统审计、自动化服务器优化服务、云迁移服务等。

无论业务如何发展,我们的宗旨是不变的,就是要让互联网更好、更快、更安全、更可靠、让客户更加成功。我们做的所有事情都会围绕这个目标来设计。

2014-02-17 00:542911

评论

发布
暂无评论
发现更多内容

再谈BOM和DOM(1):BOM与DOM概述

zhoulujun

JavaScript DOM BOM 对象模型 文档模型

没想到我也可以入职阿里!二本毕业、两年crud经验,侥幸通过面试定级P6

Java架构师迁哥

三年开发经验,字节跳动抖音组离职后,一口气拿到15家公司Offer

Java架构师迁哥

架构实战营模块八作业

竹林七贤

再谈BOM和DOM(2):DOM节点层次/属性/选择器/节点关系/操作详解

zhoulujun

JavaScript DOM BOM 对象模型 文档模型

再谈BOM和DOM(3):DOM节点操作-元素样式修改及DOM内容增删改查

zhoulujun

DOM BOM 文档对象 DOM结点操作 DOM增删改查

再谈BOM和DOM(5):各个大流浪器DOM和BOM里面的那些坑—兼容性

zhoulujun

DOM事件兼容性

5分钟速读之Rust权威指南(四十一)高级类型

wzx

rust

神来之笔,2021CTF内核漏洞精选解析

网络安全学海

网络安全 信息安全 CTF 安全漏洞 渗透测试·

再谈BOM和DOM(6):dom对象及event对象位值计算—如offsetX/Top,clentX

zhoulujun

DOM event对象

Ta想做一粒智慧的种子

脑极体

攒塑料袋,究竟是如何刻进中国人DNA的?

脑极体

医美行业哪个环节最赚钱?

石云升

行业分析 7月日更

让区块链为“三张牌”赋能

CECBC

Vue进阶(幺叁捌):vue路由传参的几种基本方式

No Silver Bullet

Vue 路由 7月日更

拥抱云原生,腾讯发布TCSS容器安全服务!

腾讯安全云鼎实验室

容器 云原生

JVM锁bug导致G1 GC挂起问题分析和解决

毕昇JDK社区

再谈BOM和DOM(7):HTML DOM Event 对象属性及DOM事件详细列表

zhoulujun

DOM DOM事件

GIS坐标系测绘原理:大地水准面/基准面/参考椭球体/EPSG/SRI/WKT

zhoulujun

GIS

物联网安全难题还需行业标杆来解

熵核科技

物联网安全

fil矿机怎么选择?用什么fil矿机比较好?

FIL矿机怎么买 fil挖矿

熵核科技,自主研发虚拟机赋能安全操作系统

熵核科技

支付安全 安全操作系统 物联网安全 eSIM安全

保洁阿姨分享:腾讯架构师JDK源码笔记,13万字,带你飙向实战

Java架构师迁哥

字节取消“大小周”,管理者与员工的“灵魂争夺战"从未停歇

抖音打击刷量控评行为:数据造假是互联网行业的毒瘤

石头IT视角

实时个性化推荐(三十六)

数据与智能

算法 推荐系统

火爆 GitHub!这个图像分割神器开源了

百度大脑

百度 算法

性能测试软启动初探

FunTester

性能测试 接口测试 测试框架 压力测试 测试开发

7.24 杭州站 | 阿里云 Serverless Developer Meetup 开放报名!

Serverless Devs

云计算 阿里云 Serverless 云原生

再谈BOM和DOM(4):DOM0/DOM2事件处理分析

zhoulujun

DOM DOM事件 DOM0 DOM2

算法大赛报名 | OMG!这些名企的真实数据竟用来battle

工赋开发者社区

算法 工业互联网

OaaS会是理想的运维外包模式吗?_亚马逊云科技_sai_InfoQ精选文章