2020 Google开发者大会重磅开幕 了解详情

首都在线郑义:十年定能磨一剑,专注把IaaS服务做到极致

2016 年 7 月 08 日

1997 年首都在线开始经营拨号上网业务,19 年的时间这家公司已逐渐从 ISP 服务商、IDC 托管服务商,成功转型为云计算服务供应商,专注于向企业级客户提供 IaaS 服务。去年他们还曾在自己的云平台发布会上提出了“云连接世界”的口号,力图为客户提供稳定的全球私有化网络服务。

7 月 16 日首都在线即将以“6.18”背后的高并发电商系统架构实践为主题,在北京举办最新一期蝴蝶沙龙活动,为此InfoQ 提前采访了首都在线首席产品官郑义,请他分享了首都在线云服务的发展历程、遭遇的挑战及其对目前国内电商行业发展情况的看法。

InfoQ:请先谈谈您的个人经历,以及目前正在从事的主要工作。

郑义:高中毕业后开始出国学习,在英国完成了大学本科的学习,专业是计算机网络。毕业后,正好有机会进入 Janet 做网络相关的工作,Janet 是英国最大的面向科学研究和教育机构设立的专用网络,类似中国教育网。在这家公司最后做到了网络部经理,主要负责整个英国教育网的规划和实施工作。

大概在 07、08 年的时候,我离开了 Janet 进入 MaxNett 公司。这家公司主要是做的是 IT 服务,当时赶上英国的金融危机,对于 IT 服务公司来说,必须要提供一种解决方案帮助客户掘钱。在那个年代,MaxNett 就开始做云计算相关的业务,也是因此我开始接触云计算,直到 2011 年。

离开 MaxNett 后我来到了首都在线,首都在线是我在中国的第一份工作。在首都在线负责的工作相对比较多,刚开始主要负责云计算平台,后来开始带售前团队、解决方案团队,再后来做了两年的运维总监,期间做了海外的业务。从今年开始,我又回到技术岗位做产品,我现在担任 CPO,主要负责首都在线所有产品相关的工作,除了平台产品的落地、新产品的开发,更主要是去规划更长远的,比如两年以后、三年以后首都在线应该干什么,这就是我现在的主要工作。

InfoQ:接下来我们聊聊首都在线,关于首都在线的历史,这背后是否有一些故事?想请您结合自己的一些亲身经历,介绍一下首都在线的发展背景和成就?

郑义:很多人都知道,首都在线是一家很老的公司,而现在的公司想注册首都两个字是很难的,所以从名字也可以感受到这到家公司的历史感。

首都在线是 1997 年开张营业的,当时做得第一个业务是提供拨号上网服务,为什么取名叫首都在线?当时,我们好像是全国除电信、网通以外第三方提供拨号上网服务的第一家公司。在中国互联网发展初期的年代,大家对于网络的认识也都比较浅,拨个电话号码就可以上网,当时电信是 169,网通是 163,而首都在线提供的拨入号是 263,所以这个名字就是从那个时候来的,而这也是一家拥有 20 年数据和网络业务经验的专业服务公司。

当时互联网应用比较少,所以首都在线自己做了一些应用。大家应该听过,当时我们在著名的 263 集团的网络域名下面提供各种相对偏底层的互联网技术服务,比如基础性的 DNS 服务、互联网时间同步服务等等。后来 263 集团发展为国内专业的收费企业级电子邮件服务供应商,因此与首都在线的业务分离,开始独立发展。

InfoQ:在这么长的一段时间里,首都在线肯定积累了特别多的硬件资源,作为一家云平台服务公司,除了硬件之外肯定还需要软件的支持,想请您谈一下首都在线软件的架构是怎么样的?基于自主研发、开源软件或者用其他第三方的商业软件?理由是什么?

郑义:我们的确积累了很多网络方面的经验,在 2010 年选择云计算方向的时候,对我们来说这绝对是个很新的技术概念。虚拟化是实现云计算的关键技术之一,而那时可选的虚拟化平台并不多,只有 Hyper-V、VMware 等,但首都在线走的是 IDC 转型云服务的路线,因此我们非常清楚我们的客户需要什么。

首都在线云计算业务的设计初衷,就是为了解决如何快速提供服务,如何稳定为客户提供服务的问题。我们提出了快速、安全、稳定这几个必须的要求。当时我们在设计的时候,我们面向的两大类客户,一个是游戏开发者,一个是大型企业,而他们对整个 IT 平台的要求,就是我们设计云平台的一个出发点。所以我们提供的解决方案跟今天市场上很多都不一样,在虚拟化这一层,我们选择的是商用的解决方案,而这种商用的解决方案并不是为公有云设计的,因此我们在过去的几年时间里就需要投入非常多的人力物力去自主研发一个云计算平台,虚拟化软件只是其中很小的一部分,更重要的是,我们怎么能让首都在线这套平台更好的去管理我们的服务器以及网络资源。

现在市场上很多企业都在使用 OpenStack 这类开源平台,而我们就相当于是从头到尾编写了一个自己的 OpenStack 平台。这当然会耗费很多的精力,也一定会带来很多问题,但是这么做所带来的好处是,我们的服务更适合我们的目标客户。实际上在我们这几年的努力当中,我们在电商、游戏这些行业取得的成果是有目共睹的,基本上国内主流电商以及主要的游戏公司也都是我们的客户,而这些成就正是对我们软件平台的一种肯定。

InfoQ:从市场推广或者是官网上来看,首都在线目前的主要产品依然还是云主机,那么为什么首都在线不像其他的供应商一样,涉足更多的领域或是拓展产品线呢?

郑义:首都在线内部的愿景实际就是要把云主机做好,把 IaaS 服务做好。不论是之前主营 IDC 托管业务还是到现在,首都在线一直都将业务重心聚焦在基础设施服务上,我们认为 IaaS 未来的市场仍然会变得更大。另外一点,我们认为要所有领域的东西都做到最好实在是太困难了,因此我们只专注于将 IaaS 做到最好,而这就已经非常不容易了。

首都在线实际上在 PaaS 和 SaaS 方面也会推一些服务,比如云安全、DNS 服务或者是即将推出的备份服务等等,但是这些服务全部都是由我们的合作伙伴进行开发的。两年前,我们投资了一家叫首云的公司,我们的 PaaS 服务就是他们负责去做的,这家公司的员工基本都来自像 IBM、惠普这种大型的 IT 服务公司,他们知道企业用户真正需要的 PaaS 是什么样的,而且这家公司也会提供一些像云安全、云备份这类的 SaaS 服务。而同样的模式,我们也在跟其他的垂直领域的合作伙伴在合作。

首都在线希望搭建的架构,是一个非常稳定且庞大的 IaaS 平台,上面各种 PaaS 服务,都是由专注于提供相关服务的公司所开发出来的,而我们的用户也有很多就是 SaaS 服务供应商。同时首都在线也是一个开放的平台,希望能让更多的专注做 PaaS、SaaS 的企业能够跟我们一起合作,共同打造一个完整的云计算服务生态系统。

从用户的角度来看,过去几年首都在线都在有意去选择更专业,需要更高的生产型企业作为目标客户,以便在产品的交付模式,后台的服务模式以及产品的价格上形成市场差异化。所谓生产型企业是指它需要利用这个平台来盈利,服务器宕机或者服务中断一两秒都是不允许的。而当面对这样的客户时,我们服务团队的优势就会体现出来了,我们有 7×24 小时的技术人员在帮助这些客户,他们在任何时候遇到故障或困难,我们都会有人来进行处理。对于企业规模更大的客户,我们还有大客户服务团队,其中的技术人员非常了解大企业的 IT 架构,能够快速的解决客户的问题。而这也是首都在线在企业业务目标上有别于其他云服务供应商的体现,就是以更专业的技术与更专业的服务来面对需求更高的用户。

InfoQ:去年首都在线在产品发布会上提出了云连接世界的口号,通过自己的全球私有化网络实现了全球主机的稳定联网,这背后对网络的要求可能会非常高,所以想请您谈谈背后的这些挑战是怎么解决的?有什么样的解决方案?

郑义:我们的网络解决方案是重点发展方向,是因为我们在过去几年云计算整个经营过程中,我们看到了这样的趋势,所有的客户在满足市场需求的情况下,也在寻求发展,也不得不使用一些国外的服务,而如何保证数据和网络之间连接的稳定性,就成为了客户的一个紧迫的需求。

如何解决各国之间带宽拥挤的问题,如何真正用好现有的网络资源,这里面的挑战是非常大的。因为我们的专线或者我们自己的网络,从去年发布到现在都是免费的,因此成本问题,也让我们面临着巨大的压力。

那么该如何解决这些困难呢?首先是技术方面,我们有很长远的技术积累,我们之前从事拨号上网服务,因此我们在网络方面的经验非常丰富。其次是资源方面,云计算是网络上的一个服务,我们之所以从网络这个角度去深入到云计算,我们也是希望能让客户能够重视起网络的问题。很多用户会被一些新的功能或者技术所吸引,而忽略了背后网络的意义,云服务跟其他东西不太一样,它完全是一个通过互联网上使用的服务,没有一个很好的网络架构,不可能变成一个完整的 IT 系统的。

关于具体的解决方案,首先,我们自己有 SDN 在运行,我们也在上面做了很多的开发,让整体的全球的传输网络,实现全自动化配置,全自动化扩展以及对所有用户的流量分别进行分析以及优先级排序,在很多网络里面有各式各样的通讯,有的通讯是需要保障通讯,有的通讯可能只要保证它不断就可以,那在网络上面必须要对这些东西进行分类,这里我们积累的 SDN 等技术也起了很大的作用。

InfoQ:618 刚刚过去,国内主要的电商平台都是首都在线的客户,对于电商平台来说高并发访问是一大挑战,而且大部分电商平台都会在同一个时间段,做一些大规模的促销活动,这对基础设施的稳定性和扩展性的要求就会更高,所以想请您谈谈首都在线是怎么应对这种情况的?在性能和资源之间怎么找到平衡点?

郑义:这一点说复杂也不复杂。最主要的,应对这件事要有规模,事实上我们能够应对 618 的各种事件,或者说能够应对比如双 11,或者比如我们之前的一个客户,当苹果要发布一个新的 iOS 系统时,需要做大量的测试。

我们之所以能够应对这些情况,首先在整个技术平台上,我们有大规模的服务器以及资源储备。盲目去买一堆服务器不是办法,那么如何让这些负载能够更好地、更均匀地分布在各式各样的刀片服务器上,这才是我们对硬件管理的核心技术。云服务供应商特别是 IaaS 供应商,首先要做好的,就是管理好自己的硬件资源。我们自己写的叫 GIC 的类似 OpenStack 的平台,每时每刻都在监控着所有这些刀片的负载,哪些人的负载高,哪些人的负载低,哪些人的波峰出现在昨天晚上的几点等等,我们的平台会有完整记录。

比如 618,它会发生在十二点,我们就会把一些没有发生在十二点波峰的这些客户的应用转移到相应安全的一些机器上去,因为有的人的波峰可能出现在晚上两点,有的比如一些国外用户的波峰可能出现在早上四五点,因为于我们有长期的数据记录,我们可以分析出来,怎么样让放在我们服务器上的电商的服务器能够平稳的度过它高峰期的一个交易浪,最主要的还是决定于供应商对硬件资源的管理。大家都知道,只要服务器多,来多少大规模促销都可以,但是对一个企业来说,盈利是最终目的,所以最核心的要求还是在于管理,有效地去分配现有资源,而我们的确在云计算业务上获得的所有的收益都来源于对这些硬件资源的有效管理。

InfoQ:对于电商平台来说,公有云的安全性一直是比较受关注的问题之一,那么首都在线是如何保障用户数据安全的呢?

郑义:数据安全需要从两个方面来谈。一方面我们经常说的数据安全是指确保数据不丢失。其实我们自己最初在选择平台的时候,考虑的就是安全性以及稳定性。我们选用了商用方案,没有用到任何的开源或者相对廉价的服务来搭建存储系统,从一开始我们用的就是企业级高端的存储产品直到现在,所以对于数据存储的安全我们是可以保证的。

另一个安全,指的是我们内部的管理,对于内部的管理,我们曾去中国银行的数据中心学习过,因为金融数据是很敏感的,因此它对安全性的要求也很高。当时我们学到的一个非常重要的运营方式,就是不能把开保险柜的两把钥匙或者能够打开这些数据保险柜的钥匙交给同一批人。我们执行的方案也很类似,能拿到数据的人并不知道数据有什么用,而知道数据价值的人绝对拿不到数据,这样就能保证数据是非常安全的。

InfoQ:首都在线有很多客户是电商的平台,在您看来国内现在的电商业务发展对云服务的需求是否很大?而从云服务供应商的角度来看,又会有哪些挑战需要面对呢?

郑义:国内电商不像国外电商那样一年中只在圣诞节期间进行一次大规模促销活动,国内电商服务器流量波峰出现的次数要远远大于国外电商,而云服务的弹性伸缩能力,可以非常好的解决资源灵活调配的问题,使电商不用再纠结于高并发与成本控制之间的矛盾,因此云服务非常适合电商使用,而电商也确实对云服务有很大的需求。

对于云服务供应商的挑战,首先对于电商来说,他们更倾向于中立的供应商,中立的供应商可以提供相对放心的服务,而如果供应商不中立,就可能会出现互相抢占生存空间的问题,这对于电商用户来说,是不太愿意看到的。第二,如何更好地管理自己的硬件资源并快速的交付给电商用户,这也是云服务供应商需要不断思考和解决的问题,只有不断提升自身的服务质量和服务体验,才能更好的满足用户需求,提升用户粘性。

2016 年 7 月 08 日 02:12 1027
用户头像

发布了 31 篇内容, 共 80754 次阅读, 收获喜欢 0 次。

关注

评论

发布
暂无评论
发现更多内容

一行错误代码:5 亿美元没了。。。项目关闭。。。

程序员生活志

[8.20]leetcode每日一题,

一起搞稽

算法 DFS

基于Ambari的大数据平台搭建

数据社

大数据 hadoop ambari

PHP中的错误和异常

书旅

php 异常 常见错误

通过波士顿矩阵模型做产品定位

GuOjixIE

数据分析 产品定位 波士顿矩阵模型

他被称为"中国第一程序员",一人之力单挑微软!真牛!

程序员生活志

如何选择一台打印机

别把虾米不当海鲜

90后程序员小姐姐在线征婚!年薪70w!拥有五套房!她却担心自己因为年龄大嫁不出去!

程序员生活志

程序员

史上最强DIY,手工制作一只会说话的机器狗

华为云开发者社区

聊天机器人 nlp 华为云 语言识别 语言合成

MySQL视图介绍

Simon

MySQL

关于自增id 你可能还不知道

Simon

MySQL MySQL自增ID

python自动生成一整月的排班表

openbytes

Python

因为套用这个模板,我成了公司最佳员工

华为云开发者社区

网站架构 华为云 网站搭建 匀速建站 SEO

5. JsonFactory工厂而已,还蛮有料,这是我没想到的

YourBatman

Jackson Fastjson JSON库 JsonFactory

卡丁车的后轴是如何做到差速的?

TGP大跨步

科普 卡丁车 TGP 大跨步 素材

LeetCode题解:11. 盛最多水的容器,双循环暴力法,JavaScript,详细注释

Lee Chen

LeetCode 前端进阶训练营

IOTA架构下的数据采集

易观大数据

性能优化-技术专题-top和jstack分析高CPU问题

李博@Alex

JVM

Linux Page Cache调优在Kafka中的应用

vivo互联网技术

大数据 kafka

Spring-技术专题-Bean的生命周期简介

李博@Alex

spring

更改用户host留下的坑

Simon

MySQL

PM2 管理node.js开机自启动(非root用户)

openbytes

node.js

MySQL-长事务详解

Simon

MySQL mysql事务

揭秘MySQL主从数据不一致

Simon

MySQL 主从复制

影响音视频延迟的关键因素(二): 采集、前处理、编解码

ZEGO即构

H264 API 3A算法

芯片破壁者(十三):台湾地区半导体的古史新证

脑极体

市值管理量化机器人,做市机器人,自动刷单机器人

WX13823153201

比特币 数字货币

设计模式-技术专题-建造者模式(Builder)

李博@Alex

Java 设计模式

【数据结构与算法】用动图解说数组、链表、跳表原理与实现

三钻

数组 链表 数据结构与算法 跳表

哥尼斯堡七桥问题

InfoQ_aef2dd810f7f

LeetCode题解:66. 加一,倒序遍历+可中途退出,JavaScript,详细注释

Lee Chen

LeetCode 前端进阶训练营

微服务治理平台化探索

微服务治理平台化探索

首都在线郑义:十年定能磨一剑,专注把IaaS服务做到极致-InfoQ