章文嵩:开放与高可用是阿里云角力海外市场的关键

阅读数:2370 2015 年 5 月 4 日

话题:语言 & 开发架构阿里云




2015 年 3 月 4 日,阿里云宣布北美数据中心正式启用,这也意味着国内云厂商开始登上国际舞台。为此,我们采访了阿里云现任 CTO 章文嵩博士。

章文嵩,国防科学技术大学博士毕业,国防科技大学计算机学院副教授,LVS(Linux Virtual Server) 开源软件创始人,现任阿里巴巴高级研究员,现担任阿里云 CTO。


InfoQ: 我们知道淘宝技术团队在运维方面的积累很多,阿里云在初期曾经历了一些波折,现在的运维与应急响应机制是怎样的?目前的系统能否达到您四个九或者五个九的要求?

章文嵩:阿里云的运维和淘宝背后是同一个团队在支撑。大家感觉到淘宝的稳定性,是基于底层和应用层都有高可用的设计,这使得底层的部分硬件和组件故障一般不会造成应用本身的不可用。而在阿里云平台上承载上百万的客户,任意故障对一个云客户造成影响,对这个客户来说就是全部。也使得故障更为可感知。阿里云在云平台内部从光纤网络、硬件到软件上都做了很多高可用的设计,最终要实现整体的高可靠性也建议客户在应用中也要做高可用设计,两者配合以达到应用五个九以上更高的可用性。

若针对每个客户可用性的均值,我们的 ECS 和 RDS 都达到五个九以上。但是我们对各个云产品的整体可用性指标定义更为严格,不是按均值,而是按对用户造成的影响度,例如有云产品定义对 10% 用户造成影响就记为云产品整体的不可用时间。严格的度量体系可以指引我们把云产品做得更好。

InfoQ: 我们知道您在淘宝的底层基础设施上做了很多改进,大大降低了运营成本。您能从开源技术、去 IOE、低功耗服务器、阿里骨干传输网以及硬件红利等几个方面谈谈阿里云在降低运营成本方面所取得的成就吗?

章文嵩:你提到这些方面我们都有很好的工作在开展,在开源技术上我们有相当的积累,例如我们在 XEN 和 KVM 有很好的技术专家,在全球云计算厂商如 Amazon、linode 等应对最近 Xen 缺陷需要重启 VM 来解决时,我们找到方法作热升级解决这个缺陷而无需重启 VM,旭卿(张献涛,阿里云资深专家及虚拟化技术总监)也将在 QCon 全球软件开发者大会上分享;在去 IOE 上,我们积累丰富的高性能服务器经验,这些经验都融入到我们 RDS 服务中;低功耗服务器上我们有 64 位 ARM 服务器已跟 ODPS 在作测试;阿里骨干传输网 ABTN 在国内互联网公司中我们运行 BGP 是最早的,服务质量应该是最好的;服务器我们在定制并在组件级作精确的供应链管理来降低云平台的成本。

但是我觉得最重要的工作是我们过去一两年对全线云产品建立的相对精确度量体系。全链路监控与实时异常分析平台可以让我们知道每个请求所对应的各个环节处理时间和以及时间波动,有机会来改进和缩短响应时间减少波动,异常分析与处理让阿里云平台更稳定,动态热点迁移和调度技术逐步提高云平台的资源复用率,这会是阿里云平台的最大竞争优势。

InfoQ: 提到开源,您本人是开源技术的倡导者,淘宝从开源受益的事例(例如 TaobaoJVM)已经广为人知。阿里云在近几年的发展中有哪些受益于开源又反哺到开源的例子可以分享吗?

章文嵩:这样的例子有很多。因为淘宝和阿里集团的基础平台团队现在都合并到阿里云了,阿里云承担对外公有云和对内基本平台的职责,在阿里是一个统一的基础平台研发团队。我们受益于开源回馈开源的项目有 Linux 内核、LVS、MySQL、Tengine、jstorm,还有你所提到的 TaobaoJVM 等。最近一个很好的例子是我们 RDS 团队因为 MySQL 上的能力和贡献应邀成为 WebScaleSQL 开源项目的全球第五家公司成员。

InfoQ: 我们也看到阿里云在安全方面有许多建树。您能谈谈阿里云安全相关的工作吗?

章文嵩:阿里在安全上有很多像云舒这样国内顶级的安全专家,我们把安全的技术和经验做成云盾安全产品为我们云客户提供安全服务。云盾在 2014 年 12 月 20 至 21 日为一位网游客户防住持续 14 小时的拒绝服务攻击,DDoS 峰值流量为 453.8Gbps 每秒。

InfoQ:在政府大力推广云计算的背景下,各地新建过很多大型数据中心。这些政府主导的基础设施建设对云服务企业会不会构成另一个竞争因素?您怎么看待这个问题。

章文嵩:不会构成竞争,阿里云和阿里巴巴集团(有些是和集团签署的)已经跟 12 个省 / 市 / 地区 / 直辖市签订战略合作。地方政府建设数据中心,我们可以输出云平台的软件和运营经验,可以联合运营云平台,达到共赢。

InfoQ:除了国内云服务商,国外的 AWS、Azure 等也一直在抢滩国内市场,你认为国内云服务商应该怎样面对这样的竞争局面?阿里云在海外市场的进展如何?

章文嵩:据我了解,阿里云规模在国内是第二名的近 10 倍,并且我们的增速依旧高于第二名。我们有二十多种云产品,产品线比较丰富,未来会有更多的阿里技术能力变成云产品对外输出。国内企业在 IT 需求上多样性和复杂性跟国外会很不一样,如何建设云的生态系统来应对这些复杂需求是大家面临的共同挑战。

我们在 3 月 4 日宣布美国硅谷云平台投入试运营,为北美和全球客户提供云服务,这一个多月销量非常好。今年将会继续考虑在北美、欧洲等全球各地选址建设云平台。阿里云更多地思考是用户需求在哪里,我们就去哪里发展。比如,我们选择美国市场作为海外的第一步,就是因为很多国内客户有在美国拓展业务的需求,我们为了满足客户对云计算部署的需要,建立海外数据中心。我们同时也非常愿意和在专业领域里有建树的伙伴达成合作,共同有效地为客户提供云计算服务。

InfoQ:越来越多的创业团队把产品和服务部署到云上,阿里云对创业者的支持和服务是怎样的?您对这方面的业务有什么规划?

章文嵩:创业公司最适合部署在云上,随着访问量的增长可以在云上快速扩展。例如,前几天趣分期因为获得融资的消息,导致网站访问量有意想不到的成倍增长,当天晚上在我们云上就进行快速扩展。阿里云联合百亿资金对创业者推出了“创客 +”计划,提供从开发组件、分发推广、办公场地、前后期投资到云服务资源的一系列创业扶持,帮助创客实现梦想。目前,“创客 +”平台上优质项目众多,仅试运营期间,就有 141 个创客项目成功融资 2.7 亿元。

感谢崔康对本文的审校。

给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流。