阿里云李津:云计算需要把关整个链路

  • 木环

2016 年 6 月 23 日

话题:云计算语言 & 开发架构阿里云

阿里云厦门云栖大会上,阿里分享了云构架、企业级互联网架构和云计算大数据创新的经验,并获得了新加坡多层云安全 MTCS 最高安全评级 T3 认证。会后,InfoQ 就技术问题对阿里云资深总监李津进行了采访。

受访嘉宾介绍

李津,阿里云资深总监,全面负责阿里云飞天事业部产品技术研发。

InfoQ:负载均衡一直被视为是云计算的重点,阿里早先分享过4 层和 7 层负载均衡的技术。请问现在的负载均衡是怎样的?

李津:负载均衡 SLB(Server Load Balance)在 4 层和 7 层都有的,不过使用时可以选择性关闭,这个取决于用户自己的需求。4 层主要是在做网络层的分发,而 7 层是在应用层的分发。阿里过去早先采用的是一个厂商 F5 提供的 SLB;后来是正明老师(章文嵩博士)开源的 LVS,这个 LVS 的理念和体系被保留下至今。不过今天的这个 LVS 已经进化到了三四代,代码、硬件和软件形态已经完全不一样了。

InfoQ:同一个手机端发出请求的会话保持,一般情况下是怎样处理的?如果某台服务器坏掉了呢?服务器坏掉了之后的工作是怎样的?

李津:一个手机所对应的服务端,应该是有多台服务器。如果只有一台,这个请求是一定会落到它上面的,并且是保持的。对于多台的情况,如果会话的性能已经下降了,机器已经负载偏高,那么这时就会调控。我们是基于服务质量去做调控的。

如果服务器坏掉了,用户端的 session 会被保持,然后再重新分配到一台新的机器。服务器坏掉之后,我们内部的处理是全部自动化的。人所需要做的就是定规则和写代码,在之后的使用过程中是没有人工介入的。

InfoQ:在域名解析环节,与传统相比做了哪些优化呢?

李津:阿里云自己研发了一个公共的 DNS 服务。这个公共的 DNS 服务,是因为普通用户使用移动运营商 DNS 服务的一个补充。因为我们希望用户是可以:一简单地选择;二有更多的选择;三要保证用户在 DNS 解析时,一定要解析到对的。DNS 劫持现在还是蛮多的,我们期待保护用户在信息链路的信息安全和隐私保护。

InfoQ:在数据化实时处理这里,对于数据选择性落地时怎样做的?

李津:任何数据引擎都要做到有效数据的保存,中间态的数据(除非用户有特殊需求),最后存的只有结果数据和原始数据。这一点,不论是什么计算平台都是一样的,这样做是为了进行二次校验。

InfoQ:金融的数据处理有什么特别的地方吗?

李津:不论是哪个行业的客户,所有数据的保存、所有的数据幂等和验证这三项工作都是必须要做的。所有的用户在数据的基本实现上都是一样的。

金融的数据保存和普通的数据保存确实是不太一样的。技术方案是具有相似性的,但技术投入是不一样的,数据保护也是完全不一样的:因而提供可靠性的指标也确实是不一样的。但并不是所有的数据工作都是云计算厂商在做的,数据库的使用者,他自己也要做很多事情。

InfoQ:能谈谈阿里对于容器技术的看法吗?

李津: Docker 的使用过程要比理解这个概念困难得多。我们在之前的会议上也提到过这些问题,Docker 并不是说今天你把它装上,明天你就能去用了。今天对 Docker 的使用还是在一些大的互联网的公司中去用,因为对一些普通的用户来说使用 Docker 其实是有一些门槛的。而让 Docker 变得易用,是我们的一个诉求。

第二个,是说让 Docker 和其他的云产品打通,这是阿里和 Docker 一块去做的。所以你能看到今天 Docker 已经支持我们的 OSS 的产品、弹性计算的产品。这样你使用了 Docker,你就可以提前去使用我们的产品了;否则话还得去做中间层,这是 Docker 对我们的支持。

第三个,今天的 Docker 编排是一个单独的服务,是让你快速部署去用的,最大的价值是让你的运维变得简单。让运维变得简单,实际上是个服务的编排。

有一个比喻:Docker 就像发明了锤子,因此就要一群人发明钉子。Docker 概念火,可普及性不高;但是一旦做过去,接下来的事情会变得简单。

InfoQ:阿里现在挑战语音识别和图像识别,包括以后可能会有视频分析识别,这些业务会不会对数据的存储与结构、系统构架带来很大的变化呢?

李津:数据存储这里不会再发生变化了,这里的问题我们已经早就解决掉了。

计算这边会发生变化。计算模型决定了消耗,主要需要解决的是计算能力的问题,包括硬件、CPU 算法、FPGA 算法。这需要结合新的硬件体系、新的计算模型和算法模型。我们期待在年内就推出相关的产品,最终音频和视频一定全部解决掉。

InfoQ:能否简要解释下“阿里可以在几分钟内启动 4 万核计算”?

李津:我们现在的标准说法是,十分钟一万台。十分钟一万台服务器,就是一个集群交互的概念。

当需要用大规模资源的时候,是去整集交互的。这里面的工作涉及到:对硬件的调动、对硬件资源的拟合能力;拟合后对资源的再分配再增添、分发、数据传输、启动、对虚拟化底层的优化;然后对整个镜像的分发部署,启动后再去检测是否所有应用都正常启动。这里面全部都要去做一个完整链路,这是一个很麻烦的一件事情。

InfoQ:很欣慰地看到,某些方面我们中国的技术可以领先于外国。

李津:我们在过去的一年里面,做了十几场的海外的论坛主持发言。我们 Xen 漏洞、计算调度方面的发言都是安排在核心的场次中,并且都是很热门的。基本上现在国外和云计算相关的大会上,阿里是比较靠前的。

在你第一眼看到别人的技术远远超越你的时候,悲观甚至放弃是太正常的事情,就有人这样做。但事实上,中国能今天走到现在,包括中国白色家电、华为、现在新的阿里系等这些公司的出现,是因为有一批人他们坚信能够走下去。中国人是执着勤劳勇敢的:只要有时间,只要能够踏踏实实地去做事情,我们是会超越的。但唯一的问题是,当有一天你真的超越的时候,当你站在最前面的时候,再怎么走是需要更大的智慧的。


感谢郭蕾对本文的审校。

给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们。

云计算语言 & 开发架构阿里云