阿里速卖通郭东白:交易量冲垮六大银行,技术胜利刺激脉搏心跳

  • 陈兴璐

2016 年 6 月 21 日

话题:阿里巴巴语言 & 开发架构

传统的性能优化往往只注重一个技术指标,最终的业务结果很难量化。而阿里巴巴的 AliExpress 团队有一个方法——基于大数据准确度量性能对电商业务的回报的方法,解决了这个问题。

任何一个微小的局部性能优化(investment)带来的新增订单(return)可以被精确估算出来。因此,在性能上的投入产出比(ROI)就可以被准确度量出来。这种准确的度量,不但帮助技术团队更理智地决策在性能的投入,而且带来了新的跨团队、可拆分,并且是可以大规模协同、跨领域复制的全新的性能优化模式。

2016 年 7 月 15-16 日,ArchSummit 全球架构师峰会将在深圳举行,本届大会,我们邀请了阿里巴巴 AliExpress 技术部总监郭东白老师,前来分享《基于大数据的全球电商系统架构性能优化》的内容。利用这种性能优化模式,阿里巴巴的 AliExpress 团队在 6 个月内带来 10.5% 的订单增长,并且这个模式被复制到了阿里巴巴全集团十几个 BU,其中包括淘宝、天猫、聚划算和阿里云。

这个性能体系的背后有什么样的技术支撑呢?我们就来采访一下郭东白老师,听听他是如何带领 AliExpress 团队完成了那么多的创新。

受访嘉宾介绍:

郭东白,现任阿里巴巴 AliExpress(速卖通)技术部总监。主要从事云计算和互联网电商领域的研究。有 16 年大型软件系统研发和架构经验,对跨大洲、高可用、高流量服务端软件架构和研发有深入研究。领导设计了全球跨国家、多市场、多语言、多币种、实时个性化、每秒近万笔订单量的多机房异地多活电商平台,连续两年在超过 200% 流量增速下保持了 99.99% 的可用性。

InfoQ:你的经历很让人尊敬,可以介绍一下自己的从业经历吗?

郭东白:我是 2001 年布朗大学博士毕业,然后到了 Oracle,开始做图像检索,后来做医疗图像数据库,同时负责整个 Oracle 的全球医疗图像标准的组织和参与。2010 年离开 Oracle,到了 Microsoft 的医疗事业部,做医疗数据的语言网络、数据供给链和数据挖掘。之后又到了微软的 SQL Server 部门做数据市场,也就是做流数据的在云上的售卖系统。之后到了亚马逊,做亚马逊即时视频,也就是数字电商。在 Microsoft 和亚马逊我也是一直担任其相应领域的全球标准领导人和策略制定者。

整个职业生涯我一直在修炼三个技能:

  1. 全栈架构能力。
  2. 整个数据供给链的知识,这里包括采集、处理、大数据分析、语义和电商体系。
  3. 标准化的软件研发体系。

InfoQ:你在美国生活工作 19 年,是什么原因促使你回国?成为阿里速卖通的技术总监,是基于中国国家千人计划专家的邀请,还是临危受命?

郭东白:我倒不是因为千人计划回国的。我是先回国然后才申请的国家千人计划。回国主要是看中了 AliExpress 的技术挑战。2014 年 AliExpress 有数十亿美金交易额,全球网站排名前 50,日成交下单数千万量级,成交国家 200 多个。

这里面都具有大数据问题的高容量、高复杂度和高速的特征。这样的大体量、高增长的业务对一个技术人员来说是个梦寐以求的天地。回国给了我们相当多展示才能的机会,那种感觉就像,孙悟空逃离五指山下后翻的第一个大筋斗。

我们做到现在已经有了新的飞跃,AliExpress 线上有近万种移动设备,而 APP 发布不到一年,在全球 40 多个市场下载量排名第一。 这些都是一个技术人想要追求的挑战。

InfoQ:电商全球业务天然具有很高的复杂性,譬如设备、国家、语言等带来的复杂性,这些带来了哪些具体技术挑战?如何解决?

郭东白:一两句话难以解释清楚。举个例子,我们为 AliExpress 搭建了全球网络的监控系统,用红色表示网络有重大故障,绿色表示一切正常。从一年前监控开始到现在,还没有哪一刻全球整个网络全是绿色的。每睡一觉醒来就发现总会出事儿,但是你就是不知道问题出在哪里罢了。

再以西游记做个比喻。我们的系统好比是唐僧,我们就好比是孙悟空。孙悟空一不小心,哪怕只是转身吃个桃子,唐僧可能就被妖精抓了去。就像在取经的路上有很多妖精,我们也是每天都在打妖精打怪,最大的问题是,怪从哪里冒出来你还真不知道。

InfoQ:你担任速卖通技术总监的近 2 年时间里,经历了速卖通哪些重大事件?

郭东白:2015 年双 11 那一天,我们在 214 个国家和地区有 2200 万单交易,当时全球有六家大银行被 AliExpress 的交易量冲垮,但是我们自己的系统在 300% 的峰值交易量增长面前没有任何闪失。

作为一个技术人,我很为自己的团队和系统骄傲!

InfoQ:很多人非常关注电子商务全球化的安全、运维、性能优化以及全球监控问题,请介绍一下速卖通对这些问题的应对措施?

郭东白:性能优化的具体措施我会在深圳 ArchSummit 全球架构师峰会上做介绍。

我在 AliExpress 领导开发的这个性能体系有背后的理论支撑,有完整的平台建设,有全球监控能力,有研发组织保障,有在全集团的推广,有长远规划,而且最最重要的是有真金白银的业务回报。其他的体系的战略也类似,不过我不是专家,将来有机会我可以邀请这方面的专家到 ArchSummit 全球架构师峰会为大家做介绍。

我想强调的是,我们以开放的心态迎接各种挑战,这里面包括对前沿科学的研究,对相关技术(比如说黑客的动态)的监控,而最重要的是,我们还在像 ArchSummit 全球架构师峰会这样大会上进行对外的交流分享。

InfoQ:电商交易的跨州异地双活能力,只有阿里具有这个技术,可以讲解一下这个技术吗?

郭东白:这个领域内我们仅去年申请了 11 项专利,不客气地说,在这个技术上 AliExpress 已经走在了全球竞争对手的前面。因为这里面技术体系很复杂,不是一两页纸能讲清楚的。希望将来有机会我可以对外分享。

InfoQ:速卖通在俄罗斯、巴西发展迅猛,但在当地几乎都没有速卖通专职员工,这背后依赖了什么技术,使得速卖通可以抢夺并超越 Amazon 和 eBay 的市场份额?

郭东白:这个主要得益于 AliExpress 的创业思路。从第一天起,AliExpress 就是一个全球市场,这个和传统的设计,比如 Amazon、eBay,是很不同的。

我们通过数据化运营的方法,而不是铺人铺团队的方法做业务扩张。事实证明这个思路是正确的,这是一场技术的胜利。(有点 AlphaGo 的感觉,哈哈 :P)

InfoQ:速卖通计划 2020 年全球零售平台交易额达到 6 万亿,要完成这个宏大计划,是否已经有相应的技术准备措施?

郭东白:我们已经做了一系列的技术储备,比如说我们整个系统已经做到的 Scalable。就是说,我们可以把一个系统部署到全球几个、几十个,甚至是几百个机房,而我们的运营成本却不会成十倍或者是百倍地增长。这是我们最强的技术储备。

InfoQ:作为中国电商全球化业务的技术带领者,有什么感悟或者经验可以与大家分享吗?

郭东白:我感觉做全球化业务最关键的一个字就是“快”。全球市场现在已经是处于一个竞争环境,只要你反应够快,对手再强大你还是有机会的。

InfoQ:感谢你接受我们的采访。期待你在 ArchSummit 全球架构师峰会上的分享。

阿里巴巴语言 & 开发架构