红帽白皮书新鲜出炉!点击获取,让你的云战略更胜一筹! 了解详情
写点什么

美团云:先做实、再扩展,做用户心中的可信云平台

  • 2015-08-25
  • 本文字数:4534 字

    阅读完需:约 15 分钟

饭否上偶尔看到.rex 美团云的促销信息,“啊呀,村长(饭否用户对王兴的称呼)要做云计算咧”,这是我对美团云最初的印象,大家口头支持一下,然后转身散去各忙各的。作为饭否的忠实用户,我用猫眼买电影票、用美团外卖点便当、用美团团购买折扣券。但我并没有也不会意识到,这一切服务其实就跑在美团云上。

在国内的一些云计算会议上,美团云偶尔会有一个标准展位,不动声色地刷一下存在。2015 年7 月, EGO 走进美团时,我才初步了解美团“千亿市场”背后的技术力量——美团云。2013 年 5 月,美团云开始对外提供公有云服务。截至目前,对象存储、Redis、MySQL、负载均衡、监控、VPC 等服务悉数上线。日前,InfoQ 采访了美团云负责人李爽和美团技术学院院长刘江,藉此来一探美团云的全貌。

InfoQ:您现在负责美团云的整体业务,能跟我们解读一下美团为什么要做云吗?

李爽:2013 年 5 月美团云刚上线的时候,当时美团单月交易额大概在 10 亿元左右;今年 7 月美团的单月交易额已突破 111 亿,单日交易额峰值突破 5 亿元人民币。这对我们系统和网络的稳定性要求是非常高的,完成这些支持也必然是美团云的使命。

美团的团队文化比较低调,所以在市场上的声音不大。这造成的一个现象是,大家不了解我们。多数人以为美团只是做团购业务,其实酒店、旅游、外卖、电影我们也都在做。美团的技术创始人有着很深的技术背景,造就了美团浓厚的工程师文化氛围。美团喜欢用技术手段提升公司业务的运营效率,云计算和大数据其实是近几年我们提高生产效率和优化资源配置的两个技术手段。发展到现在,我们做美团云是水到渠成的结果。

另外,我们做云是经过深思熟虑的。这是长期战略思考的一个决断,早在 2012 年王兴看到美团未来发展的趋势,为了承载高速增长的业务我们开始做私有云,经过一年多的发展,公有云正式推出。这时(2013 年 7 月)美团所有的业务已经全部放在了我们的私有云平台上。目前,美团云支撑了超过两亿用户的高并发访问,以及 PC 端和移动端多业务类型的交互。目前美团云的用户主要是电商云公司、O2O 商户、物联网业务相关的企业以及传媒公司。

InfoQ:国内云市场竞争激烈,海外巨头纷纷入华落地,国内新老厂商也大力建设云。美团云起步稍晚了一些,您能谈谈美团云的优势吗?

李爽:我想这跟美团自身的特点十分相关——在经历了大量的技术积累和大规模的商业运作之后,美团云的产品和服务已经成为经过验证的可信云服务。

另一方面的特点是,美团云的产品大多是自主研发,并且经过实战考验之后才部署上线。最终的目标是稳定、可靠。

第三点,我们开始投产使用高品质、高等级的机房,新上线的三区机房位于亚洲最大的单体数据中心内,拥有完备的 BGP 线路和异地方案。我们希望给客户提供的是整体的解决方案,而不只是售卖云计算的资源。

InfoQ:您对云计算的底层设计有着丰富的经验,想问下您美团云在高性能网络处理方面有哪些特点?新机房的建设有哪些进展?

李爽:网络建设在云计算中十分重要,根据我们的数据显示,80% 的用户反馈都与网络相关,这也是用户比较关注的体验。

云计算的网络分三个部分。第一部分是运营商的公网接入,主要是用户怎么来访问我们的数据中心,第二部分是数据中心内部的网络架构,这跟网络设备比较相关,第三部分是主机端的网络以及网关的处理。我们讲的高性能网络通常是指第三部分。

现在大部分的云平台通常采用的是 Linux 系统自带的网桥,或者是一些开源的网络组件。为了兼容性,其性能会有一定的损耗。美团云现在的用户态驱动是绕过了 Linux 内核对网卡直接进行操作,这样网络的性能会有很大的提升,同时也提高了网络的吞吐率,用户在我们的内网访问的网络延时会极低。不仅仅在主机端,在四层的网络负载均衡中我们也采用了同样的技术。

新机房的建设是和三大运营商直接合作,选用了当地最高品质的机房。我们同时也作了自己的 BGP,接入了三大运营商的骨干网的,让用户有更好的访问体验。我们 8 月上线的新机房,就是采用了骨干的机房和骨干 BGP 的资源。目前美团云采用的是 T3+ 的机房,今年 8 月上线的机房以北京区域为主。下半年会在华东和华南区域建设,区域之间用光纤互联,这样能让用户实现多点异地的灾备方案。

InfoQ:接下来想请您谈谈迁移的问题。由于各种原因,多活可能会成为企业以后部署业务时的重要决策。美团云在业务和数据迁移方面的规划是怎样的?用户在不同机房之间、甚至不同云厂商之间进行迁移和切换的支持如何?

李爽:美团云的定位不仅仅是云资源的提供,更致力于打造可信云服务。首先,同城会开启多个数据中心,数据中心之间用光纤高速互联。用户在我们的数据中心之间可以很方便地传输数据,不会受限于公网带宽。此外我们正在全国布局数据中心。由于市场发展,混合云也是很多客户关心的地方,从开放的第一天起,美团云就提供了丰富的 API 给用户部署和使用,而且大部分的 API 是兼容 AWS 的,大大降低了用户使用和开发过程中的难度。美团云是一个开放的、标准的云平台,不会给用户在使用方面造成门槛。

InfoQ:谈完迁移,我想再了解一下网络方面的情况。由于 AWS 的发展,VPC 已经成为业界标准。之前我也了解到美团云的架构是平台之上私有云、办公云和业务云互相隔离。方便聊以下美团云在 VPC 方面的设计思路吗?

李爽:从我们的角度来看,VPC 被定义成产品会更贴切,因为它是使用了大量跟网络相关的技术的集合,来实现一个私有网络的交付。早期的 VPC 主要是基于软件来实现的,随着标准的形成,现在网络芯片商开始支持 VPC。美团的虚拟网络化是基于 VXLan 来做的,目前市场上销售的产品对 VXLan 的支持是有的,但是支持比较有限。因此美团云根据自己业务的特点和硬件厂商支持的情况,采用的是软硬结合的方案来做 VPC。对于大域的隔离,比如像我们的私有云、办公云等,我们采用的是网络设备物理隔离的方案,这样实施简单、效率最高。对于单一域内部,VPC 是基于软件的隔离方案,这样做会更加灵活。让硬件做一些简单高效的事情,让软件做一些灵活、可扩展的事情。

在 2013 年,美团云是基于 OpenStack 搭建的,但是发展到目前仅有两个组件——OS 镜像存储、Keystone 的管理是使用 OpenStack 技术。其余的部分已经全部更换为美团云自主研发的组件。

InfoQ:之前我也了解到美团在商品推荐方面做的很出色。想问下美团云未来会把这方面数据分析的能力产品化并提供给用户吗?

李爽:大数据平台是我们近期在做的事情,也是我们要推出的一项重要服务。我们也看到大数据的应用对美团业务的发展有着很大的好处和推动。我们也跟市场上的客户在聊,了解大家对数据方面的需求。美团云内部对数据的应用是比较成熟的,我们内部的产品是基于 Hadoop、Spark 等开源产品构建的,因此用户在使用我们这个开放平台的时候不会产生额外的技术壁垒。这是第一步,我们先给用户一个数据处理的平台。第二步,我们会把一些常见的数据处理组件开放出来,比如简单的一些报表功能。再下一步我们会把类似于推荐算法、用户行为预估这样的功能做为组件,提供出来给用户使用。这样用户也不用关心平台的运维问题,只需要关注数据的挖掘和处理就好。当然,不同的用户对产品的需求不一,研发能力强的用户可以直接用 API 自己开发新功能。

InfoQ:2013 年美团全部业务都迁移到了自己的云上。今年(2015 年)美团发力 O2O 市场,6 月流水过 90 亿,7 月流水已突破百亿,全年目标直指千亿。这对美团云来说会有哪些挑战?您能介绍一下目前的技术团队吗?

李爽:挑战有两部分,第一部分的挑战是跑在私有云上面的业务,主要体现在成本和效率方面。我们会根据自身业务的特点去不断优化我们的硬件设备和网络架构,比如像 IDC 用电方面的优化,比如对于应用的调度优化、提高资源利用率的优化。所有这些都要考虑成本的投入,但也不是说以压缩成本为目的。

第二部分的挑战我觉得是对客户需求的了解和认知,把握用户需求与美团云产品的契合度。因为美团云推出的所有产品都是美团自己内部用过之后,经过考验和锤炼才会发布出来。这可能也有一些弊端,我们无法像 AWS 那样提供功能超级丰富的产品。因此我们目前的定位是,先做实、再扩展。先把我们能做好的事情做踏实,再陆续扩展其他的功能。

美团云的技术团队是经验十分丰富但又十分年轻的 team,85 后、90 后占了大部分。在每个技术领域我们都有一流的技术专家,这个一流不止是在国内,而是在国际上都是一流,我们让这些技术专家去带团队里的年轻人。这样有两方面的好处,一方面经验丰富的一流专家会让我们的云平台更为稳定可靠,另一方面年轻人的活力和创造力能开发出更有创新的产品。这跟前几天玉伯写的《我心目中的理想团队》很类似。

InfoQ:我一直关注美团技术团队的公众号,看到过很多优秀的技术分享,也了解到美团内部经常有一些黑客马拉松活动。现在美团成立了技术学院并聘请刘江老师任院长,您能谈谈美团的工程师文化和美团技术学院的情况吗?

刘江:虽然我刚来美团不久,但是我也能感受到美团很强的工程师文化,美团的创始人都是技术背景,从根上讲是技术驱动型。美团的 O2O 是很商业的业务类型,因此线上的东西大家做的看起来都差不多,但为什么美团当年能从千团大战中胜出呢?其实线下还是靠技术的驱动。美团的业务是连接消费者和商户,是给商户、用户创造价值,价值体现在提高大家的效率,这些最后其实还是靠 IT 系统来实现。美团的基础设施分成了两层,一方面提供给消费者、一部分提供给商户,我们还有很多内部系统,比如我们内部有一个沟通工具叫大象。用户端看到的是一个个的 APP,商家也是一个个的 APP,另外还有很多 CRM 系统。美团云的技术可以提供给更多客户使用。

技术学院有很多内容跟同行也相似。到最后你会发现大家比的不是基础技术,同行之间技术交流分享彼此可以节省很多时间。目前美团有一千多技术人员,随着技术人员的不断增长,如何保证技术氛围和工程师的个人成长是美团技术学院要解决的问题。

InfoQ:聊了这么多,最后我想请您谈一下美团云的定位,以及美团云未来的方向是什么?

李爽:云计算是一个长期的过程,传统 IT 市场规模大约是 3 万亿美元,国内市场也有几万亿人民币。企业云化需要很长的一段时间,传统的 IT 结构很难支撑企业高速发展的业务。我们的定位是做一个靠谱、可信的云计算平台,这也跟美团的产品以及工程师文化是相关的。

首先我们会全面优先支撑美团业务的生态圈以及几百万的 O2O 商户,这是我们很明确的第一个方向。第二个方向是,O2O 的架构跟电商十分类似,前段时间我们在可信云大会上拿到了一个电商云的奖项,做电商云也是我们在市场上的一个定位,我们希望把美团做电商的一些积累和想法,能跟用户一起分享,把用户、把自己的业务做的更流畅、更通顺。通过这两点,我们希望美团云能成为一个给客户提供解决方案的云服务商。

当然还有我们开放的大数据处理平台。这也是我们重点投入的一个方面,希望更多的用户能来尝试大数据。一句话来说,以服务为导向,我们希望美团云能从可信云认证变成市场上的可信云认证,最后变成用户心目中的可信云平台。


给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2015-08-25 09:472419
用户头像

发布了 64 篇内容, 共 22.4 次阅读, 收获喜欢 11 次。

关注

评论

发布
暂无评论
发现更多内容

业务中台建设 - 配置化

孝鹏

中台 微服务 配置化开发

单点破局思维|技术人应知的创新思维模型(8)

Alan

个人成长 技术人应知的创新思维模型 七日更 28天写作

代码零改动Serverless架构升级?这家在线编程教育企业是这么做的

阿里巴巴中间件

Python Serverless

生产环境全链路压测建设历程 18:某快递 A 股上市公司的生产压测案例之中篇

数列科技杨德华

全链路压测 七日更

最有技术含量的面试

escray

面试 面经 七日更 十日谈

如何成为架构师?

xcbeyond

个人成长 架构师 七日更

wildfly 21的domain配置

程序那些事

程序那些事 wildfly wildfly21 配置管理 domain模式

语音助手中的复杂语义表达方法

DataFunTalk

AI nlp

任务发布系统软件开发|任务发布APP开发

系统开发

Nginx常见典型故障|Linux干货

赖猫

c++ nginx Linux

《数据分析》PDF免费下载

计算机与AI

数据分析

MySQL字符集修改实战教程

Simon

MySQL 字符集 七日更

[git使用技巧] git提交忽略不必要的文件或文件夹

xcbeyond

git 七日更

如何破解AI数据困境?京东智联云联邦学习平台有良方

京东科技开发者

人工智能 大数据 学习

附PPT丨AWS基于数据湖构建云上的数据分析架构

dbaplus社群

数据湖 AWS

引领云原生发展浪潮 阿里云开启云原生大规模落地元年

阿里巴巴云原生

云计算 阿里巴巴 阿里云 最佳实践 云原生

Shell简介

入门小站

Shell

手写线程池,对照学习ThreadPoolExecutor线程池实现原理!

小傅哥

Java 小傅哥 线程池 七日更 ThreadPoolExecutor

30G 上亿数据的超大文件,如何快速导入生产环境?

楼下小黑哥

Java MySQL 并发编程 线程池

Go中的Channel背后的设计哲学

soolaugust

Go Concurrency Patterns 七日更 CSP Go 语言

如何在 20 分钟内给你的 K8s PaaS 上线一个新功能?

阿里巴巴云原生

阿里云 容器 运维 云原生

夜莺二次开发指南-监控系统(1)

ning

滴滴夜莺 夜莺监控

JDK 16 即将发布,新特性速览!

xcbeyond

Java 七日更

Serverless 落地之痛怎么解?

阿里巴巴中间件

Serverless

夜莺二次开发指南-监控系统(2)

ning

滴滴夜莺 夜莺监控

Spring Cloud 2020.0.0正式发布,再见了Netflix

YourBatman

Spring Cloud Spring Boot netflix 2020.0.0

TypeScript | 第三章:函数、泛型和枚举

梁龙先森

typescript 编程 大前端 七日更

揭秘大流量场景下发布如丝般顺滑背后的原因

阿里巴巴中间件

阿里巴巴

12张图带你彻底理解分布式事务!!

冰河

分布式事务 BASE理论 TCC ACID CAP理论

揭开阿里巴巴复杂任务资源混合调度技术面纱

阿里巴巴云原生

云计算 阿里云 性能优化 云原生 资源调度

世界之书:《禅与摩托车维修艺术》与发现良质

lidaobing

禅与摩托车维修艺术 28天写作

美团云:先做实、再扩展,做用户心中的可信云平台_亚马逊云科技_魏星_InfoQ精选文章