【FCon上海】与行业领袖共话AI大模型、数字化风控等前沿技术。 了解详情
写点什么

Docker 在云环境中的应用实践初探:优势、局限性与效能评测

  • 2014-11-10
  • 本文字数:4558 字

    阅读完需:约 15 分钟

AI 大模型超全落地场景&金融应用实践,8 月 16 - 19 日 FCon x AICon 大会联诀来袭、干货翻倍!

本文依据笔者所在团队的一些近期开发和应用的实践,整理出一些有意义的信息,拿出来和社区分享。其中既包括在云端应用 Docker 与相关技术的讨论,同时也有实施过程中的一些效能评测,以及整个过程中遇到的一些国内特有的问题和我们的一些解决方案,想法。希望可以给方兴未艾的 Docker 用户群体和社区,提供一些有价值的参考,并引出有意义的讨论。

背景简介

Docker 以及一系列与之相关的容器化的技术,经过多年的积累,在过去数月间得到了迅速的市场流行和关注,可谓厚积薄发。一方面是因为容器技术本身的优点,比如更节省测试,部署,弹性扩容和运维的成本及资源,另一方面也是由于业界的重要公司都十分重视并且投入容器虚拟技术,比如 Google、RedHat、IBM、Facebook、Amazon 以及微软。其中微软开放技术作为微软在开源社区领域的主要参与者,一直以来都积极的跟踪容器基础上的虚拟化技术,并且积极参与到相关的开源项目中,比如今年夏天宣布的由微软开放技术参与的,在微软公有云环境下对 Google 的 Kubernetes 和 Docker 的 libswarm 支持。我们已经成功把Kubernetes 和libswarm 引入到Azure,使得容器技术超越简单部署迈向更加复杂拓扑的云端。

2014 年 10 月 15 日, Docker 公司刚刚在美国与微软共同宣布,双方展开战略合作,在即将发布的Windows Server 中,将为发展迅速的Docker 分布式应用开放平台的全新容器技术提供支持。利用Docker 技术开发容器应用的开发者与企业,将得以在Windows Server 或Linux 平台上共享快速成长的Docker 生态系统,充分利用其中的用户、应用和工具等资源。

Docker 在实际应用中的一些问题和局限性

之前有文章讨论过,基于容器的云现在还没有成为主流,主要还是安全性的问题。但是我们在整个实验中也总结出一些在真实环境中遇到的安全性之外的问题。

第一个就是很重要的Docker Hub 的访问问题。我们知道国内访问一些海外的网站有时候会有稳定性的问题。Docker Hub 在我们的实践中就经常出现访问不了的问题。但这种访问的问题并不是持续的,而是时有时无。由于大量的成熟Docker 映像(image)都需要从Docker Hub 下载,很多脚本在执行到这一步时,结果很难预料。一种方案是修改缺省的Docker Hub 地址,改为采用国内的一些镜像(mirror)。但是在没有官方认证的成熟稳定的镜像网站时,Docker 映像的更新不容易得到保证;另一种方案是自行搭建自己的Docker Hub。但是一来这样就失去了强大的社区贡献的映像资源,二来要花费很多精力来保持更新和同步。容器技术带来的简单化,又因为映像管理而复杂化,得不偿失。

第二个就是容器技术的资源管理和运维。因为容器技术本身更适于解决大规模应用场景,所以通常都是集群基础上的部署、运维,但是目前对这一系列任务的自动化处理尚无统一的或者标准的框架。如果要让Docker 真正在实际环境中发挥最大的效能并且易于维护,就需要有很成熟稳定的资源编排(orchestration)、资源调度(scheduling)和部署(deployment)的支持,但是这方面暂时还没有很明显的最佳解决方案,所以大多数人都在摸索和搭建自己的解决方案。我们在微软开放技术内部也是在一些开源技术的基础之上,自行开发了容器在微软公有云Azure 上的资源管理调度和部署运维的系统,传统上的开发运维和持续集成,持续部署的技术,比如Chef,Puppet,Jenkins 等,都可以很容易的与容器技术一起工作。

市场上还有很多的一些比较有希望的相关新技术,比如Twitter 的Apache Mesos,Facebook 的Tupperware,Docker 自己的libswarm,以及Google 的Kubernetes。其中Kubernetes 因为在Google 经历了数年的实战检验,加上最近微软、RedHat、IBM 和Docker 等也都宣布支持参与此项目,使得Kubernetes 有着很好的前景。

第三个是个对用户有益,但是对公有云运营商带来挑战的问题。因为实际评测中发现,同样的应用和负载,相比原有的虚拟化场景,容器化部署的资源花费通常只有10% 甚至1%。意味着某些场景下的应用如果迁移至容器环境,用户会大量节约成本,从而促进用户向云环境迁移的意愿,但同时也给云服务商IaaS 服务带来新的挑战。

基于特定场景的Docker 效能评测与分析

微软开放技术一直以来积极参与容器技术,不但在微软的公有云平台实现了对Docker 的支持,而且我们内部的很多项目也开始积极采用或者迁移到Docker 环境中。其中有一个项目,早期是利用原有的虚拟化技术,在云平台上通过部署与启动大量虚拟机,来达到对多用户同时在线提供弹性的云服务。由于项目的设计和要求,需要做到用户的环境隔离,所以基本上一个用户需要有一个对应的虚拟机。当服务需求达到高峰时,需要部署和启动大量的Linux 虚拟机。这带来了显著的资源开销,并且在云环境下最终转换为等价的成本开销。由于虚拟机的启动是由需求动态驱动的,对终端用户来说启动时间也造成了用户体验的下降。

针对这一问题,我们在第一时间就开始尝试Docker 基础上的容器技术。但是针对我们的特定应用场景,需要评估一下效能,以及功能上是否达到甚至好于原有虚拟机架构基础上一样的要求。功能和效能的测试思路描述如下:

功能测试。我们采取将原有的多个虚拟机的集群部署,改为在少量的虚拟机上的Docker 容器集群,即原来的一个虚拟机上的所有的代码和库,都转制生成完全对应的Docker 容器,基本上一对一。例如原来是8 个不同角色和任务的虚拟机节点组成的集群,转化为8 个不同角色和任务的Docker 容器。端口映射到宿主虚拟机的不同端口,进而通过云服务面向互联网公共端口。整个容器基础上的集群启动运行后,经测试,功能上和原有的虚拟机集群没有任何区别。

效能测试。我们并不做性能测试(benchmark),因为我们相对于极值,更关心在模拟实际应用部署场景时的次序,资源的利用效率和容量。因为实际场景中,每一个新的节点的生成需求并不是同步和同时的,所以我们的模拟生成频率是每隔数秒启动一个预制的容器,每个容器映像预装了一个最简单的python 脚本,启动运行后,持续的循环做很简单的基本运算,使得单个容器的CPU 平均使用量大致与我们实际应用时实测的真实应用的CPU 使用量相当,在0.1%-0.9% 之间。

测试环境:

宿主的虚拟机配置:1 core, 2GB RAM, 20GB HD, 入门级的低端配置。

Docker 映像尺寸:500MB, Ubuntu 14.04,with ssh, ruby, python and a simple application

对应的虚拟机映像尺寸:5GB (对应 Docker 和 VM 尺寸大概有一个数量级差别)

当 Docker 映像下载到本地后,启动一个容器耗时不到 1 秒,和云端虚拟机的启动动辄 1-2 分钟甚至更久基本上不在一个数量级。

容器启动后,无延迟,立即可以使用。

首先监测随启动的容器总量增加,可用内存的递减规律。结果如下图(y 轴单位 kB,x 轴容器实例数),在 200 个容器以内,内存耗费基本呈线性。并且 Docker 并未将映像的所有内容都加载到内存。

再监测单个容器平均占总内存百分比随容器增加的变化。如下图(y 轴单位 %,x 轴容器实例数),前 20 个容器平均内存开销虽然较小,但是波动较大,之后是相对均匀区域,有小量增长,但是波动被平均化了。当继续增加到约 150 时,平均花费和波动都开始增加,显示额外开销(overhead)加大,波动也增大到无法被平均值平滑了。具体的研究也与此一致,从 150 个容器开始,开始出现不可用,无反应或者无法杀掉的僵尸容器(Zombie)。升至 200 时我们平均录得 6 个僵尸容器。所以在我们这个特定的配置,场景和环境下,可以认为 150 是个资源分配上的有效极值。

在从零到 200 个容器实例的部署启动过程中我们监控了此一过程中的 CPU 使用情况。由于我们的容器尚未附加大量工作负载,所以这个数据反应的的是基准 CPU 开销(baseline)。结果如下图,由宿主环境录得的数据显示(y 轴单位 %,x 轴为容器实例数),在单一宿主环境下启动容器的 CPU 开销很小,200 个容器时也基本在 5-6% 以下。而且在此区间内随部署容器的增加,CPU 花费基本呈线性。

由于时间所限,我们暂时还没有对网络带宽花费做测试,这将在后续的工作中逐步完成。但是基于经验估算,假设一台宿主机的带宽为 1000M bps,当被大量共享时实际可用带宽不到 70%,再折算为 Bps,并考虑 HTTP 的额外开销之后,实际可用带宽约 60MBps,分到 200 个同样的容器,每个容器的现实带宽大概只有 300K Bps。这对一般的网站或网络应用是基本够用,但是高峰和一些消耗带宽的应用就需要认真测算。

结果讨论

综上所述,在云计算环境用户主要关注的资源——CPU、内存、存储、网络带宽四大要素中,在一定范围内,增加同质容器实例的数目时,资源的耗费基本为线性。所以如果要做优化的资源调配,需要进行单个应用的平均和峰值评测,结合负载的模式(pattern),来计算最有可能先达到瓶颈的资源,并以此为上限优化资源调配算法。由于异源容器应用实例的不确定性,最有效的部署方式是同源的容器应用实例,尽量部署到同样的宿主环境,因为这样可以相对精确的取得单个容器实例的平均资源花费,从而作为经验参数代入资源配置的算法里,得到优化的结果。

此外在架构层面,由于对资源使用效率要做精细化分配,不同角色的模块,扩展曲线会有很大不同,所以建议松散耦合,按角色、堆栈层分离模块,分别做标准的分布式部署,以达到最大效能。比如标准 MVC 网站架构,可以将所有模块打包到一个容器映像,部署和扩容时会很简单。但是如果要最大化资源利用效率,应当数据层,应用层和网络服务器层分开建立容器映像,分开部署,独立扩容。当然这就需要更有效的工具和框架的帮助来实现。

总结

我们在微软公有云环境下的对 Docker 现实场景的应用实践,使我们得到了从用户角度出发,在类似场景下应用时可能遇到的问题及第一手资料。经过对某些特定场景下的资源利用效率评测,也更好的了解了以 Docker 为代表的容器化技术的适应对象和需要关注的问题。微软开放技术会一如既往的持续加大对容器技术的研发和投入。并希望和国内的开源社区一起推动容器技术的应用,使这项可以为用户节省大量资源的技术能在更多的产品环境中和应用场景中真真正正得到广泛而持久的应用。

进深阅读

作者介绍

商之狄,现任微软开放技术(中国)首席项目经理,从事开源技术、云计算和大数据相关的新技术研发与推广工作。商之狄曾在美国硅谷的start-up、互联网及电子商务领域工作多年:曾参与过用超级计算机进行最早的人类基因组全注释;用机器学习、并行计算和计算机视觉技术帮助全球最大的制药公司从数百万潜在药物中快速筛选抗癌新药;参与开发过语义基础上的垂直搜索引擎;在全球最大的支付企业技术研发部进行超高通量交易和欺诈检测业务向大规模云环境迁移的试验。在全球最大零售企业的电子商务部门任资深架构师时,领导开发了大数据基础上的全自动精准在线推广营销系统。


感谢杨赛对本文的策划和审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-11-10 07:476252

评论

发布
暂无评论
发现更多内容

PHP“牵手”淘宝代采系统,跨境淘宝代买系统

tbapi

淘宝代购系统 淘宝代购集运系统 淘宝代采系统 海外代购系统 跨境外贸系统

内置AI加速器,第五代英特尔至强打造更可靠性能和更出色能效

E科讯

如何通过快速且安全的API基础设施策略为工程师赋能并提升效率,同时避免影子IT

Gingxing

kong API网关 Kong 网关 消息网关 Kong Gateway

深入理解 Java 修饰符与封装:访问权限、行为控制与数据隐藏

小万哥

Java 程序人生 编程语言 软件工程 后端开发

在哥伦布的凯旋港,为全球智能化造一艘云船

脑极体

云计算 AI

SPSS 打开提示“服务器登录:本地计算机”的解决办法

Rose

JavaScript 的新数组分组方法

伤感汤姆布利柏

【架构笔记1】剃刀思维-如无必要,勿增实体

文思源想

软件架构设计 文思架构笔记 设计感悟

一款高温型霍尔效应传感器

芯动大师

一端开发、多端部署,多操作系统”争艳“背景下的开发思路

Speedoooo

混合开发 多端能力服务统一 混合开发框架 Hybird App

敏捷开发最佳实践:工具维度实践案例之落地工具提升研发质量

易成管理学

敏捷 敏捷开发

谷歌发布世界模型,能生成可交互虚拟世界;华为发布全球首个 5.5G 智能核心网丨 RTE 开发者日报 Vol.152

声网

远超 IVF_FLAT、HNSW,ScaNN 索引算法赢在哪?

Zilliz

Milvus scann fastscan

这个酸爽的过程,只有我们自己知道

开放签开源电子签章

开源 电子合同 电子签章

GitHub 斩获 8300 星,小红书爆火开源 InstantID 要开直播了!

小红书技术REDtech

开源 AI AIGC AI写真 instantID

科技创新引领零售商品部降本增效的未来

第七在线

已解决org.springframework.dao.ConcurrencyFailureException并发失败异常的正确解决方法,亲测有效!!!

小明Java问道之路

HTTP/1.1协议中的响应报文

百度搜索:蓝易云

云计算 Linux 运维 HTTP 运维web

2023 re:Invent AI 生成产品体验,从 Bedrock 到 Amazon Q

亚马逊云科技 (Amazon Web Services)

生成式人工智能

Tapdata 正式登陆 Google Cloud Marketplace,面向全球用户提供专业的实时数据服务

tapdata

数据转换 数据同步工具

ubuntu22安装和部署Kettle8.2

百度搜索:蓝易云

云计算 ubuntu 运维 kettle 云服务器

释放创新潜能!英特尔携广泛生态伙伴赋能5G核心网

E科讯

ubuntu创建自定义开机服务

百度搜索:蓝易云

Linux ubuntu 运维 云服务器 systemd

英特尔边缘平台亮相MWC 2024,模块化设计引领行业创新

E科讯

什么是数据同步利器DataX,如何使用?

快乐非自愿限量之名

大数据 数据同步

低代码开发如何助力企业实现员工赋能

快乐非自愿限量之名

低代码 项目开发 企业赋能

如何使用ETLCloud拉通金蝶云

RestCloud

数据同步 ETL 金蝶云

思维导图真有效?亲测5款好用的AI思维导图软件!

彭宏豪95

思维导图 在线白板 协同办公 AIGC 效率软件

Docker在云环境中的应用实践初探:优势、局限性与效能评测_最佳实践_商之狄_InfoQ精选文章