写点什么

ArchSummit 北京 2014“云平台技术全景剖析”专题精彩回顾

  • 2014-12-19
  • 本文字数:2314 字

    阅读完需:约 8 分钟

12 月 19 日,ArchSummit 北京 2014 大会在北京国际会议中心拉开帷幕。

InfoQ 和阿里云合作推出了“云平台技术全景剖析”专场,有幸邀请到来自阿里云的黄湘龙、张献涛、朱照远、占超群等 4 位技术大咖,跟到场的技术人员分享了云架构背后的核心技术,云产品的发展历程和思考等干货,现场气氛非常火爆。很多听众积极提问,跟到场专家请教技术问题;有些听众甚至席地而坐或是站着听完了全程。以下是该专题精彩内容回顾。

黄湘龙(花名龙觉):云计算架构的实战案例

黄湘龙,在阿里云负责弹性计算,资深专家及总监,博士。在亚马逊工作多年,是 DynamoDB 产品的主要作者和创始团队成员。在阿里云主要负责弹性计算控制系统的研发。主持控制系统重构、优化,并参与了 VPC、IO/CPU 性能优化等项目的研发。

他首先介绍了自己负责的 ECS 控制系统所做的具体工作。作为 ECS 系统平台,从 API 入口,到物理集群,比如用户创建一个虚拟机或者销毁一个虚拟机,挂载磁盘,卸载磁盘,这些操作都会经过控制系统,控制系统一方面实现这些 API,在后台做资源调度和自动运维的工作。API 的并发有时会非常高,像大促活动这样的场景对控制系统要求非常高,尤其秒杀的情况下,有可能进来成千上万台虚拟机创建请求,所以对控制系统的并发度以及响应速度要求也极高。

之后他根据自己在云产品方面的多年的经验,分享了几个实战案例。

第一个案例是弹性伸缩。如果计算节点是没有状态的,做完一件事就直接返回结果,那增加或减少机器都很自然。但是大部分实际场景都是有状态的,如果有状态又做弹性伸缩的话,就需要做到同一个任务作不同的节点之间任意的切换,所以实际中会对状态多份复制,这样发生硬件故障也可以做到容错容灾。

第二个案例是服务间依赖。被依赖的服务有可能成为瓶颈。一种解决方案是内嵌式服务,把需要的服务实现到计算节点当中。其优点是性能好,运维简单。缺点是原来的计算节点又增加了一种应用,隔离性没那么好,而且自己实现也增加了对工程师的挑战。所以建议强依赖最好在内部实现。弱依赖则不必如此。

第三个案例是数据一致性。大规模下发流程,数据不一致是常态,所以要把它当做常用代码路径对待。现在的想法是将数据随机下发到几台机器,其他节点可以学习。

最后一个案例是拉取还是推送。拉取可以减少网络上的传输流量,还可以减少队列服务。

张献涛(花名旭卿):阿里云虚拟化技术研发之路

张献涛,虚拟化领域的资深人士,KVM/IA64 项目的 Maintainer。目前是阿里云资深专家,担任虚拟化技术总监,主导阿里云下一代虚拟化架构的设计与研发工作。

ECS 是阿里云产品体系中最基础的计算服务,通常用作应用程序的运行环境,其最重要的特点是弹性。底层虚拟化基于成熟的开源软件 Xen,为优化性能和稳定性,对 Xen 核心代码改动超过 100 项。为增加系统多样性,基于 KVM 的其他 Hypervisor 方案也在研。热迁移技术,底层基于 Xen 热迁移研发,改动超过 20 项。

他详细介绍了阿里云 Hotfix 的原理,基于函数动态替换技术,新函数会以模块内函数的形式链接入内核,旧函数的第一个指令改成强制跳转指令指向新函数,在替换过程中需要暂停所有 CPU,切到一个内核线程并关闭本地中断,刷新指令缓存,重新让 CPU 恢复执行。

另外,Hypervisor Hotfix 也是重点介绍的内容。

关于下一代虚拟化架构,目前在研的是 KVM 方案。设计特点,所有组件都支持热升级,升级过程用户无感知,运维主动升级时不中断业务连续性。这些在近期都是阿里云研究的挑战与技术探索方向。

朱照远(花名叔度):阿里云 CDN 技术演进

朱照远,高级技术专家,阿里云核心系统部 Web 平台团队负责人。2009 年加入淘宝网,现负责阿里巴巴 Web 服务器、CDN 等系统的研发。他是开源 Web 服务器项目 Tengine 的发起人。

朱照远介绍了阿里云 CDN 的特点和优势,包括:第一,稳定,节点资源很丰富,全球现在有 260 多个节点,有 7Tbps 带宽处理能力,有自主研发的缓存、调度、安全、业务管理等系统。第二,在安全方面有安全保护模块,有 1.6Tbps 的 DDoS 防护能力,基于大数据分析,快速准确识别攻击,实时阻断。第三,自助化业务部署,不需要人工干预,可以通过 Open API 管理。第四,按量计费,这样更灵活,成本更低,用户可以选择按带宽还是按流量计费。

他还介绍了从淘宝 CDN 到阿里 CDN 再到阿里云 CDN 的发展历程,并分享了 CDN 系统的架构设计。开发团队对 Tengine 和 Swift 做了性能优化,像集群的大文件分片缓存功能,利用 SPDY 的多路复用技术,减少三路握手和慢启动的影响,减少对本地端口的占用等。除了应用层的软件,还对 TCP 协议栈进行了优化。

占超群(花名离哲):分析数据库 ADS 的产品化、服务化实践

占超群,高级技术专家,阿里巴巴集团数据平台部架构师,实时分析数据库云产品 ADS(Garuda) 创始人。

分析数据库的产品逐渐成长,然后对外提供服务,过程中也是血泪史,不停地优化,产品化,服务化,支持更多的用户,更好的用户接口,整个过程比较曲折。

占超群分享了 ADS 的架构,并介绍了成长过程中比较痛苦的地方,包括运行建模、双十一的挑战和元数据中遇到的痛点。

占超群还分享了服务化的痛点和思考。如果多租户,这意味着资源是隔离的,如果不能做到精细化极速的资源控制,当业务波峰时就会有超时、慢查询。第二点,分布式系统提供稳定延时 SLA,这个非常难,因为网络、机器会发生各种问题,在分布式环境出问题的概率很高。第三个,多集群。如果业务很多,有几十个集群怎么运维。第四点,热升级,因为现在做的高并发在线服务,不能挂个通告说停两个小时。第五个,低成本,云服务低成本也有很多难度,因为做给一个人用和做给一万个人,这中间的难度不是一个量级的。

演讲的幻灯片和视频我们会逐步放到 InfoQ 的网站上,敬请关注。

2014-12-19 20:071538
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 130.2 次阅读, 收获喜欢 34 次。

关注

评论

发布
暂无评论
发现更多内容

脚本调用工具:FastScripts 直装版

真大的脸盆

Mac 脚本 Mac 软件 Mac 系统

国家基础学科公共科学数据中心与和鲸科技共建数据社区

ModelWhale

数据 科学分析 社区 合作

软件测试/测试开发丨后端Web开发框架(Java)

测试人

软件测试 springboot 测试开发

FinOps首次超越安全成为企业头等大事|云计算趋势报告

SEAL安全

云计算 云成本 FinOps 企业号 3 月 PK 榜

手把手教你改 sysbench 代码

TiDB 社区干货传送门

开发语言 管理与运维

手把手教你基于luatos的4G(LTE Cat.1)模组接入华为云物联网平台

华为云开发者联盟

物联网 华为云 华为云开发者联盟 企业号 3 月 PK 榜 4G

GitHub险崩盘,竟是因网易大牛「Redis应用与深度实践笔记」泄露

做梦都在改BUG

Java 数据库 redis 缓存 面试

通过Chaos-Mesh打造更稳定TiDB数据库高可用架构(二)

TiDB 社区干货传送门

实践案例 集群管理 管理与运维 故障排查/诊断 安装 & 部署

课程作业及比赛任务,已支持 Notebook 内直接提交|ModelWhale 版本更新

ModelWhale

人工智能 机器学习 数据分析 canvas 模型管理

增强认证--MQTT 5.0新特性

EMQ映云科技

物联网 IoT mqtt 企业号 3 月 PK 榜 增强认证

基于 Istio 的灰度发布架构方案实践之路

京东科技开发者

微服务 istio 灰度发布 企业号 3 月 PK 榜

通过Chaos-Mesh打造更稳定TiDB数据库高可用架构(一)

TiDB 社区干货传送门

实践案例 集群管理 管理与运维 扩/缩容 数据库架构设计

「 项目管理 」项目立项前需要思考的9个问题

小刘学编程

项目管理 pmp 项目经理

【信创小知识】国产化和信创是一回事吗?怎么理解?

行云管家

信创 国产化

PCB焊盘设计应掌握哪些要素?

华秋电子

坚如磐石:TiDB 基于时间点的恢复(PiTR)特性优化之路丨6.5 新特性解析

TiDB 社区干货传送门

新版本/特性解读

通过TiDB Operator为已有TiDB集群部署异构集群

TiDB 社区干货传送门

集群管理 管理与运维 故障排查/诊断 安装 & 部署 扩/缩容

TiDB 的事务和一致性校验工具 BANK

TiDB 社区干货传送门

实践案例 故障排查/诊断 数据库架构选型

Region is unavailable的排查总结

TiDB 社区干货传送门

管理与运维 故障排查/诊断 扩/缩容

物理机安装 TiKV 时 RAID 卡在线配置方式

TiDB 社区干货传送门

实践案例 集群管理 安装 & 部署

买了等保安全设备就一定安全吗?就一定能抵御网络风险呢?

行云管家

网络安全 等保 等级保护

TIDB升级发生故障时,快速强行回退方案

TiDB 社区干货传送门

实践案例

对TiDB监控方式的一点点研究

TiDB 社区干货传送门

监控 TiDB 源码解读

MQTT 5.0连接属性

EMQ映云科技

物联网 IoT mqtt 企业号 3 月 PK 榜 连接属性

详解命令模式本质及其在高复杂调用中的实践案例

阿里技术

设计模式 命令模式

GitHub上线重量级分布式事务笔记,再也不怕面试官问分布式了

小小怪下士

Java 程序员 分布式 分布式事务 后端

又一个开源第一!飞桨联合百舸,Stable Diffusion推理速度遥遥领先

百度Geek说

人工智能 开源 PaddlePaddle 企业号 3 月 PK 榜

BSN-DDC基础网络详解(五):接入DDC网络(1)

BSN研习社

Spring源码分析-BeanFactoryPostProcessor

做梦都在改BUG

Java spring spring源码

【征文大赛】TiDB 社区第二届征文大赛,一次性带走社区全部新周边,还有bose 降噪耳机、倍轻松按摩仪等你拿!

TiDB 社区干货传送门

Stable Diffusion原理详解

jarodyv

人工智能 机器学习 计算机视觉 Stable Diffusion 生成式AI

ArchSummit北京2014“云平台技术全景剖析”专题精彩回顾_服务革新_臧秀涛_InfoQ精选文章