写点什么

不畏:智能调度的核心是对业务数据的价值挖掘和有效利用

  • 2018-09-30
  • 本文字数:2332 字

    阅读完需:约 8 分钟

据统计,2017 年的“双十一”,开场 28 秒,淘宝系交易额超 10 亿;2018 年,优酷直播了世界杯 64 场高清赛事,6 月 23 日,其移动端 DAU 破亿。这两个高并发场景,都是阿里云在保驾护航。InfoqQ 有幸请到了阿里视频云运维专家不畏,来聊一聊在业务请求量高峰阶段,调度策略如何进行分配优化,调度系统有哪些智能化运维的思考和实践。

 

InfoQ:阿里云现在有多少个 CDN 节点?带宽呢?

不畏:阿里云目前有 1500+ 的 CDN 节点,储备带宽超过 120TB,覆盖全球六大洲七十多个国家及国内主流运营商。

InfoQ:随着业务类型的快速变化,阿里云视频云调度系统是怎么演进的?

不畏:视频云的调度系统最早使用的是商业设备,在 2011 年开始走上自主研发的道路,2014 年 CDN 开始商业化对外售卖,调度系统为更好地服务商业用户,开始进行多终端的调度系统研发和全球化布局;2015 年阿里云商业 CDN 用户量井喷,业务形态发生了巨大变化,我们进行了调度系统的全盘自动化改造,正式告别人工时代;2017 年,精细化、多维度的自动资源规划、精准流控、主动链路探测等产品功能逐一上线,调度系统在流量规划的粒度、时效性、流量控制的精准性和局部链路异常的处理速度都上了一个新的台阶。

InfoQ:在调度系统的演进过程中,有哪些智能化运维的思考和实践?

不畏:在 2012 年到 2013 年,一方面,是阿里自身的电商业务量随着“双十一”“双十二”等活动以每年至少翻倍的速度快速增长。另一方面,处在阿里 CDN 商业化的前夕,可预见对外售卖后的业务爆发;我们在当时预感到了未来大数据的重要性,调度系统开始从数据角度做业务 / 来源维度的流量成分、带宽大小、带宽稳定性的系统化分析,并结合业务模型来做分时分来源的流量预测。也是从这个阶段开始,调度系统的运维从简单的软件发布、流量切换开始向以数据驱动的精细化运营转变。我觉得对数据的敏感性和价值挖掘能力的变化,是整个运维智能化历程中非常重要的里程碑。

InfoQ:今年优酷直播的 64 场世界杯比赛,全部由阿里云提供技术保障,高清热门体育赛事的直播和“双十一”相比,哪个挑战更大?调度策略有什么不同?

不畏:挑战都很大,世界杯和“双十一”,是两个不同的业务场景。“双十一”在 CDN 上,有两个业务阶段,一个是晚高峰,带宽形态大致与日常差距不大,但在波峰段有更高的带宽冲击,上量斜率更大,在这个阶段,调度策略大致与日常相近,我们会适当调整带宽预测的步长,让预测带宽和自动调整对比日常更加激进一些,以适应带宽的变化。第二个阶段是 11 号 0 点活动正式开始的时候,海量的交易请求冲击到 CDN 系统上,呈现一个脉冲式的请求量突峰,这个阶段,带宽、节点粒度的 CPU、内存、IO 的压力都会非常大,我们在调度策略上会预先进行分配优化,将脉冲式的突发流量往高性能节点上进行分流。

而世界杯或其他高清热门体育赛事的场景,更像是“双十一”两个场景的结合,在比赛开始后,带宽会快速的攀升,传统的流量预测比较难准确规划合适的资源。针对这个场景,我们特别研发了智能资源锁功能,提供了一种重保业务在多租户场景下的带宽资源优先分配模型,以此来保障世界杯的服务质量。

InfoQ:世界杯期间,运维保障工作遇到了什么难题,是怎么解决的?

不畏:世界杯护航对运维的挑战其实非常大,大家看世界杯这样的高清直播,最在意的是播放的流畅度,而从技术角度出发,影响播放流畅度的因素非常多,有用户本身的网络环境问题,有骨干网的因素,有 CDN 节点资源的链路问题,也有软件的问题,每一类问题会有不同的处理方案。在海量的用户样本中,找到哪些用户有卡顿,卡顿的原因是什么,如何进行有效地缓解,一系列动作都需要在几分钟内一一执行到位,这是摆在运维保障工作中的核心难题。

针对这些难题,阿里视频云团队选择了主动出击,第一时间和优酷播放端进行了客户端埋点数据的对接,将客户端的数据与服务端数据进行一一对应,结合服务端对全链路的质量监控,在客户端上报卡顿的瞬间,对比客户端到节点链路、节点水位和网络指标、节点内软件链路、节点到直播中心链路的各项指标,找出对应时间数据恶化最明显的指标进行针对性调整优化,再由调整后的效果来反向修正指标阈值的合理性。整个世界杯期间,这种对比 -> 调节 -> 反馈 -> 再对比的模式很好地帮助我们解决了运维保障的核心问题,同时我们利用建立在优酷端数据上的大网质量体系,反向来服务其他的直播客户,很好地保证了整个世界杯期间的直播体验。

InfoQ:有哪些智能调度的新技术?

不畏:AI、多终端结合调度、IPv6 是目前行业内智能调度比较普遍的技术方向,我觉得归根结底,智能调度的核心仍然是对业务数据的价值挖掘和有效利用。

InfoQ:简单聊聊调度系统全盘智能化之下的运维价值?

不畏:我觉得在调度全盘智能化,自动化之下,运维的价值会更多的体现在业务场景的抽象能力和系统化解决方案制订上;从一个商业业务场景,转化为一系列技术问题,从离散的技术问题,提炼平台化的功能需求,再将一个个平台化功能整合成行业解决方案,以系统化思维不断的优化解决方案的稳定性、效率和成本,是未来运维的核心价值。

近年来,随着大数据、机器学习和 AI 技术的飞速发展,智能化运维成为运维的热点领域。

CNUTCon 全球运维技术大会特设「AIOps 实践与探索」专场,目前,已经邀请到 BAT 的技术专家,从智能调度、智能异常检测、故障知识图谱、变更发布智能检查等多方面阐述落地 AIOps 过程中的实践经验。另外,大会还有其他 11 个专场,涉及自动化运维、监控分析、日志处理、Kubernetes、CI/CD、微服务、SRE 等运维热门方向。

目前,大会 8 折限时优惠,立减 720 元,团购更优惠。点击这里了解更多,有任何问题,欢迎咨询票务经理 Joy,电话:13269078023(微信同号)。

2018-09-30 19:571790

评论

发布
暂无评论
发现更多内容

【大话C语言】分支与循环语句

Albert Edison

C语言 开发语言 for循环 if语句 9月月更

06_Linux基础-NGINX和浏览器、网页的关系-云服务器ssh登陆-安装NGINX-上传网页-压缩命令-xz-gzip-bzip2-zip-tar-配置NGINX服务器支持下载功能-备份脚本

mycpen

Linux

Introduction to ByteDance Pitaya

字节跳动终端技术

Python Machine Learning Pitaya ByteDance End Intelligence

03_Linux基础-文件类型-主辅提示符-第1提示符-Linux命令-内外部命令-快捷键-改为英文编码-3个时间-stat-其他基础命令

mycpen

Linux

视频会议,WebRTC及RingCentral解决之道

RingCentral铃盛

WebRTC 视频会议 企业号九月金秋榜

阿里云对边缘计算的探索和实践

阿里云CloudImagine

边缘计算

Alluxio入选英特尔AI百佳创新激励计划

Alluxio

人工智能 创新 英特尔 Alluxio 9月月更

到底什么样的数字化才是企业需要的?用2个数字化案例告诉你

优秀

数字化转型

「技术人生」第9篇:如何设定业务目标

阿里巴巴中间件

阿里云 业务 技术文章

【计算讲谈社】第十一讲|商用车智能驾驶商业化实践:“科技+保险”模式探索

大咖说

智能驾驶 商用车

图文实录|多模态自然语言处理最新进展

澜舟孟子开源社区

人工智能 自然语言处理 算法 后端

数据赋能智慧重庆,巴适得很!

云计算

三面阿里,offer到手定级P7,过程很艰辛结果很满意

程序知音

程序员 阿里 java面试 后端技术 Java八股文

MobPush 安卓推送消息数据解析推荐实现

MobTech袤博科技

android 移动推送

设计模式的艺术 第十八章解释器设计模式练习(为数据库备份和同步开发一套简单的数据库同步指令,指令可对数据库中的数据和结构进行备份。例如,输入指令“COPY VIEW FROM srcDB TO desDB”表示将srcDB中所有视图对象复制至desDB)

代廉洁

设计模式的艺术

卡塔尔世界杯足球赛dapp系统智能合约开发

开发微hkkf5566

高端手机市场的诸神之战,vivo举起一把“雷神之锤”

脑极体

09_Linux基础-SHELL-标准输入与标准输出-重定向-管道

mycpen

Linux

如何正确理解Java领域中的锁机制,我们一般需要掌握哪些理论知识?

PivotalCloud

Java编程之语法结构

魏铁锤

Nacos 企业版如何提升读写性能和可观测性

阿里巴巴中间件

阿里云 微服务 云原生 中间件 可观测

超越所有人的成就,牛顿的光芒也无法掩盖的天才数学巨人

图灵教育

数学 微积分 数学家

08_Linux基础-vim-tmux-字符编码

mycpen

Linux

海泰方圆成功举办“引领数据安全创新,加速数字经济发展”技术研讨会

电子信息发烧客

《数据结构》线性表之顺序表的实现(C语言)

孤衫

数据结构 C语言 9月月更

MobPush 指定页面跳转最佳实现

MobTech袤博科技

ios android intent 页面跳转

07_Linux基础-计划任务-备份脚本-变量定义和使用

mycpen

Linux

超越所有人的成就,牛顿的光芒也无法掩盖的天才数学巨人

图灵社区

数学 微积分 数学家

05_Linux基础-NGINX编译安装^判断是否启动^修改端口^启动停止重启^相关路径^中文乱码-Windows、Linux文件传输

mycpen

Linux

AOP

平凡人生

不畏:智能调度的核心是对业务数据的价值挖掘和有效利用_DevOps & 平台工程_辛未・李_InfoQ精选文章