【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

不畏:智能调度的核心是对业务数据的价值挖掘和有效利用

  • 2018-09-30
  • 本文字数:2332 字

    阅读完需:约 8 分钟

据统计,2017 年的“双十一”,开场 28 秒,淘宝系交易额超 10 亿;2018 年,优酷直播了世界杯 64 场高清赛事,6 月 23 日,其移动端 DAU 破亿。这两个高并发场景,都是阿里云在保驾护航。InfoqQ 有幸请到了阿里视频云运维专家不畏,来聊一聊在业务请求量高峰阶段,调度策略如何进行分配优化,调度系统有哪些智能化运维的思考和实践。

 

InfoQ:阿里云现在有多少个 CDN 节点?带宽呢?

不畏:阿里云目前有 1500+ 的 CDN 节点,储备带宽超过 120TB,覆盖全球六大洲七十多个国家及国内主流运营商。

InfoQ:随着业务类型的快速变化,阿里云视频云调度系统是怎么演进的?

不畏:视频云的调度系统最早使用的是商业设备,在 2011 年开始走上自主研发的道路,2014 年 CDN 开始商业化对外售卖,调度系统为更好地服务商业用户,开始进行多终端的调度系统研发和全球化布局;2015 年阿里云商业 CDN 用户量井喷,业务形态发生了巨大变化,我们进行了调度系统的全盘自动化改造,正式告别人工时代;2017 年,精细化、多维度的自动资源规划、精准流控、主动链路探测等产品功能逐一上线,调度系统在流量规划的粒度、时效性、流量控制的精准性和局部链路异常的处理速度都上了一个新的台阶。

InfoQ:在调度系统的演进过程中,有哪些智能化运维的思考和实践?

不畏:在 2012 年到 2013 年,一方面,是阿里自身的电商业务量随着“双十一”“双十二”等活动以每年至少翻倍的速度快速增长。另一方面,处在阿里 CDN 商业化的前夕,可预见对外售卖后的业务爆发;我们在当时预感到了未来大数据的重要性,调度系统开始从数据角度做业务 / 来源维度的流量成分、带宽大小、带宽稳定性的系统化分析,并结合业务模型来做分时分来源的流量预测。也是从这个阶段开始,调度系统的运维从简单的软件发布、流量切换开始向以数据驱动的精细化运营转变。我觉得对数据的敏感性和价值挖掘能力的变化,是整个运维智能化历程中非常重要的里程碑。

InfoQ:今年优酷直播的 64 场世界杯比赛,全部由阿里云提供技术保障,高清热门体育赛事的直播和“双十一”相比,哪个挑战更大?调度策略有什么不同?

不畏:挑战都很大,世界杯和“双十一”,是两个不同的业务场景。“双十一”在 CDN 上,有两个业务阶段,一个是晚高峰,带宽形态大致与日常差距不大,但在波峰段有更高的带宽冲击,上量斜率更大,在这个阶段,调度策略大致与日常相近,我们会适当调整带宽预测的步长,让预测带宽和自动调整对比日常更加激进一些,以适应带宽的变化。第二个阶段是 11 号 0 点活动正式开始的时候,海量的交易请求冲击到 CDN 系统上,呈现一个脉冲式的请求量突峰,这个阶段,带宽、节点粒度的 CPU、内存、IO 的压力都会非常大,我们在调度策略上会预先进行分配优化,将脉冲式的突发流量往高性能节点上进行分流。

而世界杯或其他高清热门体育赛事的场景,更像是“双十一”两个场景的结合,在比赛开始后,带宽会快速的攀升,传统的流量预测比较难准确规划合适的资源。针对这个场景,我们特别研发了智能资源锁功能,提供了一种重保业务在多租户场景下的带宽资源优先分配模型,以此来保障世界杯的服务质量。

InfoQ:世界杯期间,运维保障工作遇到了什么难题,是怎么解决的?

不畏:世界杯护航对运维的挑战其实非常大,大家看世界杯这样的高清直播,最在意的是播放的流畅度,而从技术角度出发,影响播放流畅度的因素非常多,有用户本身的网络环境问题,有骨干网的因素,有 CDN 节点资源的链路问题,也有软件的问题,每一类问题会有不同的处理方案。在海量的用户样本中,找到哪些用户有卡顿,卡顿的原因是什么,如何进行有效地缓解,一系列动作都需要在几分钟内一一执行到位,这是摆在运维保障工作中的核心难题。

针对这些难题,阿里视频云团队选择了主动出击,第一时间和优酷播放端进行了客户端埋点数据的对接,将客户端的数据与服务端数据进行一一对应,结合服务端对全链路的质量监控,在客户端上报卡顿的瞬间,对比客户端到节点链路、节点水位和网络指标、节点内软件链路、节点到直播中心链路的各项指标,找出对应时间数据恶化最明显的指标进行针对性调整优化,再由调整后的效果来反向修正指标阈值的合理性。整个世界杯期间,这种对比 -> 调节 -> 反馈 -> 再对比的模式很好地帮助我们解决了运维保障的核心问题,同时我们利用建立在优酷端数据上的大网质量体系,反向来服务其他的直播客户,很好地保证了整个世界杯期间的直播体验。

InfoQ:有哪些智能调度的新技术?

不畏:AI、多终端结合调度、IPv6 是目前行业内智能调度比较普遍的技术方向,我觉得归根结底,智能调度的核心仍然是对业务数据的价值挖掘和有效利用。

InfoQ:简单聊聊调度系统全盘智能化之下的运维价值?

不畏:我觉得在调度全盘智能化,自动化之下,运维的价值会更多的体现在业务场景的抽象能力和系统化解决方案制订上;从一个商业业务场景,转化为一系列技术问题,从离散的技术问题,提炼平台化的功能需求,再将一个个平台化功能整合成行业解决方案,以系统化思维不断的优化解决方案的稳定性、效率和成本,是未来运维的核心价值。

近年来,随着大数据、机器学习和 AI 技术的飞速发展,智能化运维成为运维的热点领域。

CNUTCon 全球运维技术大会特设「AIOps 实践与探索」专场,目前,已经邀请到 BAT 的技术专家,从智能调度、智能异常检测、故障知识图谱、变更发布智能检查等多方面阐述落地 AIOps 过程中的实践经验。另外,大会还有其他 11 个专场,涉及自动化运维、监控分析、日志处理、Kubernetes、CI/CD、微服务、SRE 等运维热门方向。

目前,大会 8 折限时优惠,立减 720 元,团购更优惠。点击这里了解更多,有任何问题,欢迎咨询票务经理 Joy,电话:13269078023(微信同号)。

2018-09-30 19:571155

评论

发布
暂无评论
发现更多内容

怎样成为优秀的后端工程师

越长大越悲伤

后端、 java‘

网易伏羲RL4RS荣获SIGIR2023 Resource Paper,推动深度学习技术创新

网易伏羲

Flink的函数体系

阿泽🧸

flink 三周年连更

测试环境

乌龟哥哥

三周年连更

只需要六步!快速开启专属的风控系统

Geek_2d6073

小程序开发中的插件、组件、控件,傻傻分不清楚

没有用户名丶

平台工程助力企业提升研发效能

SEAL安全

研发效能 平台工程

LED显示屏行业发展步伐

Dylan

发展 科技 LED显示屏

ChatGPT 中文指令指南,教会你如何使用chatgpt实现中文你想要的答案

汀丶人工智能

ChatGPT

Java 如何在 Array 和 Set 之间进行转换

HoneyMoose

Java实现多用户即时通信系统

timerring

Java

2分钟快速上手流水线的创建与运行

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 5 月 PK 榜

什么是人工智能领域的深度学习?

Jerry Wang

人工智能 深度学习 强化学习 三周年连更

上海国家会计学院刘勤:事项法会计支撑企业更好地应对不确定性

用友BIP

云原生日志收集机制和日志处理流程规范

穿过生命散发芬芳

日志分析 三周年连更

使用MASA全家桶从零开始搭建IoT平台(三)管理设备的连接状态

MASA技术团队

IoT MASA .NET 7

2023一线大厂 Java 面试八股文大全(整理版)附答案详解!

采菊东篱下

Java 面试

从原理到应用,人人都懂的ChatGPT指南 | 京东云技术团队

京东科技开发者

人工智能 AI ChatGPT4 企业号 5 月 PK 榜

探讨AIGC的崛起历程,浅析其背后技术发展

华为云开发者联盟

人工智能 华为云 AIGC 华为云开发者联盟 企业号 5 月 PK 榜

万字长文详解如何使用Swift提高代码质量 | 京东云技术团队

京东科技开发者

swift 代码质量 代码质量检测工具 京东技术 企业号 5 月 PK 榜

Java 如何在 Array 和 List 之间进行转换

HoneyMoose

ChatGPT是很强,但也会胡说八道

这我可不懂

人工智能 低代码 ChatGPT

使用NineData定制企业级数据库规范

NineData

数据库 dba 企业管理工具 数据库开发工具 企业级数据库规范

面试前必刷!Java高级工程师1380道面试题(附答案)分享

架构师之道

Java 面试

文盘Rust —— rust连接oss | 京东云技术团队

京东科技开发者

rust OSS 对象存储 rust语言 企业号 5 月 PK 榜

万字长文——Go 语言现代命令行框架 Cobra 详解

江湖十年

golang 后端 命令行 命令行工具

AI 大底座,大模型时代的答卷

Baidu AICLOUD

大模型训练

怎么在 vue 中使用 form 清除校验状态?

海拥(haiyong.site)

三周年连更

持续交付下的分层自动化测试

单东东

DevOps 持续交付 持续测试 测试自动化 junit5

并发编程:ErrGroup的正确使用

Jack

简单好用的网页设计工具:EverWeb中文版

真大的脸盆

Mac 网页设计 Mac 软件 网页布局 网页制作

不畏:智能调度的核心是对业务数据的价值挖掘和有效利用_DevOps & 平台工程_辛未・李_InfoQ精选文章