2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

BAT 都有哪些 AIOps 的经典案例?

  • 2018-09-29
  • 本文字数:1852 字

    阅读完需:约 6 分钟

首先,我们一起划重点:不提供干货的案例,都不能算好案例。

AIOps 的概念从 2016 年被提出以来,热度一直在增加,都是混运维这个圈的,我相信你听过或看过不少关于 AIOps 的报道。所以,是时候提供一些落地案例,增加一下你对 AIOps 的信心了。

11 月 16-17 日,CNUTCon 全球运维技术大会将在上海举行,我们邀请了 BAT 的专家来分享他们在 AIOps 领域的实践经验,知道你爱听“踩坑”教训和“排雷”经验,请相信,你想要的,我们都有!小编也是用尽毕生力气摁住了 Molly 和 Joy 的小手手,为大家争取来一次“剧透”的机会,提前带大家探究下他们要讲的内容!

聊起百度,想必大家的记忆都是从“百度一下”开始的,但很显然,百度并不想被大家定义为一个“搜索引擎”,于是他们涉足了各种领域,有了“百度文库”“百度知道”“百度学术”“百度地图”“百度网盘”“百度外卖”等产品。

互联网产品迭代速度非常之快,因此,百度每年都有数以万计的程序变更。但变化都伴随着风险,据统计超过 50% 的服务故障来源于发布。为了减少变更发布故障带来的损失,更好地管理海量规模的发布变更过程,百度智能变更(BID)产品应运而生。BID 提供了包含自动化部署、分级发布和变更检查的完整解决方案。

我们请来了百度智能云事业部的高级研发工程师陈云,为你重点讲述百度变更发布检查从人工到智能进阶。

「她说」

随着模块监控逐渐完善,很多模块都有数以十万计的监控数据,依靠配置规则或人工来检查发布效果是不可完成的任务。为了应对海量指标检查的需求,我们利用 AIOps 相关技术,设计出了一套可根据历史变更及对照组情况自动判断指标状态的智能检测算法。该算法不需要人工配置参数,通过自动训练参数并准确地判断异常,并且具备较好的普适性。最后,我们将展示智能发布检查在百度的具体实践效果。

本次演讲的主要内容如下:

  1. 故障来源及分布;
  2. 分级发布机制;
  3. 智能发布检查算法(异常定义、算法流程、基于 T 检验的指标变化度量、基于历史变更的异常变化检测、基于对照组的异常变化检测);
  4. 百度变更发布智能检查实践。

你能从中学到:

  1. 学习尽可能限制变更过程中异常影响范围的机制;
  2. 理解变更检查在变更过程中的重要地位和作用;
  3. 学习如果利用 AIOps 相关技术对变更过程中指标状态进行智能判断的方法。

提到阿里巴巴,你最先想到的是哪个词呢?移动支付?还是双十一?阿里系在产品种类上,也不甘落后。听说今年优酷直播世界杯,也是阿里云的小伙伴们在保驾护航。世界杯看得怎么样?是不是很清晰,又不卡顿呢?

我们请来了阿里云的视频云运维专家不畏,为你分享:智能的大脑——谈阿里视频云智能调度系统的演进。

「他说」

调度系统作为 CDN 的核心模块,对业务的质量、成本和稳定性等各方面起决定性作用。随着业务类型的快速变化,从传统的图片等小文件,到点播流媒体、直播、动态加速,调度系统也随之在不停的迭代更新以更加适应业务形态的调度模型,在业务和系统快速变化之下的稳定性、效率、智能运营是摆在运维面前的难题。希望这次可以深入浅出地介绍多次负责护航阿里“双十一”和 2018 俄罗斯世界杯的视频云智能调度系统,以及智能化运维在业务发展中的演进及其背后的思考。

本次演讲的主要内容如下:

  1. 阿里云视频云调度系统的演进之路;
  2. 在调度演进中的智能化运维思考和实践;
  3. 调度系统全盘智能化之下的运维价值。

你能从中学到:

  1. 阿里视频云调度系统在业务变化下是如何演进实践的;
  2. 在系统快速变化下的智能化运维思考模式。

去年王者荣耀,今年一起吃鸡。这是不是很多人在手游界的常态。小编虽然是个女孩子,但也经常混迹于“王者峡谷”。但我也是今天第一次去思考,游戏里的故障,腾讯是怎么定位的呢?

我们邀请到了腾讯技术运营部的高级工程师刘伟,为你深入浅出地介绍:智能运维助力游戏故障定位。

「他说」

随着游戏业务监控建设不断完善,海量业务故障时产生成百上千条告警,如何智能进行告警收敛、定位故障根源、实时统计业务影响是现阶段游戏运营面临的一个难题。本次分享以覆盖上百款游戏的智能故障定位平台出发,介绍腾讯游戏在智能异常检测、故障关联分析、故障知识图谱等方面的技术探索。

本次演讲内容如下:

  1. 利用动态阈值方法进行 KPI 曲线异常检测;
  2. 基于自然语音处理的实时舆情检测; 
  3. 故障定位领域关联分析及知识图谱技术。

你能从中学到:

  1. 学习智能监控全流程系统架构设计;
  2. 学习腾讯游戏在故障定位领域探索的经验;
  3. 掌握海量数据下动态阈值监控方法、实时舆情检测模型;
  4. 掌握构建专业知识图谱方法及知识图谱在故障领域应用。
2018-09-29 19:472513

评论

发布
暂无评论
发现更多内容

TapData + 实时数仓:实时数据如何赋能船舶制造业,助力数字化应用升级和科学管理运营

tapdata

大数据 实时数仓场景实践

拥抱AI技术:5月18-19日 全球金牌CSM认证课程 · Jim老师引导讨论AI & Agility话题

ShineScrum

淘宝商品详情API接口:全面解析商品属性与数据

技术冰糖葫芦

api 货币化 API 接口 API 文档 API】 pinduoduo API

Memecoin再迎爆发:是本轮牛市大反弹的开始吗?

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

Flink 作业管理器:核心功能、角色与责任详解

木南曌

flink 实时计算

高可用 - 隔离原则

京东科技开发者

5月10-11日·大连线下·CSM认证【提前报名特惠】“全球金牌课程”CST导师亲授

ShineScrum

CSM CSM认证 cst 线下授课

选择合适的监控观测平台,为业务出海合规建设减负

观测云

监控 出海

京东广告研发 —— 京东推荐广告排序机制演化

京东科技开发者

软件测试学习笔记丨Selenium执行JavaScript脚本

测试人

JavaScript 软件测试 自动化测试 测试开发

Python 中删除文件夹下文件的方法详解

霍格沃兹测试开发学社

Python 字符串格式化指南

霍格沃兹测试开发学社

加密世界:NFT、DeFi和游戏的热点新闻概览

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

预测分析中的场景管理,适应不断变化的市场环境

智达方通

企业管理 全面预算管理 财务管理 预算预测分析 场景管理

用海外云手机做tiktok怎样保障安全性?

Ogcloud

云手机 海外云手机 tiktok云手机 国外云手机 tiktok运营

流水线运行出错排查难?AI 来帮你

阿里巴巴云原生

阿里云 云原生 云效

企业规模扩大,SD-WAN实现跨省快速组网

Ogcloud

网络协议 网络加速 SD-WAN 企业组网 SD-WAN组网

EMQX Platform 产品发布会回顾:全球部署与无缝数据集成,驱动汽车行业智能化转型

EMQ映云科技

mqtt mqtt broker

使用 Dockerfile 构建和定制 Docker 镜像

霍格沃兹测试开发学社

离开工位老是忘记锁屏?试着让电脑自动完成这事吧!

京东科技开发者

对接HiveMetaStore,拥抱开源大数据

华为云开发者联盟

大数据 华为云 华为云开发者联盟 华为云GaussDB(DWS) 企业号2024年4月PK榜

西安站开营!AI 编码助手通义灵码帮大学生“整活儿”

阿里巴巴云原生

阿里云 云原生 通义灵码

流水线运行出错排查难?AI 来帮你

阿里云云效

阿里云 云原生 云效

企业未来都会用上云原生开发工具吗?它有什么优势

Tp_jh

AI 云原生 K8s 多集群管理

指标+AI:迈向智能化,让指标应用更高效

袋鼠云数栈

指标 指标管理 指标平台 指标开发 指标+ai

HCDG北京站精彩回顾 | 鸿蒙千帆起,开启万物互联新纪元

华为云开发者联盟

鸿蒙 物联网 华为云 华为云开发者联盟 企业号2024年4月PK榜

西安站开营!AI 编码助手通义灵码帮大学生“整活儿”

阿里云云效

阿里云 云原生 通义灵码

全国独家线下面授 | 杭州·大规模敏捷LeSS认证6月13-15日开班

ShineScrum

less 大规模敏捷LeSS 吕毅老师

BAT都有哪些AIOps的经典案例?_DevOps & 平台工程_辛未・李_InfoQ精选文章