【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

阿里怎样守护产品线上质量?大麦用虚拟机器人搞定

  • 2020-03-10
  • 本文字数:3147 字

    阅读完需:约 10 分钟

阿里怎样守护产品线上质量?大麦用虚拟机器人搞定

对于大麦这种客户众多,抢票舆情极易爆发的业务,如何保障好线上质量是极大的考验。大麦针对产品的线上问题分两个阶段进行了专项攻坚,拿到理想效果的同时沉淀出一整套解决方案及技术工具,其中核心技术产品钉钉机器人“麦粒儿”被阿里多个 BU 接入使用以应对线上问题。本文分两个阶段来阐述治理的结果、过程及沉淀。

一、第一阶段:提升线上问题的解决效率

  1. 业务属性决定大麦要快速处理线上问题


背景:大麦的业务,售卖的是稀缺资源,而面对的客户除了普通的消费者,还有主办方、场馆方和政府公安文化等,这样的业务属性,决定了我们对线上质量的高要求,线上问题的解决效率是我们的第一指标。随着大麦内部一批大型新系统的陆续上线,线上质量的压力越来越大,随即由技术质量牵头对线上问题展开专项攻坚,力保线上质量。


目标:通过专项治理,大幅提升线上问题的解决效率。我们对标了阿里内部各个业务的标准,制定了大麦的核心指标为线上问题的 1 小时解决率。


价值:所有影响用户和业务的紧急问题在第一时间内得到解决;打通公司内各个部门,过程结果透明,所有角色信息对等,对质量放心;所有同学对线上生产有敬畏之心,视线上质量为生命线。


  1. 经过各部门的通力合作和技术攻坚使核心目标达成


  • 紧急问题的 1 小时解决率大幅增长。



  • 问题逐步收敛,解决时长大幅缩短。



  • 机器人全流程承接,全角色参与,进度结果全透明。


  1. 通过建立工具化支撑的处理机制来实现目标


1)面对复杂的线上问题和众多的干系人,我们首先想到的是把问题分级,使那些真正紧急的问题暴露出来,并建立问题的全流程处理机制来标准化运行,如下图:



2)有了处理机制,还需要有工具来承接使之高效运行,我们开发了虚拟机器人依托钉钉群进行问题的收录和沟通,并打通了研发工作平台、邮件系统、故障系统等使问题的快速处理形成闭环,具体功能有:


  • 支持上报问题→问题进展同步→日报、周报→复盘提醒→升级故障,形成闭环。

  • 通晒紧急问题的核心指标,促进问题快速解决,实现核心目标达成。

  • 日常应答,方便主动跟进问题进展,对未关闭的紧急问题直接 @接口人处理。



3)影响问题处理效率的核心是问题的定位。在治理过程中,技术团队建立并完善了各自业务线的核心系统监控预警系统,使问题第一时间被发现。同时我们还开发了众多的排查工具并打通全链路排查系统,结合舆情系统的精准信息反馈,使问题可以被快速定位。

二、第二阶段:提升大麦的线上质量水平

  1. 重点从问题的解决效率转向问题的收敛


背景:经过第一阶段的治理,线上问题的解决效率已经得到了大幅的提升。但线上质量永远是我们的生命线,真正影响用户体验的是我们的线上质量,我们随即将目标对准提升线上质量本身,力图实现收敛线上问题。


目标:将大麦的线上质量水平大幅提升。核心指标分解为:


  • 收敛整体线上问题,腰斩 TOP 问题,控制紧急问题的二次发生率。

  • 全面提效,完善机器人建设,全流程自动化承接,减少人力成本。


价值:形成一整套专业的线上问题解决方案并有配套工具支撑,阿里集团横向打通;将线上稳定视为生命线,在公司树立稳定压倒一切的共识。


  1. 经过各部门同学们的通力合作,核心目标全部达成。


  • 线上质量大幅提升,紧急问题断崖式下降。



  • 整体问题平均解决时长大幅缩短。



  • TOP3 问题被腰斩,紧急问题二次发生率不到 1%!

  • 机器人产品化基本完成,支撑业务线自运营,节省人力成本超一倍。“麦粒儿”支撑集团多个 BU 进行线上问题处理。



  1. 为了达成核心指标,专项小组主要从专项根解 TOP 问题、完善机器人产品化、止血手册和排查宝典建设三方面出发展开工作,具体事项如下:


1)对 TOP 问题进行专项治理,分级 action 根解严重问题。


  • 针对链路问题,成立专项小组进行治理。


我们对历史问题进行了梳理和总结,在多个核心环节进行了多项产品及技术优化,并补齐 SOP 减少人为操作失误,最终使产技问题清零,生产问题腰斩。


  • 制定完善的 action 分级机制并应用于紧急问题中实现问题根解。


为准确找到根解方案、保障 action 及时完结,我们制定了复盘会议规范、action 分类制度和 action 分级处理规则并推动落地,紧急 action 的周清率达到 100%。最终使紧急问题二次发生率不到 1%,超过之前预定目标。


2)完善机器人功能并进行产品化,开始推广至外部 BU。


在一期功能的基础上,机器人二期重点建设了排查止血指引、故障平台打通、各类功能优化等,补齐了全流程闭环并全面提效,完成了创新的自动化承接的线上问题管理方案,主要包含:


  • 处理闭环:问题上报(含止血、排查方案)–>处理通知–>问题解决、关闭通知(含解决时长同步及核心指标对焦)–>获取问题原因、解决方案–>复盘提醒。

  • 升级流程:问题上报–>问题升级(故障标准)–>对接 GOC。

  • 信息同步:支持自动发布线上问题的日报、周报等。



机器人建设里程碑



随着功能闭环的完成,开始进行产品化开发,同时完成多个专利申请;可快速配置个性化机器人,实现分钟级接入全部功能;BU 内部众多问题群接入机器人,整体满意度超 95%;集团多个外部 BU 也进行了机器人的接入工作,小小机器人开始横向打通支撑集团的线上问题处理。


3)完成排查宝典和止血手册建设,指导止血操作并快速定位问题。


  • 止血手册建设:


背景:当发生线上问题或故障时,根据阿里安全生产规范,我们首先要做的不是排查问题,也不是解决问题,而是应该立即进行止血操作。争取在最短的时间里,最大程度的降低问题的影响范围。之前在面对线上问题时,大家的止血操作效率低且容易被忽视,专项小组决定产出一份止血手册,指导大家进行止血操作,提高问题解决效率。


工作:我们从实际线上问题出发,借鉴真实线上问题止血的实操经验,对问题进行归类整理,创建了经典场景的止血手册,涵盖了全部的紧急问题,并与机器人结合自动指导大家进行止血操作。


  • 排查宝典建设:


背景:专项小组在 TOPIC 一期以解决时长为衡量标准,推动各个业务线建设核心排查工具,从而提高了问题的排查效率。但是随着排查工具的种类和功能的不断增加,工具的操作使用说明没有及时跟进,导致非该业务线的同学在查询使用上存在困难;其次,当遇到需要排查上下游业务的线上问题时,因为不了解其他业务的排查思路和方法,只能等待其他对应业务的同学给出排查结果,导致问题排查效率低。


工作:若想拥有方便、高效的定位问题的方法,不仅在于有好用的排查工具,还在于有清晰的排查思路。我们从实际线上问题排查定位的实际经验出发,收集建设各个核心系统的排查思路和配套工具,形成了核心业务的主要链路场景的排查宝典,包含问题描述、排查思路、详细步骤、参考案例。并与机器人结合自动指导大家进行问题定位。


  • 止血手册和排查宝典的整体结果


止血手册结合排查宝典,使大麦整体的线上问题解决时长持续降低。


4)制定线上问题处理流程规范,助力高效自运营。


  • 为了解放人力,使线上问题的管理实现自动化的高效运营,专项小组在不断完善机器人建设的同时,还出台了《大麦线上问题处理流程规范》,并依据规范进行周、月维度度量,逐步使线上问题的管理下放到业务线自运营。

  • 整体处理流程规范包含处理流程、aone 操作规范、定级规范、复盘规范、action 规范、故障标准、罚则标准等。

  • 结合机器人在群问题管理方面的人力成本降低,整体人力成本节省超一倍。

三、总结

随着两个阶段的建设,大麦线上问题的处理效率和线上质量水平均得到大幅提升。但线上质量永远是我们的生命线,稳定压倒一切!未来我们还将继续建设第三阶段,致力于提升自动化和智能化水平,并把整体的线上问题管理方案体系化推广出去。分解为:


  • 继续推进机器人建设,打通全链路日志系统实现问题的智能诊断,并结合止血手册和排查宝典建设,实现问题自动应答。

  • 继续为新系统稳定保驾护航,专项推进线上 TOP 问题根解,杜绝二次发生。

  • 完善整体的线上问题管理方案,支持更多阿里 BU 使用,为线上问题的专项解决提供更好的支撑。


作者简介


阿里文娱测试开发专家 烈冰


2020-03-10 11:002031

评论 1 条评论

发布
用户头像
2020-03-10 15:08
回复
没有更多了
发现更多内容

「面试高频」秒杀架构的设计套路,你值得拥有

我爱娃哈哈😍

架构设计 架构设计实战 秒杀架构

Java 和 Python 关于 % 的那些坑

与你一起学算法

Java Python

Java面试必看!阿里(嵩山版)分布式核心原理笔记来了

Java架构追梦

Java 阿里巴巴 架构 面试 架构分布式

如何批量下载YouTube视频到本地

科技猫

软件 音视频 经验分享 资源分享 工具分享

跟我学ModelArts丨探索ModelArts平台个性化联邦学习API

华为云开发者联盟

AI 联邦学习 API 华为云 modelarts

区块链电子发票平台,区块链电子发票优势

13530558032

看了上百份面经,发现每次面试的问题都逃不过这几方面

yes

面试

论文免费开源:NB-IoT智慧路灯监控系统

不脱发的程序猿

28天写作 论文 3月日更 NB-IoT智慧路灯 大学生毕业

一个合格的CloudNative应用:程序当开源软件编写,应用配置外置

华为云开发者联盟

云原生 华为云 Cloud Native CCE CSE

【LeetCode】设计停车系统Java题解

Albert

算法 LeetCode 28天写作 3月日更

收藏!Linux常用命令合集

roseduan

Linux

冲击大厂!阿里P9纯手打Java面试小抄(21版)在GitHub上已获80万star

Java 程序员 面试

2021 年要了解的 34 种 JavaScript 简写优化技术

LeanCloud

JavaScript 面试 大前端

拍乐云推出“实时标注”,助力少儿编程、在线金融等行业场景实现高效互动

拍乐云Pano

音视频 在线教育 互动白板 实时标注 在线金融

在线数据迁移,数字化时代的必修课 —— 京东云数据迁移实践

京东科技开发者

数据库 数据迁移

智慧党建信息管理平台系统建设

13530558032

2021最新总结网易/腾讯/CVTE/字节面经分享(附答案解析)

比伯

Java 编程 架构 面试 程序人生

电子门锁没电的解决办法

孙叫兽

生活 程序人生 电子锁

寻找被遗忘的勇气(十九)

Changing Lin

3月日更

Python 生成 QR 二维码

HoneyMoose

LeetCode题解:213. 打家劫舍 II,动态规划(不缓存偷盗状态),JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

使用“零信任”,不惧“内部威胁”!

龙归科技

管理 数据完整性 零信任 内部威胁

源中瑞智慧社区解决方案,社区服务平台

13530558032

安卓嵌入式底层开发!整理出这份8万字Android性能优化实战解析,已开源

欢喜学安卓

android 程序员 面试 移动开发

GO训练营第10周——日志&指标&链路追踪

Glowry

2B营销路径: 9大步骤自我拆解

boshi

营销数字化 七日更

全票通过!微众开源项目EventMesh进入Apache孵化器

康月牙

Apache 开源 Event 事件网格 eventmesh

一文搞懂三级管和场效应管驱动电路设计及使用

不脱发的程序猿

28天写作 电路设计 三极管 3月日更 场效应管

快点来学吧!Android性能优化面试题集锦,深度解析,值得收藏

欢喜学安卓

android 程序员 面试 移动开发

EGG Network公链技术创新,EFTalk打造高效全能公链

币圈那点事

区块链

【前端面试题】关于一些js的一些面试题(金融行业),我和面试官扯了三个小时

孙叫兽

JavaScript 大前端 金融 笔试题

阿里怎样守护产品线上质量?大麦用虚拟机器人搞定_文化 & 方法_阿里巴巴文娱技术_InfoQ精选文章