2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

严选电子面单稳定性治理实践

  • 2021-02-21
  • 本文字数:3276 字

    阅读完需:约 11 分钟

严选电子面单稳定性治理实践

什么是稳定性治理


稳定性治理是个比较复杂的命题,业界没有统一的定义。系统「稳定性」是指系统要素在外界影响下表现出的某种稳定状态,但事实上,复杂系统中潜伏着大量影响稳定状态的故障组合,那么「稳定性治理」的核心用一个词来概括的话,“故障管理”应该比较合适,故障管理领域下面细分为故障防范、故障感知、故障触达、故障止损和故障复盘 5 个子领域。稳定性治理的主要工作范围涵盖了可用性、监控告警以及线上应急。


接下来以严选电子面单服务的稳定性专项治理为例,进一步说明在服务器仓库部署 和外部服务商等不可控因素下如何保障稳定性。


严选电子面单介绍


严选电子面单亦称为一体化面单或者标准化面单,是指严选配送中心提供一整套可以适配所有仓库的面单服务,包括面单生成、面单打印、面单管理、服务监控等功能,是供应链环节赋能的基础产品和服务。



电子面单服务由于特殊的项目条件和历史包袱,发展至今仍存在一些痛点问题,例如:


  • 定位问题比较难

面单打印发生异常时,需要联系仓库服务商提供日志用于定位问题,受响应时间和配合程度影响,解决异常的耗时往往被拉长。

  • 面单生产感知弱

严选侧不了解仓内生产面单的状态(是否打印、是否分包、打印成功/失败等状态),对履约链路中重要一环缺少数据信息。

  • 整体流程监控少

对仓内生产操作没有整体的可视化监控界面和预警,面单服务中的异常无法及时感知。

  • 面单打印反馈慢

仓内操作人员反馈打印慢时,无法准确了解打印耗时、打印机、主机等数据信息。

  • 安全性信任度低

电子面单服务中的面单打印 SDK 是嵌入仓库服务商的仓库管理系统(WMS),因此安全性备受关注。


稳定性治理整体思路


3.1 整体策略与方向


有了痛点就有具体的策略和实施,实施策略覆盖了事前、事中和事后 3 个阶段,且形成了闭环。



(1)故障防范:如果新系统从设计、实现到运营就充分考虑稳定性,例如采用防御性设计,规范化操作和标准化运营等,一般能规避大部分故障风险。但对于存在历史包袱的老系统来说,除了服务治理和优化外,还可以借助生产环境的定期演练来发现系统「稳定性」、「鲁棒性」和「自动恢复性」上的问题。此外,与外部系统交互的过程中,服务安全性是容易被忽略但却是影响稳定性的重要因素之一。


(2)故障感知:除了对常规的「系统数据」和「应用数据」收集外,还需要感知和识别生产过程中的异常,从而需要进一步收集生产环境的「业务数据」。


(3)故障触达:基于第二环节故障感知的数据基础上,建立相应的机器监控,应用监控和业务监控,最终实现「监控分层」和「告警互补」,通过监控告警来触达相应的技术人员、运维人员和业务人员,从而达到快速感知异常、快速辅助定位的效果。


(4)故障止损:前三个环节可以理解为事前操作,那么此环节是故障发生时应该第一时间采取的动作,需要沉淀一整套验证过的故障响应预案,覆盖可能出现故障的「核心场景」、「定位方法」、「应对策略」,最终达到能应急响应、故障定位和快速恢复。


(5)故障复盘:这一环节属于事后操作了,复盘源于围棋术语,故障复盘与围棋对局后的复演相似,都是检查对局中招法的优劣与得失,让出现过的故障处于「发展可控」或「范围收敛」的状态,同时从出现的故障中提炼出一些流程和经验,以避免后续出现同样或同类的故障。


基于上述的闭环策略,稳定性专项治理实施的主要范围包含「可用性」、「监控告警」和「线上应急」三大块,发力的方向是达到「可预防」、「可感知」、「可快速处理」。


3.2 案例实施与分析


3.2.1 可用性建设


电子面单服务专项治理在可用性上的主要工作分为三个方面:「服务治理」,「动态演练」和「安全升级」。


(1)服务治理从服务本身和上下游关系出发


在服务上下游关系上需要完成强弱依赖接口的治理,首先梳理出依赖关系、流量大小以及依赖强弱,在此基础上去除没有必要或者不合理的依赖,同时把一些不影响业务核心功能的依赖变成弱依赖,建立合理的系统拓扑。强弱依赖治理的成果可以应用于系统改造、性能优化、限流降级、故障定位、容量评估等场景。


服务本身性能优化是一个持续的过程,也是提供服务方和服务使用方共同优化的过程,常见的技术手段包括业务场景的合理兜底、利用缓存提高系统的吞吐率,慢 SQL 治理,线程池调优、异步削峰、历史数据的定时备份和清理、打印流程优化等等。



(2)生产环境的动态演练常态化


动态演练可以理解为消防演习,是验证故障应对措施的有力手段。我们建立了生产环境的定期动态演练计划,覆盖的维度从面单服务单台机器故障、单条链路故障到整个面单服务故障的演练。



(3)服务安全升级及认证


由于电子面单服务中的一部分是嵌入仓库服务商的仓库管理系统(WMS)中使用,因此安全性受到严选和服务商的共同关注。在电子面单服务安全的建设上,我们先后完成了两个方面的工作:


一方面我们完善了面单服务的鉴权校验,以及面单相关的敏感信息(商品信息、收件人信息等)隔离和隐私化;


另外一方面是联合第三方部门完成面单打印 SDK 的安全测试,获得服务商的认可,也方便后续的推广和使用。


3.2.2 监控告警建设


监控告警的建设目标是完善监控能力和有效告警触达,而建设的过程中实现监控分层是为了能达到有效监控和报警互补的效果,同时监控分层能促进每个层次监控的深度和覆盖面,防止建设失控。



在电子面单服务的监控告警建设上,我们分为两步走,第一步完成了关键信息的远程实时收集,覆盖的范围包括系统层面、应用层面、业务层面的数据。



基于第一步的结构化和非结构化的数据基础,完善了面单服务链路的监控,包括仓内服务器监控,仓内生产监控,面单打印监控。


3.2.3 线上应急建设


线上应急是故障发生时的行动指南,能有效降低故障定位和止损的时间,提升团队内外的协作效率。在电子面单服务的线上应急建设上,我们准备了三板斧:「场景」「工具」「预案」


(1)关于场景,首先是对核心系统的核心链路进行梳理,然后完成核心链路的日志治理,最后对常见的单个异常场景和紧急批量异常场景进行分别梳理。


(2)关于工具,需要借力现有的成熟工具,比如严选预案平台、严选压测平台、运维工具等,应用于全链路性能测试和异常场景处理,同时充分考虑外部依赖的不可控因素,建立相应的服务商紧急沟通群。


(3)关于预案,针对高频的单个异常,建立常规的处理 SOP,从技术、产品和业务角度考虑优化或者工具化;针对批量异常场景,建立上下游团队紧急处理和协作机制;最后采用定期的动态演练来验证预案的可执行性和有效性,从而形成预案产出、验证、优化的正向闭环。



稳定性思考与拓展


稳定性治理的思考准备从两个角度来谈,一个角度是从稳定性治理的人出发,关键词是「阶段工作」和「角色转变」;另外一个角度是从稳定性工作本身出发,关键词是「持久战」。


对于稳定性治理的人来说,稳定性治理可以看成是由众多阶段性工作组成,随着治理的过程,治理的人逐渐发生角色上的转变。一开始我们都是被动方,被动的接收问题和处理问题;后来我们开始考虑主动做些什么,能够主动挑战和测试核心链路,比如定期的梳理,动态演练和压测;随着治理经验的积累和落地,我们都会在下一个新的场景和故事里转变成前置主动方。



对于稳定性工作本身来说,稳定性工作不仅仅是大促时的保障和平时的稳定性轮值,而应该是有目标、过程可跟进、结果能检验的体系化工作。稳定性治理是稳定性工作中的较为复杂的部分,不是某个时间点的某个动作就能彻底完成,而是一场很硬的持久战,这里面既包含历史包袱,又有新的问题场景,现有的很多系统均会逐步经历原始阶段、部分具备、基本覆盖、能力完善以及全面提升的阶段,当前严选电子面单服务的稳定性治理正处于基本覆盖到能力完善阶段,除了这个服务外,有很多系统都将在这段进程中被推动着前进。



作者简介


东晨雨,高级服务端研发工程师,参与严选供应链仓配系统建设,目前主要负责快递配送业务、干线物流业务以及仓储相关业务,致力于为严选用户提供优质的物流服务。


头图:Unsplash

原文:https://mp.weixin.qq.com/s/48W0KyjWLuq2WEEOAkDDIg

原文:严选电子面单稳定性治理实践

来源:严选技术产品团队 - 微信公众号 [ID:YanxuanTechProd]

转载:著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

2021-02-21 23:333210

评论

发布
暂无评论
发现更多内容

蚂蚁国际与巴林国家支付网络BENEFIT达成合作

Lily

AI 客服公司 Sierra ARR 破 1 亿美元;育碧推出 AI 语音游戏《队友》:语音指令掌控战局,NPC 即兴互动丨日报

RTE开发者社区

第三章 感知、思考与行动的闭环

愚夫

Agentic Agentic AI

夹子机器人、套利机器人、是什么原理呢 、能做到稳赚稳赢吗

西安链酷科技

数字孪生项目的开发

北京木奇移动技术有限公司

数字孪生 软件外包公司 webgl开发

技术赋能服务:AI驱动下的国外舆情监控服务升级路径

沃观Wovision

舆情监控 海外舆情监控 舆情监控网站 境外舆情监控 国外舆情

AI如何赋能?2026年智能海外社交媒体监测服务的新选择

沃观Wovision

人工智能 AI Transcription 社媒监测 海外社交媒体监控 社媒分析

超融合科普:如何理解“软件定义”在数据中心基础设施中的实践

智驱前线

海外媒体监测服务的价值重构:从数据采集到战略决策的全流程赋能

沃观Wovision

社交媒体 舆情监测 社交媒体监控 海外社交媒体监控 社媒分析

打造透明化智能车间:数控机床制造业MES系统

万界星空科技

mes 万界星空科技mes 制造业转型 数控机床行业 数控机床MES

报销单 / 申请单打印不用愁!JNPF 打印设计全流程,一键拿捏

引迈信息

开源技术驱动与架构创新:AI领域的破局之道

澜舟孟子开源社区

人工智能 大模型

服务台 + 移动端双优化!嘉为蓝鲸WeOps一体化智能运维平台V5.28&V4.28提升运维协同效率

嘉为蓝鲸

智能运维 自动化运维 运维效率 一体化智能运维平台 一体化运维平台

声网 CEO 赵斌:对话式 AI 加速 RTE 进化,实时互动步入万亿分钟时代

RTE开发者社区

聊聊场景题:百万人同时点赞怎么办?这个怎么回答

程序员小富

市场监管AI人工智能服务系统:让合规不费力,监管不缺位

上海拔俗

SSL证书详解:类型、工作原理与获取指南

qife122

SSL证书 加密技术

一次快速响应的开源协作,让 DeepSeek-V3.2-Exp 性能满血回归

Baidu AICLOUD

百度百舸 DSA Sglang RoPE

通过Amazon Q CLI 集成DynamoDB MCP 实现游戏场景智能数据建模

亚马逊云科技 (Amazon Web Services)

人工智能

技术驱动革新!腾讯蓝鲸社区活动精彩回顾:四大智能运维实战路径分享

嘉为蓝鲸

AIOPS 智能运维 自动化运维 一体化运维 运维效率

从园区到碳中和:MyEMS如何助力区域产业集群实现多能互补与协同降碳

开源能源管理系统

开源 开源能源管理系统

移动端弱网优化:字节跳动移动端网络HttpDNS优化实践

JackJiang

网络编程 HTTP DNS httpdns

为什么企业死盯第一学历?

测试人

软件测试

国外舆情监控软件终极指南:从入门到精通的选择策略

沃观Wovision

舆情监控 海外舆情监控 海外舆情 社交媒体监控 舆情监测服务

机器人争议之外,小鹏埋了一条物理AI的暗线

脑洞汽车

AI

跨境支付类 dapp 开发报价参考,避开隐形收费

西安链酷科技

移动端弱网优化:移动端网络HttpDNS优化实践

JackJiang

AI中台与智能体开发:智能体开发的“效率引擎”

上海拔俗

2026 出海媒体监控服务终极指南:从策略到工具选型

沃观Wovision

出海社交 出海 社交媒体监控 海外社交媒体监控 出海舆情

外部合作团队接入无忧!嘉为蓝鲸DevOps基础管理平台多租户管理,数据隔离防泄露

嘉为蓝鲸

研发效能 研发协同 基础管理平台 DevOps平台 CComm

JimuReport 积木报表 v2.2.0 版本发布,免费的可视化报表和大屏

JEECG低代码

AI 数据可视化 报表 积木报表 报表工具

严选电子面单稳定性治理实践_文化 & 方法_严选技术产品团队_InfoQ精选文章