Data+AI时代,如何打造下一代数智平台? 了解详情
写点什么

旅游搜索巨头 SkyScanner 提升系统可观测性,将工程技术成本降低 90%

作者:Matt Saunders

  • 2025-05-27
    北京
  • 本文字数:1705 字

    阅读完需:约 6 分钟

大小:835.99K时长:04:45
旅游搜索巨头SkyScanner提升系统可观测性,将工程技术成本降低90%

新冠疫情为旅游搜索巨头Skyscanner的工程团队提供了一个审视其可观测性技术栈的机会。Skyscanner 曾撰文分享他们如何通过一个系统彻底改造其技术可观测性技术栈,提升了工程师的工作效率和旅行者的用户体验。


根据最近发表的一篇工程博文,Skyscanner 于 2020 年开始了这一转型之旅,当时旅游业处于停滞状态,面临着前所未有的中断。Skyscanner 的工程团队抓住这一特殊时期,深入挖掘并修复了其监控系统中的薄弱环节。


Skyscanner 工程团队在博文中写道:“我们面临的挑战远不止是成本问题,也不仅仅是小团队运营该平台的复杂性。我们明白,我们需要解决的最重要的问题是提升全体工程师对其服务的理解和操作能力,增强他们的信心,然后可靠地将 1.1 亿用户与每月超过 1200 个航班、酒店和租车合作伙伴联系起来。”


Skyscanner 之前的可观测性架构较为复杂,包含了一些专业供应商提供的系统和基于开源技术(如 OpenTSDB、Prometheus 和多个ELK技术栈)的内部系统。这种碎片化的架构给需要跨平台理解和解决这些问题的工程师造成了麻烦。



为了应对这些挑战,Skyscanner 制定了一项新的战略,围绕两个关键原则展开:采用 OpenTelemetry 作为服务监控和数据传输的统一标准,并将 New Relic 作为统一的数据存储和分析后端。


我们全力支持 OpenTelemetry 所倡导的高质量、标准化、可移植且无处不在的遥测愿景。展望未来,它将是 OpenTelemetry 原生的,而非依赖 APM 代理,我们已经为此做好了准备。


OpenTracing 和 OpenTelemetry 的 API 设计简洁明了,这使得 Skyscanner 能够在短短几周内通过简单地升级库的版本号迁移超过 300 个微服务。这迅速降低了工程师的认知负担,消除了在多个可观测性平台之间切换上下文的需求。标准化还为跨服务和框架更好地关联跟踪信息、指标、日志和事件带来了可能性。


一个令人意想不到的结果是团队在遥测方面的方法发生了文化层面的转变。当意识到数据收集和存储需要耗费的成本时,许多团队主动寻找更高效的方法。


工程团队表示:“我们发现一些团队希望找到更优的遥测使用方式。当他们亲眼目睹这些新方法带来的好处后,他们被说服了,并开始依赖跟踪信息,而不是冗长的日志记录或高基数指标。一些团队因此将他们的遥测成本降低了超过 90%!”


为了进一步推广新的可观测性技术栈,Skyscanner 启动了“可观测性大使”计划,在团队中发掘能够将可观测性最佳实践引入其领域的工程师。Skyscanner 还举办使用官方 OpenTelemetry 演示的可观测性游戏日,使系统调试变得更加有趣和吸引人。



Skyscanner 还重新审视其服务等级目标(SLO)实现方案,将技术可观测性方面的新能力与影响旅行客户的实际业务结果联系起来。Skyscanner 不再只关注 API 响应代码等技术指标,还从直接与用户体验相关的信号中驱动 SLO。


通过访问客户端遥测数据,我们可以从直接与我们的用户相关的信号中驱动 SLO,例如“有多少次航班搜索显示了有效结果?”


这种新的可观测性方法彻底改变了 Skyscanner 管理跨领域依赖关系和促进团队协作的方式。“我们不仅将可观测性用作技术工具,还作为社会技术工具,帮助我们理解我们的系统并做出数据驱动的决策,”工程团队总结道,“我们基于证据做出承诺,而不是基于直觉。”


Skyscanner 并不是唯一一家利用 OpenTelemetry 重新定义 SLO 驱动方式的公司。NOFire AI 的一篇文章进一步丰富了这方面的主题,特别是在 OpenTelemetry 的变革性影响以及从传统监控向智能可观测性转变方面。这篇文章还强调了 OpenTelemetry 如何通过消除碎片化、孤立的方法来实现统一的可观测性,这些孤立的方法此前对于组织来说并无助益。NOFire 认为,服务等级目标应该关注用户体验,而不是技术指标,这与 Skyscanner 从关注 API 响应代码转向以用户为中心的有意义信号(例如“有多少次航班搜索显示了有效结果?”)的转变不谋而合。


NOFire 还进一步引入了 AI 驱动的事件解决机制。Skyscanner 通过以人为中心的举措(例如“可观测性大使”计划)实现文化层面的转型,而 NOFire 建议使用生成式 AI 自动发现根本原因并生成可操作的解决方案,这可能会消除对手动仪表盘探索的需求,而手动探索正是这两家公司都面临的痛点。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/05/skyscanner-observability/

2025-05-27 19:004233

评论

发布
暂无评论

中国自动驾驶行业最大智算中心亮相 毫末顾维灏:毫末车端感知架构实现跨代升级

科技大数据

汽车

【Redis 技术探索】「数据迁移实战」手把手教你如何实现在线 + 离线模式进行迁移Redis数据实战指南(离线同步数据)

码界西柚

redis 1月日更 RedisShake Redis-shake

流光绘影开年大秀顶级艺术团队×中科极光“真激光”精彩呈现

硬科技星球

新同事卷的要死 , 天天加班,动不动就手写spring , 直呼崩溃

程序知音

Java java面试 后端技术 春招 Java面试八股文

VSCODE 配置远程调试环境

eng八戒

ide vscode 服务器

尝试阅读理解一份linux shell脚本

eng八戒

bash Shell Linux Kenel 脚本

多位AI学者、行业大牛、企业家齐聚2023 HAOMO AI DAY分享自动驾驶行业前沿洞见

科技大数据

一文读懂什么是 Web3 架构

风铃架构日知录

编程 程序员 后端 码农 web3

接口限流算法:漏桶算法&令牌桶算法&redis限流

懒时小窝

毫末智行稳健收官2022“三大战役” 火力全开打响2023“四大战役”

科技大数据

智能汽车

airserver2023最新版免费使用教程

茶色酒

AirServer2023

2023-01-07:hyper/docker-registry-web是registry的web界面工具之一。请问部署在k3s中,yaml如何写?

福大大架构师每日一题

云原生 k8s k3s 福大大

毫末智行稳健收官2022“三大战役” 火力全开打响2023“四大战役”

科技大数据

应用级容灾

agnostic

DR

自动驾驶技术平台分享:百度Apollo开放平台8.0再升级,更简单,更便捷,更高效

石臻臻的杂货铺

自动驾驶

无线配置多一个路由器作为家庭wifi的无线热点?

eng八戒

家庭网络 热点

三年成功实现7次OTA升级!MANA六大闭环成毫末产品迭代强大助力

科技大数据

怎么用vscode创建工程

eng八戒

ide vscode koa

《零基础学 Python(2023 版)》学习笔记 Day0

IT蜗壳-Tango

Python编程 IT蜗壳教学

数据湖(十七):Flink与Iceberg整合DataStream API操作

Lansonli

数据湖

SpringBoot 框架中的 Tomcat 为什么一定要替换掉?

风铃架构日知录

Java spring 程序员 后端 springboot

程序员为什么下班后只关显示器从不关电脑

风铃架构日知录

Java 程序员 后端 码农 IT

作为QA,我们要如何思考?

QE_LAB

测试思维

13 个前端可能用得上的 CSS技巧

devpoint

CSS ios 前端开发 scss

元器件温度系数(ppm/℃)是什么?

不脱发的程序猿

元器件温度系数

HAOMO AI DAY速递:六大闭环、MANA五大模型助力毫末智能驾驶产品快速迭代

科技大数据

替换目标中覆盖的文件如何恢复?EasyRecovery软件2023特色

茶色酒

EasyRecovery EasyRecovery15

单体的 TienChin 和微服务的 TienChin 有何异同?

江南一点雨

微服务

Ikigai: 享受生命的意义

俞凡

思维模型 Ikigai

模块四作业

Ryan

架构

旅游搜索巨头SkyScanner提升系统可观测性,将工程技术成本降低90%_后端_InfoQ精选文章