写点什么

Grab 为其平台新增实时数据质量监控功能

作者:Patrick Farry

  • 2025-12-16
    北京
  • 本文字数:1052 字

    阅读完需:约 3 分钟

大小:528.55K时长:03:00
Grab为其平台新增实时数据质量监控功能

总部位于新加坡的数字服务平台 Grab 在其内部平台Coban中新增了数据质量监控的能力,以提升 Apache Kafka 向下游消费者交付的数据质量。该公司在工程博客中详细描述了这一改进。团队指出,“过去,Kafka 流数据处理的监控缺乏有效的数据质量验证方案。这一局限性使得识别坏数据、及时通知用户,以及防止对下游用户造成级联影响变得十分困难。”

 

Grab 遇到的数据错误主要分为两类,即语法错误(syntactic)和语义错误(semantic)。语法错误源于消息结构问题,例如,生产者可能向一个在 Schema 中定义为整型(int)的字段发送字符串值,导致消费端应用因反序列化失败而崩溃。语义错误则出现在消息中的数据值虽结构合法,但不符合业务规则或超出合理范围。例如,user_id 字段可能是一个有效的字符串(语法正确),但如果其格式不符合公司统一规定的“usr-{8 位数字}”模式,则构成语义违规。

 

为解决上述问题,Grab 工程团队设计了一套新架构,支持数据契约定义、自动化测试和数据质量告警。该系统的核心是一个测试配置与转换引擎。

 

该引擎接收 Kafka 主题的数据 Schema、元数据和测试规则作为输入,自动生成一组基于 FlinkSQL 的测试定义。随后,一个 Flink job 执行这些测试,从生产环境的 Kafka 主题中消费消息,并将发现的错误转发至 Grab 的可观测性平台。团队选择 FlinkSQL,是因为它能将流数据表示为动态表,从而自动为可高效实现的规则生成数据过滤器。

 

为简化定义数百条字段级规则这一可能极其繁重的任务,平台引入了 LLM(大语言模型)。该模型通过分析 Kafka 流的 Schema 和脱敏后的样本数据,智能推荐潜在的语义测试规则。这一功能大幅加速了初始配置过程,并帮助用户发现那些非显而易见的数据质量约束。

 

该系统于今年早些时候上线,目前已对 100 多个关键 Kafka 主题实施主动数据质量监控。团队报告称:“该方案能够立即识别并阻断无效数据在多条流中的传播……显著加快问题诊断与修复速度,使用户能迅速应对生产环境中的数据挑战。”

 

这一做法契合行业最佳实践,尽管目前仍属罕见。根据 Confluent 最新发布的2025数据流报告(2025 Data Streaming Report),估计仅有约 1%的企业达到了最高成熟度阶段,即“数据流作为战略赋能手段,且流被当作产品进行管理”。通过实施基于契约的主动式数据质量监控,Grab 正将其数据流视为面向内部用户的一种可靠产品。

 

Grab 此次平台升级也是更广泛行业趋势的一部分,即为数据管道增加可观测性。这一领域正吸引众多初创公司投入,并推动学术界对实时数据质量指标的研究。

 

原文链接:

Grab Adds Real-Time Data Quality Monitoring to Its Platform

2025-12-16 13:411

评论

发布
暂无评论

实时多模态 AI 的 N 种新可能丨实时互动和大模型专场@RTE2024回顾

RTE开发者社区

鸿蒙NEXT开发案例:随机数生成

zhongcx

NocoBase 本周更新汇总:优化移动端样式

NocoBase

开源 低代码 零代码 无代码 版本更新

班级招生平台(源码+文档+部署+讲解)

深圳亥时科技

茶思屋直播|构建多元共生的生态空间:TinyEngine生态的融合之道

OpenTiny社区

开源 前端 低代码 OpenTiny

《Django 5 By Example》阅读笔记:p679-p765

codists

Python django

鸿蒙NEXT开发案例:随机密码生成

zhongcx

如何在ppt中添加数字图标?推荐这款在线版PPT软件!

职场工具箱

效率工具 PPT 办公软件 AIGC AI生成PPT

Scrum敏捷开发的核心:深入解析Product Backlog

代码忍者

解锁电商新视野:淘宝商品详情API接口的实时属性与价格数据探索

代码忍者

API 接口 pinduoduo API

Flink Forward Asia 2024 上海站|探索实时计算新边界

阿里云大数据AI技术

大数据 flink FFA FFA2024

全球司库 | 科学管理企业资金结算,建立管理平台至关重要!

用友智能财务

数据资产 财务 企业数智化 全球司库

聊天机器人API:腾讯、百度、阿里云接口对比

幂简集成

聊天机器人 API

人员关系管理系统(源码+文档+部署+讲解)

深圳亥时科技

解锁电商数据新纪元:一键接入1688 API,精准采集商品详情实战指南

代码忍者

API 接口 API 测试 pinduoduo API

更快、更稳、更优,揭秘火山引擎全站加速 DCDN 规模容器化最佳实践

火山引擎边缘云

容器 云原生 边缘计算 全站加速

可视化工具对比:JimuReport VS QuickBI

JEECG低代码

数据可视化 数据大屏 报表工具 仪表盘设计

「工作流Agent」亮相百度世界大会,百度智能云千帆 AppBuilder 产品功能重磅升级

Baidu AICLOUD

rag

操作系统加码主动防护:数智化有了“安全底座”

Alter

操作系统 openEuler AI 基础设施

一招带来远程办公新体验

芯盾时代

远程办公 终端安全 数据安全 零信任

Grab为其平台新增实时数据质量监控功能_大数据_InfoQ精选文章