2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

加速机器学习模型开发:AirBnb 利用 Chronon 实现特征工程

  • 2023-10-01
    北京
  • 本文字数:879 字

    阅读完需:约 3 分钟

大小:463.26K时长:02:38
加速机器学习模型开发:AirBnb利用Chronon实现特征工程

AirBnb 经常要创建用于机器学习模型的新特征,为了提高生产力和可扩展性,他们构建了一个名为Chronon的解决方案,用于创建将原始数据转换为特征并进行训练和推理所需的基础设施。

 

AirBnb 工程师兼 Chronon 创始人 Nikhil Simha 解释说,将原始数据转换为特征并用于训练 ML 模型是一项复杂且耗时的任务,工程师需要从 AirBnb 数据仓库中提取数据,并编写复杂的 ETL 逻辑将其转换为特征。另一个难点在于要确保这个逻辑所生成的推理特征分布与训练时的相同。

 

Simha 说,Chronon 就是为了解决这些问题,使机器学习工程师在训练和推理中以可复制的方式定义特征并中心化数据计算。


作为用户,你只需要声明一次计算,Chronon 就会生成所需的所有基础设施,不断地将原始数据转换为训练和服务所需的特征。AirBnb 的机器学习从业者不用再花费数月的时间手动实现复杂的管道和特征索引。通常,他们用不到一周的时间就可以为他们的模型生成新的特征集。

 

Chronon的第一个组件支持从各种数据源获取数据,包括事件数据源、实体数据源和累积事件源,从每个数据源收集不同类型的数据。

 

摄取数据后,它就可以使用类似 SQL 的操作和聚合进行转换,从而生成服务于在线模型的低延迟端点,以及用于离线训练的 Hive 表。在底层,Chronon 使用 Kafka、Spark/Spark Streaming、Hive 和 Airflow 来构建管道。类似 SQL 的操作包括GroupByJoinStagingQuery,它们是 Spark SQL 查询,每天脱机计算一次。聚合包括窗口、桶和基于时间的聚合。

 

最后,它还有一个 Python API,提供了类似 SQL 的原语,并将基于时间的聚合和窗口作为一级概念。例如,使用 Python API,你可以过滤和转换用户在过去五个小时内查看某个物品的次数。

 

Chronon 有一个重要的概念是准确性,即特征值更新的频率,是实时更新还是固定时间间隔更新。要根据特定的用例选择合适的准确性,因此,Chronon 让用户可以方便地将计算的准确性设为为 temporal snapshot

 

在写这篇文章的时候,我还不知道 AirBnb 是否会在 GitHub 上提供 Chronon,但如果你想创建自己的特征工程管道,可以读下原文中的讨论,非常有趣。

 

原文链接:

https://www.infoq.com/news/2023/08/airbnb-chronon-ml-features/

2023-10-01 08:007055

评论

发布
暂无评论
发现更多内容

4.29 晚直播预告 | 清华团队揭秘,时序大模型如何让数据“活”起来?

Apache IoTDB

最新字节跳动运维云原生面经分享

王中阳Go

Go 字节跳动 面经

《Operating System Concepts》读后感

codists

操作系统

Nacos 3.0 正式发布:MCP Registry、安全零信任、链接更多生态

阿里巴巴云原生

nacos MCP

聚焦查询引擎优化:技术人如何在国产数据库项目中不断突破

TDengine

数据库 tdengine 时序数据库

AI智能体的技术架构

北京木奇移动技术有限公司

AI智能体 软件外包公司 AI技术应用

数智报告:一键合并精准高效

用友智能财务

用友 财务 数智化 智能财务 数智报告

千亿级打点PV的成本治理实践

百度Geek说

百度 成本治理 打点治理

AI智能体平台的开发流程

北京木奇移动技术有限公司

AI智能体 软件外包公司 AI技术应用

全开源、私有化部署!轻量级用户行为分析系统-ClkLog

ClkLog

开源 数据分析 埋点 用户行为分析 用户画像

【等保知多少】企业过等保要点看这里!

行云管家

网络安全 等保 等保测评

宁德新能源:时序数据库 TDengine 支撑百万级工业设备实时数据高效治理

TDengine

数据库 tdengine 时序数据库

时序数据库 TDengine × Perspective:你需要的可视化“加速器”

TDengine

数据库 tdengine 时序数据库

AI智能体平台的搭建

北京木奇移动技术有限公司

AI智能体 软件外包公司 AI技术应用

使用 Amazon Nova Lite 实现多快好省的智能视频审核

亚马逊云科技 (Amazon Web Services)

如何用豆包做PPT?PPT自动生成全攻略!

职场工具箱

人工智能 PPT AIGC AI生成PPT 豆包

万界星空科技QMS质量管理系统几大核心功能详解

万界星空科技

万界星空科技 QMS 质量管理系统 生产质量管理 产品质量管理

AI智能体平台的组件和功能

北京木奇移动技术有限公司

AI智能体 软件外包公司 AI技术应用

通义灵码正式上线 Qwen3,编程智能体马上来了!

阿里巴巴云原生

阿里云 云原生 通义灵码 Qwen

稳定币迎来ChatGPT 时刻,如何驱动DeCloud?

PowerVerse

defi 稳定币 DeCloud

中关村科学城工业软件创新暨开源峰会在海淀成功举办

极客天地

开放注册!RootTalk Sandbox沙盒系统正式上线

乘云数字DataBuff

可观测性 故障定位 Demo 运维监控

京东商品列表 API 接口使用指南

tbapi

京东API接口 京东API 京东商品列表接口 京东商品采集

非凸科技受邀出席AI SPARK活动,共探生成式AI驱动金融新生态

非凸科技

什么是委外管理?委外管理到底有什么用?

积木链小链

数字化转型 智能制造 中小企业 委外管理

CRaC 技术深度解析

mazhen

Java Linux Serverless Cloud Native crac

25年甘肃省等保测评机构名单汇总

行云管家

等保 等级保护 等保测评

【京东招聘专场】京东零售&科技诚邀测试开发精英!多地热招中!

测试人

软件测试

通义灵码正式上线 Qwen3,编程智能体马上来了!

阿里云云效

阿里云 云原生 通义灵码 Qwen

PAI Model Gallery 支持云上一键部署 Qwen3 全尺寸模型

阿里云大数据AI技术

人工智能 阿里云 LLM PAI Qwen3

详细剖析Java动态线程池的扩容以及缩容操作

电子尖叫食人鱼

Java

加速机器学习模型开发:AirBnb利用Chronon实现特征工程_机器学习/深度学习_Sergio De Simone_InfoQ精选文章