2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

加速机器学习模型开发:AirBnb 利用 Chronon 实现特征工程

  • 2023-10-01
    北京
  • 本文字数:879 字

    阅读完需:约 3 分钟

大小:463.26K时长:02:38
加速机器学习模型开发:AirBnb利用Chronon实现特征工程

AirBnb 经常要创建用于机器学习模型的新特征,为了提高生产力和可扩展性,他们构建了一个名为Chronon的解决方案,用于创建将原始数据转换为特征并进行训练和推理所需的基础设施。

 

AirBnb 工程师兼 Chronon 创始人 Nikhil Simha 解释说,将原始数据转换为特征并用于训练 ML 模型是一项复杂且耗时的任务,工程师需要从 AirBnb 数据仓库中提取数据,并编写复杂的 ETL 逻辑将其转换为特征。另一个难点在于要确保这个逻辑所生成的推理特征分布与训练时的相同。

 

Simha 说,Chronon 就是为了解决这些问题,使机器学习工程师在训练和推理中以可复制的方式定义特征并中心化数据计算。


作为用户,你只需要声明一次计算,Chronon 就会生成所需的所有基础设施,不断地将原始数据转换为训练和服务所需的特征。AirBnb 的机器学习从业者不用再花费数月的时间手动实现复杂的管道和特征索引。通常,他们用不到一周的时间就可以为他们的模型生成新的特征集。

 

Chronon的第一个组件支持从各种数据源获取数据,包括事件数据源、实体数据源和累积事件源,从每个数据源收集不同类型的数据。

 

摄取数据后,它就可以使用类似 SQL 的操作和聚合进行转换,从而生成服务于在线模型的低延迟端点,以及用于离线训练的 Hive 表。在底层,Chronon 使用 Kafka、Spark/Spark Streaming、Hive 和 Airflow 来构建管道。类似 SQL 的操作包括GroupByJoinStagingQuery,它们是 Spark SQL 查询,每天脱机计算一次。聚合包括窗口、桶和基于时间的聚合。

 

最后,它还有一个 Python API,提供了类似 SQL 的原语,并将基于时间的聚合和窗口作为一级概念。例如,使用 Python API,你可以过滤和转换用户在过去五个小时内查看某个物品的次数。

 

Chronon 有一个重要的概念是准确性,即特征值更新的频率,是实时更新还是固定时间间隔更新。要根据特定的用例选择合适的准确性,因此,Chronon 让用户可以方便地将计算的准确性设为为 temporal snapshot

 

在写这篇文章的时候,我还不知道 AirBnb 是否会在 GitHub 上提供 Chronon,但如果你想创建自己的特征工程管道,可以读下原文中的讨论,非常有趣。

 

原文链接:

https://www.infoq.com/news/2023/08/airbnb-chronon-ml-features/

2023-10-01 08:007066

评论

发布
暂无评论
发现更多内容

本周四晚19:00知识赋能第八期第1课丨ArkUI框架整体设计

OpenHarmony开发者

OpenHarmony

多因素身份认证 (MFA) 插件:手机验证码认证因素配置流程

龙归科技

开源 手机验证码认证

[MyBatisPlus]映射匹配兼容性

十八岁讨厌编程

Java 后端开发 9月月更

数据库高可靠,轻松解决事务丢失问题

天翼云开发者社区

云行| 天翼云中国行走进宁波,推动千行百业迈向数字化转型之路

天翼云开发者社区

2022世界人工智能大会开幕,天翼云注智城市数字化转型

天翼云开发者社区

Java 将 Word 转换为PDF文档

在下毛毛雨

Java PDF word Word转PDF

新思科技发布《一往无前:GitOps与安全左移》报告

InfoQ_434670063458

新思科技 开源软件 Synopsys 供应链安全

【React】从0到1搭建你的React18项目

海底烧烤店ai

前端 React Hooks 9月月更

vue2数据响应式原理——数据劫持(对象篇)

海底烧烤店ai

前端 JavaScrip vue源码解读 9月月更

AntDB基于Oracle兼容下的DECODE函数适配

亚信AntDB数据库

数据库 AntDB 国产数据库 AntDB数据库

重磅启动!第 17 届「中国 Linux 内核开发者大会」征稿

OpenAnolis小助手

Linux 征稿 内核 开发者大会 龙蜥社区

零基础学习大数据还是自学呢

小谷哥

大数据开发入门学习方法推荐

小谷哥

web前端培训课程哪家好

小谷哥

小程序容器,让你快速控制智能家居

Geek_99967b

小程序 小程序容器

忘记背后,努力面前【开学季flag】

Fire_Shield

程序人生 9月月更 开学季

物联网平台在AIoT领域8大场景应用

AIRIOT

低代码 物联网 低代码平台 低代码,项目开发

打造国云安全品牌,铸牢企业云上安全防线

天翼云开发者社区

[MyBatisPlus]id生成策略控制

十八岁讨厌编程

Java spring 9月月更

一键小程序转换App,极低门槛实现组装式App

FinClip

研发效能提升不来自于度量本身,而来自于针对性的改进

万事ONES

跳槽一次能涨多少?一份1500道大厂面试题笔记就够了,涨薪80%

程序知音

Java 程序员 java面试 后端技术 Java八股文

Solo博客静态部署到码云gitee —— 全网最详细系列

海底烧烤店ai

部署 博客系统 博客搭建 9月月更

从华为数字机器人秋季发布会,看智慧政务领域的“政务新视界”

王吉伟频道

RPA 自动化优先 智慧政务 华为数字机器人 数字机器人

快速入门JavaScript

楠羽

JavaScript 笔记 9月月更

天翼云铸牢国云安全,护航千行百业

天翼云开发者社区

为什么C++能屹立这么久?细说C++ 可以开发的 7 件事 以及 C++ 的特点和学习的优点

C++后台开发

c++ C/C++ C++后台开发 C++开发 C++开发工程师

[MyBatisPlus]乐观锁、代码生成器

十八岁讨厌编程

Java 后端开发 9月月更

小程序转 App 帮助中小企业打开营销新窗口

FinClip

什么是接入点 Access point?

wljslmz

网络技术 无线技术 9月月更 无线接入点

加速机器学习模型开发:AirBnb利用Chronon实现特征工程_机器学习/深度学习_Sergio De Simone_InfoQ精选文章