2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

加速机器学习模型开发:AirBnb 利用 Chronon 实现特征工程

  • 2023-10-01
    北京
  • 本文字数:879 字

    阅读完需:约 3 分钟

大小:463.26K时长:02:38
加速机器学习模型开发:AirBnb利用Chronon实现特征工程

AirBnb 经常要创建用于机器学习模型的新特征,为了提高生产力和可扩展性,他们构建了一个名为Chronon的解决方案,用于创建将原始数据转换为特征并进行训练和推理所需的基础设施。

 

AirBnb 工程师兼 Chronon 创始人 Nikhil Simha 解释说,将原始数据转换为特征并用于训练 ML 模型是一项复杂且耗时的任务,工程师需要从 AirBnb 数据仓库中提取数据,并编写复杂的 ETL 逻辑将其转换为特征。另一个难点在于要确保这个逻辑所生成的推理特征分布与训练时的相同。

 

Simha 说,Chronon 就是为了解决这些问题,使机器学习工程师在训练和推理中以可复制的方式定义特征并中心化数据计算。


作为用户,你只需要声明一次计算,Chronon 就会生成所需的所有基础设施,不断地将原始数据转换为训练和服务所需的特征。AirBnb 的机器学习从业者不用再花费数月的时间手动实现复杂的管道和特征索引。通常,他们用不到一周的时间就可以为他们的模型生成新的特征集。

 

Chronon的第一个组件支持从各种数据源获取数据,包括事件数据源、实体数据源和累积事件源,从每个数据源收集不同类型的数据。

 

摄取数据后,它就可以使用类似 SQL 的操作和聚合进行转换,从而生成服务于在线模型的低延迟端点,以及用于离线训练的 Hive 表。在底层,Chronon 使用 Kafka、Spark/Spark Streaming、Hive 和 Airflow 来构建管道。类似 SQL 的操作包括GroupByJoinStagingQuery,它们是 Spark SQL 查询,每天脱机计算一次。聚合包括窗口、桶和基于时间的聚合。

 

最后,它还有一个 Python API,提供了类似 SQL 的原语,并将基于时间的聚合和窗口作为一级概念。例如,使用 Python API,你可以过滤和转换用户在过去五个小时内查看某个物品的次数。

 

Chronon 有一个重要的概念是准确性,即特征值更新的频率,是实时更新还是固定时间间隔更新。要根据特定的用例选择合适的准确性,因此,Chronon 让用户可以方便地将计算的准确性设为为 temporal snapshot

 

在写这篇文章的时候,我还不知道 AirBnb 是否会在 GitHub 上提供 Chronon,但如果你想创建自己的特征工程管道,可以读下原文中的讨论,非常有趣。

 

原文链接:

https://www.infoq.com/news/2023/08/airbnb-chronon-ml-features/

2023-10-01 08:007089

评论

发布
暂无评论
发现更多内容

EC2的置放群组

孤虹

亚马逊云 EC2 置放群组

从 Oracle 迁移到 TiDB 的方案设计与用户实践

TiDB 社区干货传送门

实践案例

价值:我对工作的思考

老张

价值 职场经验

高级加密货币交易所软件演变:2024 年主要趋势和策略

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 NFT开发 公链开发

多维详述MediaBox互动直播AUI Kit低代码开发方案

阿里云CloudImagine

云计算 视频云

使用Python调用API接口获取拼多多商品数据:一篇详细说明文章

Noah

LED显示屏由哪些部件组成

Dylan

系统 LED显示屏 屏幕 电源

Amazon EC2 Serial Console 现已在其他亚马逊云科技区域推出

亚马逊云科技 (Amazon Web Services)

API cli iam Amazon EC2

一起学Elasticsearch系列-Mapping

Java随想录

Java 大数据 搜索 ES

一分钟带你了解光模块

小魏写代码

云时代,如何保障运维安全?

尚思卓越

运维 网络安全 堡垒机

培养财务团队协作,冲破市场经济逆境

智达方通

财务分析 业财融合 智达方通 财务团队协作

盈利能力管理,为企业未来发展创造优势

智达方通

全面预算 盈利能力

为什么OpenAPI是未来企业数字化转型的决定性因素

云计算 软件开发 华为云

TiDB in SaaS丨TiDB 在 Moka BI 场景下的应用

TiDB 社区干货传送门

实践案例

AI引领搜索智投新时代 | 百度营销推出“AI投放项目”

极客天地

分享一套适合二开的JAVA开源版本MES系统

万界星空科技

生产管理系统 云mes 免费mes 开源mes mes源码

TiDB快速部署工具

TiDB 社区干货传送门

实践案例 集群管理 管理与运维 安装 & 部署

【论文解读】针对生成任务的多模态图学习

合合技术团队

人工智能 机器学习 深度学习 论文 多模态学习

同盾科技 x TiDB丨实时数据架构为风控智能决策保驾护航

TiDB 社区干货传送门

实践案例

CCIA数安委等组织发布PIA星级标识名单,合合信息再次通过数据安全领域权威评估

合合技术团队

人工智能 合合信息 个人信息保护 PIA

火山引擎ByteHouse联合Apache Airflow,让数据管理更加高效

字节跳动数据平台

数据库 大数据 云原生 数仓 企业号11月PK榜

加速机器学习模型开发:AirBnb利用Chronon实现特征工程_机器学习/深度学习_Sergio De Simone_InfoQ精选文章