2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

加速机器学习模型开发:AirBnb 利用 Chronon 实现特征工程

  • 2023-10-01
    北京
  • 本文字数:879 字

    阅读完需:约 3 分钟

大小:463.26K时长:02:38
加速机器学习模型开发:AirBnb利用Chronon实现特征工程

AirBnb 经常要创建用于机器学习模型的新特征,为了提高生产力和可扩展性,他们构建了一个名为Chronon的解决方案,用于创建将原始数据转换为特征并进行训练和推理所需的基础设施。

 

AirBnb 工程师兼 Chronon 创始人 Nikhil Simha 解释说,将原始数据转换为特征并用于训练 ML 模型是一项复杂且耗时的任务,工程师需要从 AirBnb 数据仓库中提取数据,并编写复杂的 ETL 逻辑将其转换为特征。另一个难点在于要确保这个逻辑所生成的推理特征分布与训练时的相同。

 

Simha 说,Chronon 就是为了解决这些问题,使机器学习工程师在训练和推理中以可复制的方式定义特征并中心化数据计算。


作为用户,你只需要声明一次计算,Chronon 就会生成所需的所有基础设施,不断地将原始数据转换为训练和服务所需的特征。AirBnb 的机器学习从业者不用再花费数月的时间手动实现复杂的管道和特征索引。通常,他们用不到一周的时间就可以为他们的模型生成新的特征集。

 

Chronon的第一个组件支持从各种数据源获取数据,包括事件数据源、实体数据源和累积事件源,从每个数据源收集不同类型的数据。

 

摄取数据后,它就可以使用类似 SQL 的操作和聚合进行转换,从而生成服务于在线模型的低延迟端点,以及用于离线训练的 Hive 表。在底层,Chronon 使用 Kafka、Spark/Spark Streaming、Hive 和 Airflow 来构建管道。类似 SQL 的操作包括GroupByJoinStagingQuery,它们是 Spark SQL 查询,每天脱机计算一次。聚合包括窗口、桶和基于时间的聚合。

 

最后,它还有一个 Python API,提供了类似 SQL 的原语,并将基于时间的聚合和窗口作为一级概念。例如,使用 Python API,你可以过滤和转换用户在过去五个小时内查看某个物品的次数。

 

Chronon 有一个重要的概念是准确性,即特征值更新的频率,是实时更新还是固定时间间隔更新。要根据特定的用例选择合适的准确性,因此,Chronon 让用户可以方便地将计算的准确性设为为 temporal snapshot

 

在写这篇文章的时候,我还不知道 AirBnb 是否会在 GitHub 上提供 Chronon,但如果你想创建自己的特征工程管道,可以读下原文中的讨论,非常有趣。

 

原文链接:

https://www.infoq.com/news/2023/08/airbnb-chronon-ml-features/

2023-10-01 08:007075

评论

发布
暂无评论
发现更多内容

2024 TiDB 社区 PCTA/PCTP/PCSD 免费考证(社区专场)机会来啦!想考证的 TiDBer 看过来!

TiDB 社区干货传送门

社区活动

java内存篇:内存对象有多胖?

码农楠爸

唐刘:关于产品质量的思考 - 我的基本认知

PingCAP

数据库 TiDB

TiDB 社区智慧合集丨解码 TiDB 性能谜题:让你的数据库发挥最强动力!

PingCAP

数据库 TiDB

Python面试必备一之迭代器、生成器、浅拷贝、深拷贝

Hunter熊

Python 迭代器 深拷贝 浅拷贝 生成器

TiDB 奇遇记

TiDB 社区干货传送门

学习&认证&课程

惊喜!这一国产数据库认证考试限免了!

TiDB 社区干货传送门

社区活动

支付系统概述(三):资金网络

agnostic

支付系统设计与实现

事业-最佳实践-编码-代码质量标准

南山

代码质量 代码可读性 #可维护性 #可测试性 可复用性

事业-最佳实践-编码-程序错误处理

南山

最佳实践 异常处理 程序错误

数据库性能优化入门:数据库分片初探

PingCAP

数据库 TiDB

事业-最佳实践-编码-保持代码简洁

南山

代码质量 KISS YAGNI 代码简洁

再质押的Eigenlayer 现在参与来得及吗

币离海

EigenLayer

TiDB 版本升级的小 Tips

TiDB 社区干货传送门

版本升级 集群管理 管理与运维 7.x 实践

TiDB VS MySQL 场景选择

TiDB 社区干货传送门

7.x 实践

从金融行业典型案例中窥探TiDB到底有哪些优势

TiDB 社区干货传送门

数据库前沿趋势

产品经理互怼放大招(god bless !Duel, Orcs)

执于业务

企业架构设计原则之因素均衡性

凌晞

架构设计 架构设计原则 企业构架

物联网业务架构模式

执于业务

一文概述TiDB中的索引类型

TiDB 社区干货传送门

管理与运维

产品经理 学习路线

执于业务

2024年DeFi的四大主导趋势:Restaking、Layer3、AI和DePin

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

京东jd.item_get API助力,一键获取商品详情,打造专业级购物体验

技术冰糖葫芦

API API 类型

物联网架构

执于业务

事业-最佳实践-编码-源代码方法组织

南山

最佳实践 编码 代码组织

加速机器学习模型开发:AirBnb利用Chronon实现特征工程_机器学习/深度学习_Sergio De Simone_InfoQ精选文章