AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

加速机器学习模型开发:AirBnb 利用 Chronon 实现特征工程

  • 2023-10-01
    北京
  • 本文字数:879 字

    阅读完需:约 3 分钟

大小:463.26K时长:02:38
加速机器学习模型开发:AirBnb利用Chronon实现特征工程

AirBnb 经常要创建用于机器学习模型的新特征,为了提高生产力和可扩展性,他们构建了一个名为Chronon的解决方案,用于创建将原始数据转换为特征并进行训练和推理所需的基础设施。

 

AirBnb 工程师兼 Chronon 创始人 Nikhil Simha 解释说,将原始数据转换为特征并用于训练 ML 模型是一项复杂且耗时的任务,工程师需要从 AirBnb 数据仓库中提取数据,并编写复杂的 ETL 逻辑将其转换为特征。另一个难点在于要确保这个逻辑所生成的推理特征分布与训练时的相同。

 

Simha 说,Chronon 就是为了解决这些问题,使机器学习工程师在训练和推理中以可复制的方式定义特征并中心化数据计算。


作为用户,你只需要声明一次计算,Chronon 就会生成所需的所有基础设施,不断地将原始数据转换为训练和服务所需的特征。AirBnb 的机器学习从业者不用再花费数月的时间手动实现复杂的管道和特征索引。通常,他们用不到一周的时间就可以为他们的模型生成新的特征集。

 

Chronon的第一个组件支持从各种数据源获取数据,包括事件数据源、实体数据源和累积事件源,从每个数据源收集不同类型的数据。

 

摄取数据后,它就可以使用类似 SQL 的操作和聚合进行转换,从而生成服务于在线模型的低延迟端点,以及用于离线训练的 Hive 表。在底层,Chronon 使用 Kafka、Spark/Spark Streaming、Hive 和 Airflow 来构建管道。类似 SQL 的操作包括GroupByJoinStagingQuery,它们是 Spark SQL 查询,每天脱机计算一次。聚合包括窗口、桶和基于时间的聚合。

 

最后,它还有一个 Python API,提供了类似 SQL 的原语,并将基于时间的聚合和窗口作为一级概念。例如,使用 Python API,你可以过滤和转换用户在过去五个小时内查看某个物品的次数。

 

Chronon 有一个重要的概念是准确性,即特征值更新的频率,是实时更新还是固定时间间隔更新。要根据特定的用例选择合适的准确性,因此,Chronon 让用户可以方便地将计算的准确性设为为 temporal snapshot

 

在写这篇文章的时候,我还不知道 AirBnb 是否会在 GitHub 上提供 Chronon,但如果你想创建自己的特征工程管道,可以读下原文中的讨论,非常有趣。

 

原文链接:

https://www.infoq.com/news/2023/08/airbnb-chronon-ml-features/

2023-10-01 08:006643

评论

发布
暂无评论
发现更多内容

如何利用谷歌SEO服务帮助企业获客

九凌网络

PS Raw增效工具Camera Raw 16 for Mac中文版

彩云

ps插件 Camera Raw 16

2023年行云绽放&傲冠股份厨艺比拼团建活动圆满结束

行云管家

行云 团建 傲冠

Perforce发布《2023游戏开发与设计现状报告》,洞察游戏行业的改变与2023年最令人兴奋的行业动向

龙智—DevSecOps解决方案

游戏开发

CVPR2023优秀论文 | AIGC伪造图像鉴别算法泛化性缺失问题分析

百度Geek说

算法 AIGC 企业号10月PK榜

打造次世代分析型数据库(七):向量化计算层缓存

腾讯云大数据

数据库

人工智能学院学生在“火焰杯”软件测试开发选拔赛总决赛获奖

霍格沃兹测试开发学社

10个基于.Net开发的Windows开源软件项目

树上有只程序猿

.net windows 开源软件

NFT聚合平台开发:综合指南NFT开发 DAPP开发

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 链游开发 NFT开发

谷歌SEO是什么,它对外贸企业有什么好处?

九凌网络

当年很流行,现在已经淘汰的前端技术有哪些?

互联网工科生

前端 vite Bun Astro

计算机科学系举办“火焰杯”软件测试开发选拔赛颁奖仪式

霍格沃兹测试开发学社

重磅|博睿数据 Bonree ONE 2023秋季版焕新发布!

博睿数据

可观测性

Linux 爱好者线下沙龙:LLUG 2023·相聚成都 | 第四站

OpenAnolis小助手

Linux 开源 演讲 龙蜥社区 LLUG

第二届、第三届<火焰杯>软件测试开发选拔赛河北赛区颁奖典礼落幕

测试人

软件测试

浅谈基于敏捷开发交付应对突发项目

鲸品堂

敏捷 敏捷交付 交付 企业号10月PK榜

KubeEdge v1.15.0 发布!新增 Windows 边缘节点支持,基于物模型的设备管理,DMI数据面支持等功能

华为云原生团队

云计算 容器 云原生 边缘计算

演讲回顾 | 龙智专家分享“支撑、共享与安全:芯片开发中的数字资产管理”

龙智—DevSecOps解决方案

芯片 芯片设计 芯片行业

第6期|GPTSecurity周报

云起无垠

文心一言 VS 讯飞星火 VS chatgpt (119)-- 算法导论10.3 4题

福大大架构师每日一题

福大大架构师每日一题

外贸企业应该如何做好外贸网站优化细节

九凌网络

龙智汽车行业客户案例:Jira数据中心版助客户解锁高效项目管理

龙智—DevSecOps解决方案

Jira 案例 汽车

外贸网站seo优化教程!

九凌网络

Java基于API接口爬取商品数据

Noah

我院学子在第三届“火焰杯”软件测试开发选拔赛中 取得佳绩

霍格沃兹测试开发学社

多维评测指标解读第17届MSU世界编码器大赛全高清10bit赛道结果

阿里云CloudImagine

云计算 视频云

加速机器学习模型开发:AirBnb利用Chronon实现特征工程_机器学习/深度学习_Sergio De Simone_InfoQ精选文章