基于Spark的大规模推荐系统特征工程

2020 年 9 月 07 日

基于Spark的大规模推荐系统特征工程

导读: 特征工程在推荐系统中有着举足轻重的作用,大规模特征工程处理的效率极大的影响了推荐系统线上的性能。第四范式作为国际领先的机器学习和人工智能技术与平台服务提供商,面向大规模特征工程问题开发了下一代离线在线一致性特征抽取引擎 FESQL,针对 AI 场景支持 SQL 接口,兼容 Spark 3.0 同时提供高性能的 Native 执行引擎。本次分享题目为基于 Spark 的大规模推荐系统特征工程及优化,主要内容包括:

  • 大规模推荐系统
  • Spark SQL 应用与 FESQL
  • 基于 LLVM 的 Spark 优化
  • 总结

01 大规模推荐系统

1. 业界推荐系统的应用

众所周知,推荐系统在业界有着许多成功的应用,据统计,亚马逊 40% 的销售在推荐系统的作用下产生;Netflix 75% 的用户使用推荐系统寻找他们喜爱的视频;30% 的用户进行在线购物前会使用关键词搜索他们需要的商品。目前,几乎所有的新闻、搜索、广告、短视频应用都是基于推荐系统建立的。

2. 推荐系统的架构

业界成熟的推荐系统架构一般分为三层:离线层 ( offline layer ),近实时的流式层 ( stream layer ) 和在线层 ( online layer ) 三部分。

离线层: 一般用于大规模的数据预处理、特征抽取与模型训练,通常用 Hadoop HDFS 进行数据存储,使用 Spark,MapReduce 等分布式计算引擎进行特征抽取与计算以及数据管理,再使用离线模型训练框架 TensorFlow、Pytorch、MXNet 等进行离线的模型训练,模型结果可用于线上预测。

原文链接:【 https://www.infoq.cn/article/U6PVOmif8EHUqBxIJCJO 】。未经作者许可,禁止转载。

登录后可解锁全站优质内容

免费畅享技术公开课、顶尖技术团队访谈、一线互联网大厂技术实践

文章
视频
电子书
研究报告
立即登录
2020 年 9 月 07 日 10:08 969

评论

发布
暂无评论
发现更多内容

架构师是什么?

芥末

极客大学架构师训练营

第一周学习总结

小海豚

学习总结

被迫重构代码,这次我干掉了 if-else

程序员内点事

食堂就餐卡系统设计

Jeff先生

4天如何完爆Kafka源码核心流程!

奈学教育

kafka

你还在为 TCP 重传、滑动窗口、流量控制、拥塞控制发愁吗?看完图解就不愁了

小林coding

TCP 计算机网络 网络协议

架构师训练营第01周——总结

李伟

极客大学架构师训练营

第一周学习总结

AspYc

食堂就餐卡系统架构设计文档

小叶

架构设计

架构师训练营第一周命题作业

whiter

极客大学架构师训练营

【架构师训练营】第1周-作业-食堂就餐卡系统

芥末

极客大学架构师训练营

食堂就餐卡系统设计(作业版)

Jerry Tse

极客大学架构师训练营 作业

食堂就餐卡系统设计

魔曦

极客大学架构师训练营

While语句

拾贝

4天如何完爆Kafka源码核心流程!

古月木易

kafka

第一周作业

东哥

极客大学架构师训练营

01-kubernetes安装部署(手动)

绿星雪碧

Kubernetes etcd flannel

【总结】第一周架构师如何做架构

chengjing

架构师训练营-作业-1】食堂就餐卡系统设计

superman

极客大学架构师训练营 UML学习

如何成为一个架构师?

逍遥乐天

极客大学架构师训练营

免费P7架构师直播课!技术人员如何提升职场技能?

古月木易

架构师

作业1

annie

极客大学架构师训练营

第一周命题作业

AspYc

UML 体验(就餐卡系统设计)

陈皮

免费P7架构师直播课!技术人员如何提升职场技能?

奈学教育

架构师

架构师培训-01食堂就餐卡系统设计文档

刘敏

架构师训练营-第一课作业-20200610-食堂就餐卡系统

👑👑merlan

架构 作业

架构师训练营第一周学习总结

whiter

极客大学架构师训练营

食堂就餐卡系统设计

小海豚

食堂就餐卡系统设计 UML学习

写作的几点建议:面对卡文,写别人的题目,栩栩如生的写作

七镜花园-董一凡

写作

一味的坚持,或许只是徒劳

这小胖猫

逻辑思维 职业成长 工作体会

众安黑客马拉松大赛总决赛-InfoQ小编探班

众安黑客马拉松大赛总决赛-InfoQ小编探班

基于Spark的大规模推荐系统特征工程-InfoQ