10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

Pinterest 使用 Ray 实现机器学习基础设施现代化

作者:Matt Saunders

  • 2024-10-01
    北京
  • 本文字数:1943 字

    阅读完需:约 6 分钟

Pinterest 使用 Ray 实现机器学习基础设施现代化

视觉发现平台 Pinterest 披露了其使用开源分布式计算框架 Ray 实现机器学习基础设施现代化的详细过程。在最近的一篇博文中,该公司分享了将 Ray 集成到大规模生产环境中所面临的挑战和他们的实施方案。


这个项目的目的是为了增强 Pinterest 的机器学习能力,以解决基本的业务问题。


Pinterest 在构建 Ray 基础设施时面临着几个独特的挑战。他们决定在他们的通用联合 Kubernetes 集群 PinCompute 上运行 Ray,但该集群限制安装 KubeRay 及其自定义资源定义等必要的操作符。要有效地实施 Ray,就需要有一个创造性的解决方案来消除这个限制。


其他挑战包括需要持久化日志记录和指标、与 Pinterest 专有的时间序列数据库和可视化工具集成,以及遵守公司范围内的 AAA(身份验证、授权和计费)准则。


为了应对这些挑战,Pinterest 开发了一个自定义解决方案,包括 API 网关、Ray 集群控制器、Ray 作业控制器和用于外部状态管理的 MySQL 数据库。这种方法在用户和 Kubernetes 之间提供了一个抽象层,简化了 Ray 集群的配置和管理。



该公司还创建了一个专用的用户界面,用于持久化日志记录和指标。在该 UI 上,不需要一个活跃的 Ray 集群就可以进行日志分析,这有助于降低与 GPU 等空闲资源相关的成本。为了提高可观察性,Pinterest 将 Ray 的指标与其内部时间序列数据库 Goku 整合在了一起。该数据库拥有与 OpenTSDB 兼容的 API。他们还遵循 Ray 的建议,将日志持久化到了 AWS S3 上。


Pinterest 使用网络隔离与完整身份验证实现了适当的安全措施。他们在 Envoy 后面部署了 Ray Dashboard,在 Kubernetes 环境中部署了他们的服务网格,并在 gRPC 通信中使用了经过定制的 TLS。


这篇博文强调了渐进式改进、利用现有基础设施以及定期与内部客户会面以收集反馈的重要性。按照 Pinterest 的说法,采用 Ray 提高了将机器学习想法投入生产应用的速度,现在只需几天,而不是几周。



关于 Pinterest 等公司如何将 Ray 应用于大规模机器学习任务,在 2023 年 QCon Plus 的一次演讲中,来自 Anyscale 的 Zhe Zhang 提供了更多的背景信息。他强调,Ray 的灵活性和易用性使其对希望实现机器学习基础设施现代化的组织特别有吸引力。他描述了 Ray 如何在多于一个实例时实现无缝数据加载和预处理,这对于拥有大量数据集的公司来说至关重要。该功能解决了 ML 工作流中数据处理无法跟上 GPU 计算速度这个常见的瓶颈。


他还指出,Ray 能够有效地支持异构计算环境,将 CPU 和 GPU 资源相结合,对于像 Pinterest 这样需要优化硬件利用率的公司来说,这是一个很大的优点。他还讨论了 Ray 的生态系统,包括 Ray Serve 这样的库,以及如何快速实现原型和 ML 模型的部署,这与 Pinterest 报道的开发速度的提高是一致的。


DoorDash 是一家规模与 Pinterest 相似的科技公司。他们也经历了机器学习基础设施现代化的过程。虽然他们采用了类似的方法,但也有一些差异。在 2023 年 Ray 峰会的演讲中,来自 DoorDash 的 Siddarth Kodwani 和 Kornel Csernai 介绍了他们使用 Ray 的场景。


与 Pinterest 一样,DoorDash 现有的机器学习服务平台也面临着挑战。Sibyl 是一个部署在 Kubernetes 中的 Kotlin 微服务,针对高吞吐量、低延迟场景做过专门的优化,但对于比较新的 ML 范例和库,缺乏灵活性。DoorDash 的解决方案 Argil 与 Pinterest 的方法有一些相似之处。两家公司都构建了自定义控制器来管理 Ray 集群和作业,并将它们与现有的 Kubernetes 基础设施集成在一起。



然而,DoorDash 强烈地感受到,他们应该为他们的数据科学家和机器学习工程师创建一个自助服务平台。他们的服务主要是用 Kotlin 开发的。于是,他们用 Kotlin 开发了一个客户端库,以便简化其服务与 Ray 基础设施的交互。DoorDash 在 Kubernetes 环境中也面临着 GPU 可访问性的独特挑战,关于这一点,他们需要通过与 Nvidia 的密切合作来解决驱动程序兼容性问题。


Pinterest 和 DoorDash 的一个显著差异在于部署策略。Pinterest 致力于从头开始构建自定义解决方案,而 DoorDash 则利用 Ray 团队提供的 Helm charts 和 Argo CD 等现有工具进行部署管理。


DoorDash 报道的好处与 Pinterest 类似,比如提高了速度和灵活性。他们将机器学习想法投入生产应用的时间从几周缩短到几天。他们还看到了显著的性能提升,从以前的系统迁移到 Ray 之后,一些用例的性能提升了 10 到 20 倍。两家公司都强调了可观察性和监控的重要性。Pinterest 整合了他们自定义的 Goku 时间序列数据库,而 DoorDash 则提到,他们直接整合了 Prometheus 来收集指标。


总之,尽管 Pinterest 和 DoorDash 采用 Ray 的方式略有不同,但两家公司都表示,在机器学习基础设施的灵活性、开发速度和性能方面都获得了显著改善。


原文链接:

https://www.infoq.com/news/2024/08/pinterest-machine-learning-ray/

2024-10-01 08:0515384

评论

发布
暂无评论
发现更多内容

第三届OpenHarmony技术大会硬件生态分论坛圆满举办

科技热闻

分布式电商项目:天猫 Java 亿级高并发架构设计笔记

程序员高级码农

数据库 高并发 电商 分布式, 消息列队

第三届OpenHarmony技术大会应用生态实践分论坛成功举办

科技热闻

近期,除了“纯血鸿蒙公测”,校园开发者还有这件事要知道!

YG科技

采集新闻数据,助力产业研究/内容聚合分发/行业研究/舆情监控

八爪鱼采集器︱RPA机器人

爬虫 采集

行业融媒体平台建设与八爪鱼

八爪鱼采集器︱RPA机器人

爬虫 采集

见证 RTE 的新篇章丨 RTE 年度场景 Showcase 暨第四届 RTE 创新大赛开幕

声网

全局视角看技术-Java多线程演进史

京东科技开发者

CAE和CAD的区别

智造软件

计算机 CAE cad 仿真技术 辅助设计

盘点15款国内外社交聆听工具

八爪鱼采集器︱RPA机器人

爬虫 采集

八爪鱼采集在国央企产业大脑的应用:以智慧水务大脑为例

八爪鱼采集器︱RPA机器人

爬虫 采集

掌握行业全球新闻,实现产业研究/内容聚合分发/情报采集

八爪鱼采集器︱RPA机器人

爬虫 采集

GitLab 安全漏洞CVE-2024-9164、CVE-2024-8970 等的修复方案

极狐GitLab

gitlab 安全漏洞 CVE CVE 漏洞

如何在鸿蒙 NEXT 中使用 @Builder 装饰器优化 UI 组件的复用?

威哥爱编程

huawei HarmonyOS ArkTS HarmonyOS框架 HarmonyOS NEXT

鸿蒙 NEXT 如何使用 @Styles 装饰器来优化我的组件代码?

威哥爱编程

华为 HarmonyOS ArkTS HarmonyOS框架 HarmonyOS NEXT

YouTube 上线「用相机拍摄」标签为真实视频「验明正身」;美国被曝考虑限制向中东国家出口 AI 芯片丨 RTE 开发者日报

声网

为什么说“全面绩效”是企业管理的必选项?

ToB行业头条

如何对 GitLab 老旧版本进行升级?

极狐GitLab

gitlab 安全漏洞

人机识别到底难在哪?

芯盾时代

身份安全

全面洞察商业情报,助力企业破解增长难题

八爪鱼采集器︱RPA机器人

爬虫 采集

HPE Aruba Networking连续七年蝉联Gartner SD-WAN魔力象限领导者

科技热闻

阿里Java面试手册-Java面试题总结(附答案)——互联网大厂都在问的Java面试题,而你从没看过!

程序员高级码农

Java 面试 架构师 Java’ Java 面试题 春招‘

Java程序员真的还有未来吗?如何备战2025春招Java面试?并狂拿大厂offer?(java高级岗)

程序员高级码农

Java 面试 架构师 Java’ 面试‘ Java 面试题

采集医药行业数据,赋能企业创新与决策

八爪鱼采集器︱RPA机器人

爬虫 采集

产品负责人对干系人说‘不’的6条准则

ShineScrum

政务公告数据的应用与八爪鱼的实践

八爪鱼采集器︱RPA机器人

爬虫 采集

人工智能机器人

天津汇柏科技有限公司

AI 人工智能

阿里架构师:天天高并发,这个时代达不到百万以上的并发量都不叫高并发!!!

程序员高级码农

多线程 架构师 Java高并发 Java’ 高并发‘’

采用众包方法进行红队测试 (Red Teaming)

澳鹏Appen

red team 大模型幻觉

Pinterest 使用 Ray 实现机器学习基础设施现代化_云计算_InfoQ精选文章