写点什么

Cloudflare 的 ML 和 AI 之旅:MLOps 平台和最佳实践

作者:Claudio Masolo

  • 2024-01-19
    北京
  • 本文字数:1078 字

    阅读完需:约 4 分钟

Cloudflare 的 ML 和 AI 之旅:MLOps 平台和最佳实践

Cloudflare 的博客介绍了他们的 MLOps 平台和大规模运行人工智能(AI)部署的最佳实践。包括 WAF 攻击评分、僵尸管理和全球威胁识别在内的 Cloudflare 的产品,都依赖于不断发展的机器学习(ML)模型。这些模型在增强客户保护和支持服务方面都发挥着关键的作用。Cloudflare 在公司全网中提供  ML 方面取得了无与伦比的规模,突出了稳健 ML 培训方法的重要性。


Cloudflare 的 MLOps 是与数据科学家合作实施的最佳实践。通过 JupyterHub 部署在 Kubernetes 上的 Jupyter Notebooks 为数据探索和模型实验提供了可扩展的协作环境。GitOps 是 Cloudflare MLOps 战略实践的基石,利用 Git 作为管理基础架构和部署流程的单一真相源。ArgoCD  是用于声明式 GitOps,实现了应用程序和基础架构的自动化部署和管理。


公司未来的路线图包括了迁移 JupyterHub 和 Kubeflow 等平台,后者为 Kubernetes 上的机器学习工具流平台,且在近期成为了 CNCF 的孵化项目。这一步是由为 Kubeflow 组件提供分布式配置管理的 deployKF  项目促进。


为了协助数据科学家们使用正确工具,自信且高效地启动项目,Cloudflare 的 MLops 团队提供了模型模板,作为包含示例模型的生产就绪代码库。这些模板目前都是内部模板,但 Cloudflare 计划将其开源。这些模板所涵盖的使用案例包括:


  1. 训练模板: 为 ETL 流程、实验追踪和基于 DAG 的协调进行了配置。

  2. 批推理模板: 为高效处理计划模型进行优化。

  3. 流推理模型: 专为在 Kubernetes 上使用 FastAPI 进行实时推理而定制。

  4. 可解释性模板: 使用 Streamlit 和 Bokeh 等工具生成 dashboard(仪表盘),用于模型的洞察。


MLOps 平台的另一项重要任务是高效地协调 ML 工作流,Cloudflare 根据团队偏好和用例采用了各种协调工具:


  • Apache Airflow:一个标准的 DAG 组成其,拥有丰富的社区支持。

  • Argo 工作流:以 Kubernetes 原生形式协调微服务类型工作流。

  • Kubeflow 管道:专为 ML 工作流定制,强调协调和版本管理。

  • Temporal:专注于事件驱动型应用的有状态工作流。


性能的优化需要对工作流的理解和对硬件相应的调整。Cloudflare 强调核心数据中心在工作负载和边缘推理方面的 GPU 利用率,利用普罗米修斯(Prometheus)所提供的指标进行观察和优化。Cloudflare 的成功应用包括了对 ML 流程的简化、管道标准化,以及向缺乏数据科学专业知识的团队介绍项目。


公司的愿景是一个数据科学可以在企业中发挥重要作用的未来,这也是 Cloudflare 投资于人工智能基础设施并与 Meta 等其他公司合作的原因,其中包括在 Cloudflare 平台上向全球提供 LLama2。


原文链接:

https://www.infoq.com/news/2023/12/cloudflare-mlops-platform/


2024-01-19 08:006645

评论

发布
暂无评论
发现更多内容

美国法院最新判决:未经 OSI 许可的开源是「假开源」!

腾源会

开源 腾源会

建木小故事

Jianmu

开源 后端 持续集成 建木CI

中国版Postman:Apifox

Liam

程序员 Jmeter Postman API swagger

IT运维工具难用吗?有没有简单易操作的?

行云管家

运维 IT运维

iOS开发面试的43道最新面试题,让你稳拿大厂offer!

iOSer

ios iOS面试 ios开发 iOS面试题

架构实战营模块八消息队列mysql数据库设计

刘洋

架构实战营 #架构实战营 「架构实战营」

“后疫情时代”支付厂商发力B端已成共识,市场规模破3千亿!

易观分析

产业支付

企业在线产品宣传册应该如何设计?

小炮

产品宣传手册

MongoDB与亚马逊云科技扩大全球合作

MongoDB中文社区

mongodb

Apache SeaTunnel (Incubating) 2.1.0 发布,内核重构、全面支持 Flink

Apache SeaTunnel

大数据 大数据平台 apache 社区 Apache SeaTunnel #开源项目

产品帮助中心对SaaS行业的作用

小炮

SaaS平台 帮助中心

阿里巴巴云原生大数据运维平台 SREWorks 正式开源

阿里云大数据AI技术

大数据 自动化运维 大规模网络运维

Gartner发布中国IaaS PaaS市场服务报告,天翼云强势入选

天翼云开发者社区

什么是目标关键词?

源字节1号

前端开发 后端开发 SEO优化 网站开发

如何理解基础服务和通用服务

Im胡子

基础服务 通用服务 基础服务边界

信通院推出数字化赋能者新标准天翼云获评数字化转型赋能服务集体

天翼云开发者社区

APICloud App开发教程之云修复功能

YonBuilder低代码开发平台

APP开发 APICloud 热更新

基于Laravel模块化极速开发框架 免费开源CMS

ModStart开源

多场景推进 服务网格在联通的落地实践(下)

百度开发者中心

开学季 | 飞桨AI Studio课程学习,小白也可以成为一名优秀的算法工程师!

百度开发者中心

天翼云成为首个加入openGauss社区的运营商云

天翼云开发者社区

春分耕种时,AI“现身”田间地头

百度开发者中心

雄安新区设立四周年,看天翼云以数字底座托起未来之城

天翼云开发者社区

ModStartCMS Laravel9 模块化建站系统 v3.5.0 多图字段支持,系统优化升级

ModStart开源

电路模型和电路定律 (Ⅲ)

謓泽

3月月更

Rust 用于移动开发的几种方式

非凸科技

Java c++ Python rust 量化

IT运维工具难用吗?有没有简单易操作的?

行云管家

云计算 运维 IT运维

保姆级SpringBoot+Vue图片上传到阿里云OSS教程

沉默王二

Spring Boot

两会“数字经济”高频出位,博睿数据为企业数字转型提供有力引擎

博睿数据

限量独家!濒危动物数字藏品免费发放!

百度开发者中心

百度希壤元宇宙平台上线首个汽车数字展厅,领克探索汽车营销新方式

百度开发者中心

Cloudflare 的 ML 和 AI 之旅:MLOps 平台和最佳实践_AI&大模型_InfoQ精选文章