写点什么

Cloudflare 的 ML 和 AI 之旅:MLOps 平台和最佳实践

作者:Claudio Masolo

  • 2024-01-19
    北京
  • 本文字数:1078 字

    阅读完需:约 4 分钟

Cloudflare 的 ML 和 AI 之旅:MLOps 平台和最佳实践

Cloudflare 的博客介绍了他们的 MLOps 平台和大规模运行人工智能(AI)部署的最佳实践。包括 WAF 攻击评分、僵尸管理和全球威胁识别在内的 Cloudflare 的产品,都依赖于不断发展的机器学习(ML)模型。这些模型在增强客户保护和支持服务方面都发挥着关键的作用。Cloudflare 在公司全网中提供  ML 方面取得了无与伦比的规模,突出了稳健 ML 培训方法的重要性。


Cloudflare 的 MLOps 是与数据科学家合作实施的最佳实践。通过 JupyterHub 部署在 Kubernetes 上的 Jupyter Notebooks 为数据探索和模型实验提供了可扩展的协作环境。GitOps 是 Cloudflare MLOps 战略实践的基石,利用 Git 作为管理基础架构和部署流程的单一真相源。ArgoCD  是用于声明式 GitOps,实现了应用程序和基础架构的自动化部署和管理。


公司未来的路线图包括了迁移 JupyterHub 和 Kubeflow 等平台,后者为 Kubernetes 上的机器学习工具流平台,且在近期成为了 CNCF 的孵化项目。这一步是由为 Kubeflow 组件提供分布式配置管理的 deployKF  项目促进。


为了协助数据科学家们使用正确工具,自信且高效地启动项目,Cloudflare 的 MLops 团队提供了模型模板,作为包含示例模型的生产就绪代码库。这些模板目前都是内部模板,但 Cloudflare 计划将其开源。这些模板所涵盖的使用案例包括:


  1. 训练模板: 为 ETL 流程、实验追踪和基于 DAG 的协调进行了配置。

  2. 批推理模板: 为高效处理计划模型进行优化。

  3. 流推理模型: 专为在 Kubernetes 上使用 FastAPI 进行实时推理而定制。

  4. 可解释性模板: 使用 Streamlit 和 Bokeh 等工具生成 dashboard(仪表盘),用于模型的洞察。


MLOps 平台的另一项重要任务是高效地协调 ML 工作流,Cloudflare 根据团队偏好和用例采用了各种协调工具:


  • Apache Airflow:一个标准的 DAG 组成其,拥有丰富的社区支持。

  • Argo 工作流:以 Kubernetes 原生形式协调微服务类型工作流。

  • Kubeflow 管道:专为 ML 工作流定制,强调协调和版本管理。

  • Temporal:专注于事件驱动型应用的有状态工作流。


性能的优化需要对工作流的理解和对硬件相应的调整。Cloudflare 强调核心数据中心在工作负载和边缘推理方面的 GPU 利用率,利用普罗米修斯(Prometheus)所提供的指标进行观察和优化。Cloudflare 的成功应用包括了对 ML 流程的简化、管道标准化,以及向缺乏数据科学专业知识的团队介绍项目。


公司的愿景是一个数据科学可以在企业中发挥重要作用的未来,这也是 Cloudflare 投资于人工智能基础设施并与 Meta 等其他公司合作的原因,其中包括在 Cloudflare 平台上向全球提供 LLama2。


原文链接:

https://www.infoq.com/news/2023/12/cloudflare-mlops-platform/


2024-01-19 08:006623

评论

发布
暂无评论
发现更多内容

什么是深度学习?人工智能能影响未来的特点之一

Finovy Cloud

人工智能 深度学习

融云 uni-app 原生插件,生态丰富、高效集成

融云 RongCloud

sdk 集成 uri app

Spring Boot「03」使用 Maven 管理并构建项目

Samson

Java spring Spring Boot 学习笔记 10月月更

Flowable 任务如何认领,回退?

江南一点雨

Java springboot workflow flowable JavaEE

公司合同管理软件有哪些?

优秀

合同管理软件

【Nacos源码之配置管理 十】客户端长轮询监听服务端变更数据

石臻臻的杂货铺

nacos 10月月更

MySQL高级--性能优化之索引使用

Java学术趴

10月月更

向量数据库是如何检索的?基于 Feder 的 IVF_FLAT 可视化实现

Zilliz

人工智能 可视化 向量检索 anns 以图搜图

爆火的RPA尚在初期阶段,拥挤的赛道厂商如何突围?

ToB行业头条

SAAS公司的金额续费率怎么算

久歌

企业架构 SaaS 数字化

面试官:你是怎样进行react组件代码复用的

beifeng1996

React

使用rust实现的持久kv存储

杨光跃

rust KV存储引擎

一天梳理完react面试高频题

beifeng1996

React

网易数帆数据治理2.0实践分享

网易数帆

大数据 数据中台 数据治理 数据质量 企业号十月 PK 榜

JFrog Xray 与 Amazon Security Hub 集成

亚马逊云科技 (Amazon Web Services)

安全 DevSecOps

阿里云块存储团队卓越工程实践

阿里技术

经验分享 语言 & 开发

明道云伙伴大会2022/秋,免费门票限量领

明道云

低代码 零代码 aPaaS

【愚公系列】2022年10月 Go教学课程 025-递归函数

愚公搬代码

10月月更

MySQL高级--性能优化之索引

Java学术趴

10月月更

MySQL高级--性能优化之Explain分析SQL

Java学术趴

10月月更

SchedulX V1.7.0更新,规格压测、成本洞察等重磅功能发布!

星汉未来

云原生 降本增效 星汉未来

String、StringBuffer、StringBuilder的区别

zarmnosaj

10月月更

什么是数字体验平台(DXP)?

Baklib

客户体验 数字体验

技术解读:现代化工具链在大规模 C++ 项目中的运用 | 龙蜥技术

OpenAnolis小助手

c++ 开源 龙蜥技术 优化技术 ThinLTO

【一Go到底】第十一天---流程控制

指剑

Go golang 10月月更

得物 × StarRocks:潮流网购社区的极速 OLAP 实践

StarRocks

数据库、

软件工程基础知识总结

老张

软件工程

MySQL高级--性能优化开篇

Java学术趴

10月月更

用了这个API协作调试工具,忘记了postman

Liam

Postman 接口调试 开放api API接口 API调试

企业集成方案

久歌

企业架构 企业集成

【Nacos源码之配置管理 十一】服务端LongPollingService推送变更数据到客户端

石臻臻的杂货铺

nacos 10月月更

Cloudflare 的 ML 和 AI 之旅:MLOps 平台和最佳实践_AI&大模型_InfoQ精选文章