写点什么

Cloudflare 的 ML 和 AI 之旅:MLOps 平台和最佳实践

作者:Claudio Masolo

  • 2024-01-19
    北京
  • 本文字数:1078 字

    阅读完需:约 4 分钟

Cloudflare 的 ML 和 AI 之旅:MLOps 平台和最佳实践

Cloudflare 的博客介绍了他们的 MLOps 平台和大规模运行人工智能(AI)部署的最佳实践。包括 WAF 攻击评分、僵尸管理和全球威胁识别在内的 Cloudflare 的产品,都依赖于不断发展的机器学习(ML)模型。这些模型在增强客户保护和支持服务方面都发挥着关键的作用。Cloudflare 在公司全网中提供  ML 方面取得了无与伦比的规模,突出了稳健 ML 培训方法的重要性。


Cloudflare 的 MLOps 是与数据科学家合作实施的最佳实践。通过 JupyterHub 部署在 Kubernetes 上的 Jupyter Notebooks 为数据探索和模型实验提供了可扩展的协作环境。GitOps 是 Cloudflare MLOps 战略实践的基石,利用 Git 作为管理基础架构和部署流程的单一真相源。ArgoCD  是用于声明式 GitOps,实现了应用程序和基础架构的自动化部署和管理。


公司未来的路线图包括了迁移 JupyterHub 和 Kubeflow 等平台,后者为 Kubernetes 上的机器学习工具流平台,且在近期成为了 CNCF 的孵化项目。这一步是由为 Kubeflow 组件提供分布式配置管理的 deployKF  项目促进。


为了协助数据科学家们使用正确工具,自信且高效地启动项目,Cloudflare 的 MLops 团队提供了模型模板,作为包含示例模型的生产就绪代码库。这些模板目前都是内部模板,但 Cloudflare 计划将其开源。这些模板所涵盖的使用案例包括:


  1. 训练模板: 为 ETL 流程、实验追踪和基于 DAG 的协调进行了配置。

  2. 批推理模板: 为高效处理计划模型进行优化。

  3. 流推理模型: 专为在 Kubernetes 上使用 FastAPI 进行实时推理而定制。

  4. 可解释性模板: 使用 Streamlit 和 Bokeh 等工具生成 dashboard(仪表盘),用于模型的洞察。


MLOps 平台的另一项重要任务是高效地协调 ML 工作流,Cloudflare 根据团队偏好和用例采用了各种协调工具:


  • Apache Airflow:一个标准的 DAG 组成其,拥有丰富的社区支持。

  • Argo 工作流:以 Kubernetes 原生形式协调微服务类型工作流。

  • Kubeflow 管道:专为 ML 工作流定制,强调协调和版本管理。

  • Temporal:专注于事件驱动型应用的有状态工作流。


性能的优化需要对工作流的理解和对硬件相应的调整。Cloudflare 强调核心数据中心在工作负载和边缘推理方面的 GPU 利用率,利用普罗米修斯(Prometheus)所提供的指标进行观察和优化。Cloudflare 的成功应用包括了对 ML 流程的简化、管道标准化,以及向缺乏数据科学专业知识的团队介绍项目。


公司的愿景是一个数据科学可以在企业中发挥重要作用的未来,这也是 Cloudflare 投资于人工智能基础设施并与 Meta 等其他公司合作的原因,其中包括在 Cloudflare 平台上向全球提供 LLama2。


原文链接:

https://www.infoq.com/news/2023/12/cloudflare-mlops-platform/


2024-01-19 08:007005

评论

发布
暂无评论
发现更多内容

测试开发 | 语言助手技术的发展历程

测吧(北京)科技有限公司

测试

测试开发 | 人工智能引领交通运输革命

测吧(北京)科技有限公司

测试

【第七在线】季节性商品计划:如何应对时尚行业的快速变化

第七在线

「大模型摇摇乐」狂欢落幕!盘点那些让你意想不到的应用集锦

飞桨PaddlePaddle

开发者 大模型 AI应用 文心一言

测试开发 | 智能系统在能源管理中的优化

测吧(北京)科技有限公司

测试

云技术分享 | 使用快照和 AMI 镜像进行 Amazon EC2 的备份和恢复

亚马逊云科技 (Amazon Web Services)

Amazon EC2 Amazon S3 amazon-ebs backup

大数据,领导者阵营!

腾讯云大数据

大数据

火山引擎ByteHouse基于云原生架构的实时导入探索与实践

字节跳动数据平台

数据库 大数据 云原生

Lazada商品评论列表API:电商行业的实时反馈宝库

Noah

软件测试/测试开发丨Python元组

测试人

Python 软件测试

字节跳动 Spark Shuffle 大规模云原生化演进实践

字节跳动云原生计算

大数据 spark 云原生

逻辑多租场景下,故障爆炸半径的控制实践

华为云开发者联盟

开发 华为云 华为云开发者联盟

分享一些很优秀的URL设计

伤感汤姆布利柏

写给测试同学的福利 | 招募

优测云服务平台

测试 体验官 测试体验官

【第七在线】供应链协作与商品计划:建立强大的合作关系

第七在线

AGI时代的奠基石:Agent+算力+大模型是构建AI未来的三驾马车吗?

GPU算力

先进制造身份治理现状洞察:从手动运维迈向自动化身份治理时代

Authing

制造业 先进制造 国产化替代 身份自动化

Cloudeye对接Prometheus实现华为云全方位监控

华为云开发者联盟

云计算 华为云 华为云开发者联盟 华为云弹性云服务器

铸就安全可信的数字化「信息枢纽」—华为云ROMA Connect荣膺软件产品可信【卓越级】认证

云计算 华为云

测试开发 | 语音助手技术:Siri、Alexa、Google Assistant的背后

测吧(北京)科技有限公司

测试

测试开发 | AI在交通运输中的引领作用:智能交通系统与城市流动

测吧(北京)科技有限公司

测试

全方位的账号安全管理

尚思卓越

黑客 网络安全

诚邀报名|探索汽车智能化的开源未来

开放原子开源基金会

开源

2023开放原子开发者大会全日程

开放原子开源基金会

开源

测试开发 | 智能系统在航空航天领域的应用与创新

测吧(北京)科技有限公司

测试

openEuler汇聚开源力量,共建全球开源生态

彭飞

倒计时2天|2023开放原子开发者大会15个技术平行专场议程速览

开放原子开源基金会

开源

长三角安防行业盛会“2024杭州国际安防产品展览会”

AIOTE智博会

安防展 杭州安防展 安防产品展

科普:多领域分布式协同仿真

DevOps和数字孪生

协同仿真

Cloudflare 的 ML 和 AI 之旅:MLOps 平台和最佳实践_AI&大模型_InfoQ精选文章