GTLC全球技术领导力峰会·上海站,首批讲师正式上线! 了解详情
写点什么
vivo AI计算平台搭建实战

vivo AI计算平台搭建实战

策划: 赵钰莹

2018 年底,vivo AI 研究院为了解决统一高性能训练环境、大规模分布式训练、计算资源的高效利用调度等痛点,着手建设 AI 计算平台。经过两年的持续迭代,平台建设和落地取得了很大进展,成为 vivo AI 领域的核心基础平台。平台从当初服务深度学习训练为主,到现在演进成包含 VTraining、VServing、VContainer 三大模块,对外提供模型训练、模型推理和容器化能力。

vivo AI计算平台的监控高可用方案
vivo AI 计算平台的监控高可用方案

本文主要分享了 VContainer 的监控高可用方案的选型和部署实践,以及各种踩坑经验。

vivo AI计算平台弹性分布式训练的探索和实践
vivo AI 计算平台弹性分布式训练的探索和实践

本文分享了 vivo AI 计算平台在 Kubernetes 集群进行弹性分布式训练的实践心得。

vivo AI 计算平台的K8s填坑指南
vivo AI 计算平台的 K8s 填坑指南

在 2018 年底,vivo AI 研究院为了解决统一的高性能训练环境、大规模的分布式训练、计算资源的高效利用调度等痛点,着手建设 AI 计算平台。

vivo AI计算平台在线业务落地实践
vivo AI 计算平台在线业务落地实践

为了支撑公司 AI 在线业务的发展,满足公司对算力资源的高效调度管控需求,需要将在线业务,主要包括 C 端、推理等业务,由原来的虚拟机或物理机迁移至 AI 容器平台。

vivo AI计算平台 Kubernetes集群Ingress网关实践
vivo AI 计算平台 Kubernetes 集群 Ingress 网关实践

基于在线业务的需求对 AI 容器平台进行进一步建设,并将平台与公司的 CMDB、CICD 等基础模块进行打通,使在线业务能够顺利从虚拟机、物理机迁移至 AI 容器平台。

Kube-batch在vivo AI计算平台的应用
Kube-batch 在 vivo AI 计算平台的应用

由于 K8s 原生调度器存在诸多问题,vivo 决定采用批调度器 kube-batch,本文讲解了整个团队 kube-batch 实践历程和解决的问题。

vivo手机背后的一站式机器学习平台架构实践
vivo 手机背后的一站式机器学习平台架构实践

InfoQ 有幸采访了 vivo AI 研究院的资深算法工程师鲁文龙,详细了解 vivo 在机器学习平台方面的实践。

没有更多了

如何打造一支有战斗力的技术团队?

如何打造一支有战斗力的技术团队?

vivo AI计算平台搭建实战-InfoQ