写点什么

HPC 与 AI 融合,为什么这家上海的一流高校做到了?

2020 年 3 月 02 日

HPC 与 AI 融合,为什么这家上海的一流高校做到了?


近年来,围绕 AI 技术的国际竞争正愈演愈烈。为了抢占先机,设立 AI 专业成了各大高校顺应科技发展趋势的重大举措。为帮助高校推进 AI 技术领域的人才培养、研究开发和成果转化,才云科技打造定制化 HPC 集群平台管理系统,支持国家科技建设。


某高校是由上海市人民政府和中国科学院共同举办的一所“小规模、高水平、国际化的研究型、创新型”大学。它借鉴了世界一流理工科大学的发展经验,从理工科入手培养各科专业人才,推进研究成果在各行业落地。


作为人工智能高校联盟的倡导者之一,为更好地进行 AI 学科建设,进一步巩固学校在计算机视觉、自然语言处理、深度学习、图形学等领域的优势,该高校联手才云科技,为高性能计算(HPC)集群打造了一套平台管理系统,为提升集群计算效率、提高资源利用率、降低成本提供了极大支持。


AI 学科建设需从 HPC 起步

高校 HPC 集群是一种为学校密集型科研任务提供高性能计算支持的计算硬件,通常计算速度要达到每秒万亿次级。作为科学研究不可或缺的计算工具,它在研究领域有着广泛的应用和巨大的影响力,也是衡量一所学校科研实力的重要指标之一。


自建校以来,该高校依托高性能 HPC 集群,已在物理、化学、生命科学等领域实现巨大科研进展。而随着 AI 研究的逐步展开,考虑到 AI 研究离不开庞大的数据、精确的数据标记和数十倍于一般科研项目的计算量,学校对用 HPC 集群支撑深度学习任务,促进 AI 与 HPC 的融合提出了更高的要求。


同时,为了承担更多国家级、地级科研课题,加快进行学科建设和人才培养,一些可预见的长期问题,如计算资源部署、使用现状与日益增长的科研任务需求之间的矛盾也亟需得到重视:


  • 物理资源管理零散。该高校在浦东浦西建有两个数据中心,各数据中心内的机器配置不一,共有 8 个集群、124 台服务器、近 300 块 GPU、大量 CPU 及内存资源。虽然规模庞大,但这些资源缺乏有效的统一管理工具,存在计算资源过于分散、缺乏高效统筹机制的问题;

  • 资源申请不规范。为满足各学科科研需求,学校一般都有针对 HPC 集群使用的完善申请、使用手册。但该高校的资源申请流程仍过于繁琐,缺乏自动化的资源申请、分配工具。当申请人提交申请后,计算资源需要依靠人工手动分配,无法实现即租即用,整个过程耗时耗力;

  • 资源利用率低。该高校的服务器资源只能以整机的方式分配给各教研室,例如一台服务器有 6 块 GPU,当某个 AI 任务只需使用 5 块 GPU 时,申请人会被分到一整台服务器,如此分配方式往往导致资源使用不饱和,造成浪费;

  • 资源回收困难。任务结束后,由于需要人工手动清理机器遗留数据,该高校的 HPC 集群也存在资源回收不及时、机器时常处于闲置状态的问题。


才云:构建 HPC 集群平台管理系统

针对该高校 HPC 集群的使用现状,才云科技基于自研智能容器云平台 Caicloud Compass 和人工智能云平台 Caicloud Clever,打造了一套定制化的 HPC 集群平台管理系统。


新系统实现了计算资源的池化管理和机器资源的逻辑化分配,并依靠对底层高性能计算资源的科学管理,大幅提升了深度学习项目的分布式训练能力。



才云科技打造的 HPC 集群平台管理系统


助力学科建设,创建深度学习平台方案


为了让高校 HPC 更好地承担 AI 科研项目,才云科技在 HPC 集群平台管理系统中集成了深度学习平台方案,能为高校数据管理、模型构建、模型上线提供一站式便捷服务。


具备深度学习全流程工程化管理能力。HPC 集群平台管理系统集数据导入、数据处理、模型开发、模型训练、服务上线、模型管理等功能于一体,可有效支持语义分析、仿真模拟、图形渲染等深度学习科研项目,帮助高校简化项目流程、加速项目开展进度。


集成 infiniband 网络。infiniband 网络是用于 HPC 的计算机网络通信标准,具有极高吞吐量和极低延迟的特点,既可用作服务器与存储系统之间的直接或交换互连,也可用于存储系统之间的互连。考虑到深度学习对计算速度的苛刻要求,HPC 集群平台管理系统集成 infiniband 网络,为 AI 项目运算速度提供保障。


集成并行存储系统。在 HPC 中,传统 NFS 存储在集群不断增加时易出现存储瓶颈,而才云科技集成的并行存储则可以把后端的多套存储阵列统一成一个大的存储,不仅保证了可靠性,读写性能和带宽也更出色,帮助高校显著提高运算效率。


构建资源池,统一管理物理资源


为了破解该高校物理资源分散两地的难题,才云科技的 HPC 集群平台管理系统将两个中心的 124 台服务器资源统一纳管至系统环境内,实现了计算资源的平台级统筹管理。


系统可以依据主机生命周期、状态、性能对计算资源做细粒度划分,提供 CPU、GPU、内存、网络负载、任务运行数量等指标的可视化监控及灵活高效的服务器上下线功能,帮助高校大幅提升资源利用率,确保所有资源的安全可用。


细化申请流程,自动回收资源

才云科技的 HPC 集群平台管理系统具备用户权限管理体系,实现了资源按系统管理员、教研室管理员、学生(教师)三级用户划分。


全量集群资源由系统管理员统一管理,各教研室管理员先向系统管理员申请教研室所需资源,再按需分配给学生、教师。任务结束后,系统管理员只需在 HPC 资源管理可视化界面调低额度或关闭教研室账号,即可完成资源回收,资源申请回收效率大幅提升。


提供自动化运维能力,提高资源利用率

为了提升 HPC 集群管理的自动化水平,才云科技 HPC 集群平台管理系统提供应用、AI 模型任务开发运维过程中的一些常见管理能力,如用户环境隔离管理、任务生命周期管理、容器生命周期管理、代码开发管理、存储管理、镜像管理、监控管理、日志管理、配置管理等,大大减轻工作人员的工作负担。


展望未来

自上线后,才云科技的 HPC 集群平台管理系统为该高校降低人力成本、减少浪费、提高 HPC 集群资源利用率提供着巨大支持。在该系统的助力下,该高校的 AI 科研成果也在国际上高光频现,推动上海成为全国的 AI 科研高地。


更可喜的是,和才云科技的合作还让该高校看到了利用自建云开拓教育行业公有云的前景。为了更好地发挥数据中心的价值,该高校可将暑假期间闲置的计算资源以公有云的形式对外提供 ,打造人工智能云,帮助更多高校和企业加速 AI 研发和成果落地。


根据国务院 2017 年发布的人工智能发展规划,到 2020 年,中国人工智能总体技术和应用与世界先进水平同步,人工智能核心产业规模超过 1500 亿元,带动相关产业规模超过 1 万亿元。在当前这个实现 AI 加速发展的绝佳时刻,才云科技希望能帮助更多高校抓住机遇,艰苦奋斗,只争朝夕,助力中国 AI 赢在起跑线。


本文转载自才云 Caicloud 公众号。


原文链接:https://mp.weixin.qq.com/s/X9bb2vk8nDreTbea5zub2A


2020 年 3 月 02 日 17:47322

评论

发布
暂无评论
发现更多内容

FFMpeg解码API以及在解码过程中存在的丢帧问题

wangwei1237

ffmpeg 视频解码

惊悚,单个java进程占用700%的CPU

万里无云

Java 后端 cpu

week9-homework

J

AQS之ReentrantReadWriteLock写锁

伯阳

读写锁 ReentrantReadWriteLock 多线程与高并发 lock

架构师 3 期 3 班 -week9- 作业

zbest

作业 week9

对微服务架构设计实践中若干问题的探讨

xcbeyond

微服务 微服务架构 微服务网关 28天写作

HTML(六)——html表单

程序员的时光

程序员 前端 七日更 28天写作

从零开始学java第一天(为报训练营做准备)

落曦

还热乎的面经

书旅

百度 面试 面经

架构师 3 期 3 班 -week9- 总结

zbest

总结 week9

阿里大佬整理的526页Netty笔记,面试大厂不再被网络通信难倒

Java成神之路

Java 程序员 架构 面试 编程语言

迄今为止把Mybatis讲解的最详细的PDF,图文并茂,通俗易懂

Java成神之路

Java 程序员 架构 面试 编程语言

厉害!腾讯T3-2都还在学的微服务+MySQL+Kafka+boot2.x+虚拟机PDF

Java架构之路

Java 程序员 架构 面试 编程语言

如何开发一个完善的Kafka生产者客户端?

码农架构

kafka 中间件 消息中间件 架构·

区块链数字货币钱包系统软件开发|区块链数字货币钱包APP开发

开發I852946OIIO

系统开发

2020 总结 | VoltDB的亮点,你了解多少?

VoltDB

数据库 物联网 VoltDB

k8s 上运行我们的 springboot 服务之——springboot服务https请求

柠檬

Java k8s https Istio,

朋友不讲武德急催我给他Java干货教程,我劝他耗子尾汁并丢给他一份GitHub上标星115k+的Java教程,他看了之后连忙向我道歉!

Java成神之路

Java 程序员 架构 面试 编程语言

DCache 分布式存储系统|安装部署与应用创建

TARS基金会

缓存 分布式 微服务 存储 TARS

OMG,阿里大佬Kafka手写实战记录,这也太香了

Java架构之路

Java 程序员 架构 面试 编程语言

Java虚拟机知识 - JVM入门

小马哥

Java JVM 架构师 Java虚拟机 七日更

人设崩塌的美国生物实验室

脑极体

限时!字节Java程序性能优化宝典开源,原来这才叫性能优化

互联网架构师小马

Java 性能优化

【高并发】ReadWriteLock怎么和缓存扯上关系了?!

冰河

并发编程 读写锁 高并发 性能调优 ReadWriteLock

你跟涨薪只差这份Java核心知识点文档,读懂它你就是技术大佬!

Java架构之路

Java 程序员 架构 面试 编程语言

史上最全!阿里巴巴2021年最新最全500道Java后端面试大全(值得收藏)

云流

Java 编程 程序员 面试

疫情闭关修炼半个月,我竟把JDK源码都读懂了!

996小迁

Java 编程 架构 面试 程序人生

知乎获赞5K+的面试总结,蚂蚁高级工程师的技术笔记,共12W字

Java成神之路

Java 程序员 架构 面试 编程语言

有人相爱,有人年少财务自由,有人数据结构都背不出来

Java架构师迁哥

深度 | 阿里云蒋江伟:什么是真正的云原生?

阿里巴巴云原生

云计算 容器 运维 云原生 k8s

花了10000小时从外包到大厂,鬼知道我经历了什么!但回头看来这一路辛酸还是值得的!

程序员小毕

Java 面试 分布式 微服务 算法

HPC 与 AI 融合,为什么这家上海的一流高校做到了?-InfoQ