写点什么

解析 UCloud 人工智能与英特尔背后的技术故事(下)

  • 2019-11-13
  • 本文字数:2910 字

    阅读完需:约 10 分钟

解析UCloud人工智能与英特尔背后的技术故事(下)

上一篇中,我们介绍了 UAI-Service 借力英特尔技术如何让使用 AI 服务像使用云主机一样便捷等技术问题。在这一篇中,我们将继续就 UAI-Service 如何以低 TCO 获取高效 AI 服务等问题展开讨论。

UAI-Service 另一个重要优势是平台内数据的安全性

1.首先,由于 UAI-Service 在每个虚拟机上只部署一个 AI 节点,因此做到了各个 AI 任务之间的隔离;

2.其次,由于平台本身并不涉及 AI 训练数据以及训练方法,在运行时仅需模型文件及接口代码,杜绝了数据外泄的可能;

3.最后,UCloud 还基于 SDN 技术实现了网络链路层的隔离,使每个客户的 UAI- Service 项目子网之间相互隔离,提升了网络安全性。


在 UAI-Service 中,用户之间的 AI 模型和接口代码是安全隔离的,全自动化的部署过程使运维人员无权访问敏感数据,进一步提升了数据的安全性。


UAI-Service 的通用性优势,解决了企业面对不同 AI 框架时的“选择障碍症”。UAI-Service 对主流的 AI 框架,包括 TensorFlow*、Keras*、Caffe* 和 MXNet* 等都提供良好的支持,企业可以根据自己的业务需求来选择不同的 AI 框架进行接入。



UAI-Service 架构示意图


在传统的 AI 框架以外,UAI-Service 还与英特尔一起,引入了性能更佳的 AI 框架:面向英特尔®架构优化的 Caffe 框架。这一版本的 Caffe 框架与传统 AI 框架相比,能更好地支持英特尔®至强®处理器产品家族和英特尔®至强融核™处理器产品家族,并集成了最新版本的英特尔®数学核心函数库 2017,能更高效地利用英特尔®AVX 的处理能力。


源自 UCloud 的一系列测试结果表明,借助面向英特尔®架构优化的 Caffe 框架,测试系统同时运行的线程数量可以得到显著增加。基于该框架,测试系统的执行时间也能从最初未修改前的 37 秒缩短至优化后的 3.6 秒,整体执行性能提高了 10 倍以上。事实证明,通过采用这一框架,UAI-Service 的 AI 在线服务效率得到了极大的跃升。

以低 TCO 获取高效 AI 服务

现阶段,致力于 AI 开发和创新的企业,多为初创型企业,或者是正在谋求业务转型和升级的传统企业,因此对 TCO 的控制尤为敏感。如何获取高性价比的在线 AI 能力是企业用户们普遍关心的热点话题。


由于在图像识别、自然语言处理等 AI 正在发挥重要作用的领域中,往往需要用到大量的浮点运算,因此在人们的传统观念里,只针对浮点计算提供加速的 GPU 平台,似乎更适于 AI 系统的构建。但在 AI 模型的部署实践中,GPU 动辄高达数万元人民币的售价极其昂贵,而且由于其扩展性不足,一旦部署,通常就只能固定执行单一的计算工作,难以随时根据工作任务的调整和变化实现及时的适配。


这样一来,UCloud 就盯上了数据中心内大量部署的、每台服务器都会配备的通用处理器。“通过技术分析,我们发现虚拟云主机中的处理器,处于工作状态的主要都是简单指令集,而英特尔®至强®处理器集成的英特尔®AVX 则并没有被充分利用。”UCloud 叶理灯表示:“这意味着以浮点计算性能著称的英特尔®AVX 的能力,或许可以为我们提供更适用的解决方案。”


英特尔®AVX 是一套完整的单指令多数据(Single Instruction Multiple Data,SIMD)指令集规范,其最大的优势在于支持 256 位矢量计算,大大提升了处理器的浮点计算性能。其具备的增强数据重排能力,也能更有效地存储、读取数据。在充分认识到了英特尔®AVX 及其处理单元的特性和优势之后,UCloud 的工程师们开始了一项大胆的创新:利用各个虚拟机中此前未能“物尽其用”的英特尔®AVX 能力,来满足 AI 在线服务的计算需求。


为了实现这一创举,UCloud 与英特尔的工程师们携手优化了英特尔®AVX 在 AI 在线服务中的应用表现,经过反复的优化与验证,AI 在线服务的重要技术指标——时延被成功降低到了数百毫秒,完全能够满足 UCloud 用户的实际应用需求。


在时延这一性能指标达标的同时,英特尔®至强®E5 处理器产品家族出色的可扩展性也开始释放其强大的应用潜力。在数据中心内、服务器中配备的无数英特尔处理器都可以被扩展到系统中,来进一步强化 AI 在线服务所需的浮点计算能力,这是一种远比 GPU 方案经济高效得多的解决方案,毕竟,这些处理器节点已经是 UCloud 的既有投资,无需再为此多支出一分钱。


“这就是英特尔处理器强大的可扩展性带来的力量。在云计算平台上,处理器资源能够迅速地进行海量扩容,按我们目前的解决方案,即在每一个虚拟机上都部署一个 AI 在线服务计算节点,这意味着我们的 AI 在线服务未来可以根据用户需求得到迅速且海量的扩容能力,同时还不需要额外支付太多成本。”UCloud 叶理灯满意地说。


为了对这一创新成果进行验证,UAI-Service 已在 200 多个基于英特尔®至强®E5 处理器产品家族的虚拟机节点上部署了 AI 在线服务计算节点,验证测试的结果表明:基于英特尔至强处理器的 AI 在线服务计算节点完全能满足用户对性能的要求,在帮助用户有效降低 TCO 的同时,也顺应了数据中心环保节能的发展方向。

最新进展:让机器更快识别”喜怒哀乐”

在前期成功开发和测试的基础上,UAI-Service 最近又在人脸识别技术的应用上实现最新进展。人脸识别一直是人工智能的一个重要研究方向,而基于英特尔至强服务器平台,利用英特尔®AVX 来支持的 UAI-Service,已在人脸表情识别的一系列测试中达成了优异的表现,验证了其能帮助零基础用户获得强大 AI 能力的潜能。


在测试中,UCloud 选用了 Tensorflow 提供的 TF-Slim 实验库以及人脸表情识别公开数据库 fer2013,其中共包含 35887 张人脸图片,各测试样本在年龄、面部等方面有较大差异性,这使该项技术测试具备了巨大的挑战性。


而测试结果表明:在有并发的前提下,UAI-Service AI 在线服务的性能普遍高于 8 核 8G 云主机的性能。刚刚得到的测评数据表明:目前并发数为 8-16 个节点时,AI 在线服务在性能上基本与基于 GPU 的方案相仿。


这不仅说明在 UAI-Service AI 在线服务上部署人脸表情识别应用可以带来出色的成效,还证明基于英特尔®AVX 支持的 UAI-Service 在人工智能应用中完全具备了与传统方案相媲美的能力。

结论

以此前在 UAI-Service 上的成功协作为基础,UCloud 未来还计划进一步深化与英特尔的创新协作,包括将最新的、面向英特尔处理器优化的 AI 框架引入 UAI-Service 在线服务平台。


并将充分发掘新一代英特尔®至强®可扩展处理器的能力,特别是其集成的全新英特尔®AVX-512 带来的更为强悍的浮点运算能力,来进一步优化 AI 在线服务。让专注于 AI 创新和应用的企业用户,能继续在合理的成本条件下,获取更强的 AI 计算能力支持。

经 验

AI 在线服务的普及,不仅需要在技术上予以突破,其部署的便捷性、与现有云计算能力的结合程度以及在分布式集群上部署的可行性,也在深刻影响着企业用户的 AI 研发和应用进程。正是因为准确捕捉到了用户的痛点和具体需求,UCloud 的 UAI-Service 才赢得了用户的青睐。


受数据中心内普遍存在的处理器计算资源闲置现象的启发,创造性地将其空闲的浮点计算能力投入到 AI 在线服务中,这不仅是技术上的创新,也是 AI 处理工作模式上的全新探索和尝试,它既能有效帮助企业用户降低 TCO,也顺应了数据中心环保节能的发展趋势。


本文转载自公众号 UCloud 技术(ID:ucloud_tech)。


原文链接:


https://mp.weixin.qq.com/s/Lum8fmTE2-QOLQhdN_k2yw


2019-11-13 10:12689

评论

发布
暂无评论
发现更多内容

想减少代码量,快设置一个有感知的 Aware Spring Bean

华为云开发者联盟

spring bean Aware 接口

低代码平台常见的安全隐患,J2PaaS低代码平台如何解决?

J2PaaS低代码平台

低代码开发 低代码平台 企业级低代码平台 J2PaaS低代码平台

企业怎样有效地进行文档管理

小炮

企业 文档管理

结合实际案例谈谈项目管理经验

云智慧AIOps社区

学习 项目管理 pmp 软考 沟通技巧

在APICloud开发平台使用友盟统计功能教程

YonBuilder低代码开发平台

APP开发 APICloud 友盟

龙蜥开发者说:学无止境的 Linux ,以及我的第一个定制版本发布之路 | 第4期

OpenAnolis小助手

Linux 龙蜥社区 开发者说 宝贵经历

软件开发中的风险如何处理?

源字节1号

微信小程序 软件开发

后端开发【一大波干货知识】定时器方案红黑树,时间轮,最小堆

Linux服务器开发

定时器 后端开发 红黑树 时间轮 Linux服务器开发

《数字经济全景白皮书》Z世代用户洞察篇(1)重磅发布!

易观分析

Z世代

腾讯WeTest微信小程序上线啦!产品资讯一手掌握!

WeTest

3月月更中奖名单新鲜出炉!快来看有没有你呀!

InfoQ写作社区官方

3月月更 热门活动

专访丨用友网络副总裁邹达:如何应对创新型数字化挑战?

YonBuilder低代码开发平台

接口自动化的关键思路和解决方案,本文全讲清楚了

Liam

Jmeter Postman API 测试工具 接口自动化测试

如何以卫语句取代嵌套条件表达式

华为云开发者联盟

条件表达式 卫语句 嵌套条件表达式 代码结构

行云管家荣膺《中国网络安全行业全景图(第九版)》收录

行云管家

网络安全 行云管家 安全牛

为什么都是技术合伙人被踢出局?

方云AI研发绩效

团队管理 研发管理 CTO SaaS

Zadig 基于 OPA 实现 RBAC 和 ABAC 权限管理技术方案详解

Zadig

云原生 CI/CD 软件交付

玩转LiteOS组件:Openexif

华为云开发者联盟

LiteOS Huawei LiteOS Openexif Exif JPEG文件

中国设计师品牌Le Arome乐欧幕靠什么做到爆款10分钟售罄?

科技大数据

Flink 在众安保险金融业务的应用

Apache Flink

大数据 flink 编程 流计算 实时计算

EMAS隐私合规检测专项服务,从确保形式合规及实质合规规避风险

移动研发平台EMAS

阿里云 开发 数据安全 移动开发 隐私合规

为什么企业对私有化部署IM如此青睐有加?

BeeWorks

浅谈Java虚拟机(HotSpot)的内存回收相关细节

CRMEB

如何在 Zadig 上玩转自动化测试,为业务质量保障提供最大价值

Zadig

云原生 软件测试 CI/CD 软件交付

机器人流程自动化评估体系全面助力垂直行业智能化转型

王吉伟频道

RPA 机器人流程自动化 信通院

jackson学习之三:常用API操作

程序员欣宸

4月月更

TASKCTL产品安装常见问题

敏捷调度TASKCTL

分布式 kettle ETL ETL任务 调度任务

京东运动露营活动亮相首钢园,精彩持续整个四月

科技新消息

【IT运维】国内优秀的IT运维企业有哪些?

行云管家

云计算 运维 网络运维 IT运维

政企上云网络适配复杂,看华为云Stack有妙招

华为云开发者联盟

数据中心 云网络 华为云Stack 政企上云 L3GW服务

Module Federation在客服工单业务中的最佳实践

得物技术

前端 Module 模块 iframe Federation

解析UCloud人工智能与英特尔背后的技术故事(下)_文化 & 方法_UCloud技术_InfoQ精选文章