【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

Intel 开源了基于 Apache Spark 的分布式深度学习框架 BigDL

  • 2017-01-18
  • 本文字数:785 字

    阅读完需:约 3 分钟

Intel 开源了基于 Apache Spark 的分布式深度学习框架 BigDL 。BigDL 借助现有的 Spark 集群来运行深度学习计算,并简化存储在 Hadoop 中的大数据集的数据加载。

Xeon 服务器上运行的测试结果表明,BigDL 比其他开源框架 Caffe Torch TensorFlow 有显著的性能提升。BigDL 速度可与主流 GPU 匹敌,而且能够扩展到数十个 Xeon 服务器。

BigDL 库支持 Spark 1.5、1.6 和 2.0 版本,并容许将深度学习嵌入在现有的 Spark 程序中。BigDL 库中有把 Spark RDDs 转换为 BigDL DataSet 的方法,并且可以直接与 Spark ML Pipelines 一起使用。

对于模型训练,BigDL 使用了在多个执行器中执行单个 Spark 任务的同步小批量 SGD( Stochastic Gradient Descent )。每个执行器运行一个多线程引擎并处理一部分微批次数据。在当前版本中,所有的训练和验证数据都存储到存储器中。

BigDL 使用 Scala 开发,并参考了 Torch 的模型。像 Torch 一样,它有一个使用 Intel MKL 库进行计算的 Tensor 类。Intel MKL(Math Kernel Library)是由一系列为计算优化过的小程序所组成的库,这些小程序从 FFT (快速傅立叶变换)到矩阵乘法均有涉及,常用于深度学习模型训练。Module 是另一个从 Torch 借鉴而来的概念,它的灵感来自 Torch 的 nn package 。Module 代表单独的神经网络层、 Table Criterion

BigDL 提供了一个 AWS EC2 镜像和一些示例,比如使用卷积神经网络进行文本分类,还有图像分类以及如何将在Torch 或Caffe 中预训练过的模型加载到 Spark 中进行预测计算。来自社区的请求主要包括提供对 Python 的支持和 MKL-DNN (MKL 的深度学习扩展)。

查看英文原文 Intel Open-Sources BigDL, Distributed Deep Learning Library for Apache Spark


感谢薛命灯对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2017-01-18 18:004548
用户头像

发布了 22 篇内容, 共 48138 次阅读, 收获喜欢 3 次。

关注

评论

发布
暂无评论
发现更多内容

法大大完成D轮9亿元融资,腾讯领投

人称T客

历史技术栈体系即将崩溃,我们如何应对?

VoltDB

数据库 5G 边缘计算 VoltDB

ARTS - Week 6

Khirye

Java LeetCode arts

如果写文字只是自我表达「Day 19」

道伟

28天写作

(28DW-S8-Day19) 以太坊是什么

mtfelix

28天写作

你的决定我做主——锚定效应

Justin

心理学 28天写作 游戏设计

深入分析mysql为什么不推荐使用uuid或者雪花id作为主键

xcbeyond

MySQL MySQL优化 3月日更

数据分析利器之Excel功能篇

小飞象@木木自由

LeetCode题解:64. 最小路径和,动态规划,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

甚至你可以在网抑云上听歌

ES_her0

28天写作 3月日更

Python yaml 使用的包

HoneyMoose

正则表达式.06 - 断言

insight

正则表达式 3月日更

Elasticsearch Reindex & Index Alias

escray

elastic 28天写作 死磕Elasticsearch 60天通过Elastic认证考试

习惯

lenka

3月日更

硬核干货丨借助多容器Pod,轻松扩展K8S中的应用

Rancher

Python 通过命令行安装包的时候 pip 提示错误

HoneyMoose

问题剖析之消息队列的架构设计

Kylin

读书笔记 消息队列架构 3月日更

Redis工具收费后新的开源已出现

happlyfox

学习 工具软件 28天写作 3月日更

“七大属性加持,三个全新升级组件”这个高性能利器有点厉害

华为云开发者联盟

数据库 数据湖 Clickhouse 华为云 集群

FutureTask源码解析

程序员星星toC

多线程 Future future设计模式

算法攻关-从上到下打印二叉树(O(n))_offer32

小诚信驿站

架构师 刘晓成 小诚信驿站 28天写作 算法攻关

MySQL原理

Sakura

28天写作 3月日更

如何通过XMind 实践OKR 工作法

博文视点Broadview

夺命剪刀脚(死锁)

鲁米

方法论 死锁

马特量化交易机器人系统开发网格策略

薇電13242772558

Everything is Serverless,从开源框架对比说起

华为云开发者联盟

云计算 开源 Serverless 云原生 无服务器

醒一醒,讲到 ZooKeeper 的选举机制了

HelloGitHub

Java zookeeper ZooKeeper原理

第二届开发者社区【金码奖】,揭晓了!

京东科技开发者

开发者 开发者社区

软考备考视频的目录

IT蜗壳-Tango

3月日更 软考

四、MongoDB查询(2)

Kylin

读书笔记 分布式数据库mongodb 3月日更

Python 注释

HoneyMoose

Intel开源了基于Apache Spark的分布式深度学习框架BigDL_亚马逊云科技_Alexandre Rodrigues_InfoQ精选文章