写点什么

Spark Summit EU 重头戏:TensorFlow、结构化的流和 GPU 硬件加速

  • 2016-11-22
  • 本文字数:843 字

    阅读完需:约 3 分钟

Spark Summit EU 2016 上星期在布鲁塞尔召开,其中大会中的重头戏是 Apache Spark 集成深度学习库 TensorFlow 、使用结构化的流进行在线学习和 GPU 硬件加速。

大会第一日最具特色的是预览了由 Spark 2.0 引入的一个创新。该 API 是针对 DataFrames 和 Datasets 简化了的接口,使其更容易去开发大数据应用。这个第二代的 Tungsten 引擎通过把 MPP 数据库的理念应用到数据处理查询使处理更接近于硬件了:针对中间数据和以节省空间的面向列方式保存在内存中的数据,生成的字节码充分利用 CPU 寄存器的能力。

不管 API 是否使用过,数据操作图都是通过 Catalyst Optimizer 优化过的,它针对所有集群上的计算指令生成执行计划,并针对每个操作进行优化。

结构化的流,这是作为阿尔法版针对流发布的一个新的高层API,在本次大会中也做了推介。该API 集成了Spark 的Dataset 和DataFrame,使开发人员可以以类似于Spark 批量API 的方式描述从(到)外部系统的数据读写。它通过以批处理指令的方式编译流处理指令提供了很强的一致性,并使事务型系统可以与存储系统集成在一起(比如HDFS 和AWS S3)。

在大会第二天,Databricks 的CEO Ali Ghodsi 将Spark 描绘成了将AI 大众化的一款工具,它简化了机器语言算法的数据准备和计算指令的管理。今年早些时候,深度学习类库TensorFlow 通过一个称为 TensorFrames 的类库集成运行于 Spark 之上。这个类库允许在 DataFrames 和 TensorFlow 之间在运行期传递数据。

数据科学专题召开了一个会议,主要围绕的主题是如何结构化流使机器学习具有弹性,并使其可以做到在线学习,这就有可能做到根据到达的数据去更新一些机器学习模型了,而不是采用一批离线任务去执行模型训练。

最后一个重头戏是在 Databricks 平台支持GPU 和更多深度学习类库集成的公告。GPU 的支持是通过像 CUDA 这样的硬件类库完成的,并可以在 Databricks 中预先构建它,据说这样集群设置成本就会有更低了。

查看英文原文: Spark Summit EU Highlights: TensorFlow, Structured Streaming and GPU Hardware Acceleration

2016-11-22 18:002379

评论

发布
暂无评论
发现更多内容

EasyNLP带你玩转CLIP图文检索

阿里云大数据AI技术

数据挖掘 存储 算法框架/工具 机器学习/深度学习

NodeJS 5分钟 连接MySQL 增删改查 🥇

德育处主任

node.js MySQL 6月月更

实战模拟│揭秘为啥年会你抽不到特等奖

随机 概率 抽奖系统 6月月更

直播倒计时1天!天翼云HPC解决方案助力企业腾飞

天翼云开发者社区

芯动科技加入龙蜥社区,创新驱动生态发展

OpenAnolis小助手

操作系统 芯片 龙蜥社区 CLA 芯动科技

面试官神级问题:DNS服务器是否可以加快我们的网络访问速度?

wljslmz

服务器 DNS 6月月更

新闻速递 | MobTech受邀参与华为开发者联盟沙龙,谈数据智能撬动增长

MobTech袤博科技

移动互联网 运营 精细化运营 华为开发者联盟 HDG

低代码实现探索(四十二)数据+方法+组件

零道云-混合式低代码平台

如何在 Django 中使用 MVT 创建基本项目?

海拥(haiyong.site)

django 6月月更

签约喜报 | 月财生态签约旺链科技,区块链溯源让有机产品“有迹可循”

旺链科技

区块链 产业区块链 食品溯源 有机食品

了解 Session、LocatStorage、Cache-Control、ETag

CRMEB

如何在 Vue 项目中,通过点击 DOM 自动定位VSCode中的代码行?

vivo互联网技术

Vue 前端 vscode vite webpack

C#入门系列(十四) -- 结构体应用

陈言必行

C# 6月月更

交友app源码未来的发展趋势是什么?

开源直播系统源码

NLP论文领读|缺少有标注的数据集怎么训练文本检索模型?来看看 LaPraDoR怎么做的吧

澜舟孟子开源社区

人工智能 自然语言处理 神经网络 深度学习 nlp

医疗机构如何利用云原生加速智慧医院建设?

York

云原生 系统架构 智慧医疗 医疗信息化 互联网医疗

Linux开发_介绍目录编程、标准文件编程、Linux系统文件接口编程、GDB调试

DS小龙哥

6月月更

今天 3 点!Intel Arch 和高性能存储技术两大 SIG 核心成员在线分享|第 21-22 期

OpenAnolis小助手

容器 镜像 直播 内核 龙蜥大讲堂

百问百答第42期:应用性能探针监测原理-.net

博睿数据

智能运维 博睿数据 性能监测

【高并发】高并发环境下构建缓存服务需要注意哪些问题?

冰河

并发编程 多线程 高并发 异步编程 6月月更

java培训 | Mybatis的特性

@零度

mybatis JAVA开发

【Python技能树共建】scrapy 上手篇

梦想橡皮擦

Python 爬虫 Python爬虫 6月月更

文档管理系统应该具备哪些功能?

小炮

如何使用 API 的方式消费 SAP Commerce Cloud 的订单服务

汪子熙

node.js SAP commerce 电商云 6月月更

OpenHarmony 官网文档有哪些上新?上篇:应用开发文档上新

OpenHarmony开发者

OpenHarmony

Flink CDC 在大健云仓的实践

Apache Flink

大数据 flink 编程 流计算 实时计算

ZooKeeper进阶(二):ZooKeeper的运行

No Silver Bullet

zookeeper 6月月更

Push还是Pull,这是个问题么?

MatrixOrigin

push Pull MatrixOrigin MatrixOne 数据库·

从社恐到社牛,多亏了这款私人学习成长暗器!

博文视点Broadview

小程序IDE,快速配置让App具备“一码通”能力

Speedoooo

ide 二维码 一码通

InfoQ 极客传媒 15 周年庆征文 | Kettle实现ES到ES循环增量抽取

写程序的小王叔叔

架构 kettle ELK Stack InfoQ极客传媒15周年庆

Spark Summit EU重头戏:TensorFlow、结构化的流和GPU硬件加速_大数据_Alexandre Rodrigues_InfoQ精选文章