NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

Spark Summit EU 重头戏:TensorFlow、结构化的流和 GPU 硬件加速

  • 2016-11-22
  • 本文字数:843 字

    阅读完需:约 3 分钟

Spark Summit EU 2016 上星期在布鲁塞尔召开,其中大会中的重头戏是 Apache Spark 集成深度学习库 TensorFlow 、使用结构化的流进行在线学习和 GPU 硬件加速。

大会第一日最具特色的是预览了由 Spark 2.0 引入的一个创新。该 API 是针对 DataFrames 和 Datasets 简化了的接口,使其更容易去开发大数据应用。这个第二代的 Tungsten 引擎通过把 MPP 数据库的理念应用到数据处理查询使处理更接近于硬件了:针对中间数据和以节省空间的面向列方式保存在内存中的数据,生成的字节码充分利用 CPU 寄存器的能力。

不管 API 是否使用过,数据操作图都是通过 Catalyst Optimizer 优化过的,它针对所有集群上的计算指令生成执行计划,并针对每个操作进行优化。

结构化的流,这是作为阿尔法版针对流发布的一个新的高层API,在本次大会中也做了推介。该API 集成了Spark 的Dataset 和DataFrame,使开发人员可以以类似于Spark 批量API 的方式描述从(到)外部系统的数据读写。它通过以批处理指令的方式编译流处理指令提供了很强的一致性,并使事务型系统可以与存储系统集成在一起(比如HDFS 和AWS S3)。

在大会第二天,Databricks 的CEO Ali Ghodsi 将Spark 描绘成了将AI 大众化的一款工具,它简化了机器语言算法的数据准备和计算指令的管理。今年早些时候,深度学习类库TensorFlow 通过一个称为 TensorFrames 的类库集成运行于 Spark 之上。这个类库允许在 DataFrames 和 TensorFlow 之间在运行期传递数据。

数据科学专题召开了一个会议,主要围绕的主题是如何结构化流使机器学习具有弹性,并使其可以做到在线学习,这就有可能做到根据到达的数据去更新一些机器学习模型了,而不是采用一批离线任务去执行模型训练。

最后一个重头戏是在 Databricks 平台支持GPU 和更多深度学习类库集成的公告。GPU 的支持是通过像 CUDA 这样的硬件类库完成的,并可以在 Databricks 中预先构建它,据说这样集群设置成本就会有更低了。

查看英文原文: Spark Summit EU Highlights: TensorFlow, Structured Streaming and GPU Hardware Acceleration

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2016-11-22 18:001913

评论

发布
暂无评论
发现更多内容

java 组件开发的准备工作

努力努力再努力

1月月更

03 Prometheus之架构及数据模型

穿过生命散发芬芳

Prometheus 1月月更

盘点 2021 | 云原生拥抱之路

xcbeyond

程序人生 云原生 盘点2021 xcbeyond

首次!中西方数据库大咖“时空对话”,为中国分布式数据库开发者大会打call

OceanBase 数据库

OceanBase 开源 OceanBase 社区版 开发者大会

(1-2/2)AI的落地:读caoz的文章有感

mtfelix

无限生长 2022Y300P

世界女性科技群落(五):数字化黄金时代,东南亚女性都是隐藏的阿尔法

脑极体

滴滴夜莺监控发布v5正式版,定位Prometheus企业版

龙渊秦五

Prometheus zabbix Open-Falcon Nightingale

【新年互动搞起!】元旦快乐!这里是2022年的 OceanBase

OceanBase 数据库

开发者 OceanBase 社区版 2022年新年祝福 元旦

Flutter 让你的Dialog脱胎换骨吧!(Attach,Dialog,Loading,Toast)

小呆呆666

flutter ios android 前端 大前端

【LeetCode】统计特殊四元组Java题解

Albert

算法 LeetCode 1月月更

盘点 2021|考研,裸辞——混乱中寻找秩序,2021后记

某个Coder

盘点 2021

(1-1/1)底层逻辑读后感:三种对错观四类表述

mtfelix

无限生长 2022Y300P

架构训练营 week4 作业

红莲疾风

「架构实战营」

千万级学生管理系统的考试试卷存储方案

swallowluo

架构实战营 #架构实战营 「架构实战营」

盘点 2021|一个普通人的不普通的2021

慕枫技术笔记

程序人生 盘点 2021

《张汉东的 Rust 实战课》学习笔记

贾献华

C++ 动态内存分配的问题,你都懂了吗?

小梁编程汇

c++ 堆内存管理 内存分配 smart pointer

Go 通过 Map/Filter/ForEach 等流式 API 高效处理数据

万俊峰Kevin

微服务 stream go-zero Go 语言

在线JSON转CSV,TSV工具

入门小站

工具

Prometheus云原生监控:运维与开发实战

方勇(gopher)

云原生 #Prometheus

SpringMVC框架基础知识(02)

海拥(haiyong.site)

28天写作 1月月更

一个cpp协程库的前世今生(九)协程参数与返回值的处理

SkyFire

c++ cocpp

一份简单够用的 Nginx Location 配置讲解

冴羽

nginx 后端 博客 后端开发 博客配置

LabVIEW纹理分析(基础篇—9)

不脱发的程序猿

机器视觉 图像处理 LabVIEW 纹理分析

获奖公布!OceanBase 第一届技术征文大赛圆满收官!

OceanBase 数据库

开发者 征文大赛 oceanbase OceanBase 开源

设计微博评论的高性能高可用计算架构

drizzle

「架构实战营」

hw8-设计消息队列存储消息数据的MySQL表格

WWH

架构实战营

分布式系统必知必会

小梁编程汇

分布式 分布式系统 共识算法 分布式通信算法 #raft

川大记忆

wood

300天创作 川大

写时复制技术(COW)详解

小梁编程汇

性能优化 操作系统 CopyOnWrite;

架构实战训练营-模块5-作业

温安适

「架构实战营」

Spark Summit EU重头戏:TensorFlow、结构化的流和GPU硬件加速_大数据_Alexandre Rodrigues_InfoQ精选文章