50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

Spark Summit EU 重头戏:TensorFlow、结构化的流和 GPU 硬件加速

  • 2016-11-22
  • 本文字数:843 字

    阅读完需:约 3 分钟

Spark Summit EU 2016 上星期在布鲁塞尔召开,其中大会中的重头戏是 Apache Spark 集成深度学习库 TensorFlow 、使用结构化的流进行在线学习和 GPU 硬件加速。

大会第一日最具特色的是预览了由 Spark 2.0 引入的一个创新。该 API 是针对 DataFrames 和 Datasets 简化了的接口,使其更容易去开发大数据应用。这个第二代的 Tungsten 引擎通过把 MPP 数据库的理念应用到数据处理查询使处理更接近于硬件了:针对中间数据和以节省空间的面向列方式保存在内存中的数据,生成的字节码充分利用 CPU 寄存器的能力。

不管 API 是否使用过,数据操作图都是通过 Catalyst Optimizer 优化过的,它针对所有集群上的计算指令生成执行计划,并针对每个操作进行优化。

结构化的流,这是作为阿尔法版针对流发布的一个新的高层API,在本次大会中也做了推介。该API 集成了Spark 的Dataset 和DataFrame,使开发人员可以以类似于Spark 批量API 的方式描述从(到)外部系统的数据读写。它通过以批处理指令的方式编译流处理指令提供了很强的一致性,并使事务型系统可以与存储系统集成在一起(比如HDFS 和AWS S3)。

在大会第二天,Databricks 的CEO Ali Ghodsi 将Spark 描绘成了将AI 大众化的一款工具,它简化了机器语言算法的数据准备和计算指令的管理。今年早些时候,深度学习类库TensorFlow 通过一个称为 TensorFrames 的类库集成运行于 Spark 之上。这个类库允许在 DataFrames 和 TensorFlow 之间在运行期传递数据。

数据科学专题召开了一个会议,主要围绕的主题是如何结构化流使机器学习具有弹性,并使其可以做到在线学习,这就有可能做到根据到达的数据去更新一些机器学习模型了,而不是采用一批离线任务去执行模型训练。

最后一个重头戏是在 Databricks 平台支持GPU 和更多深度学习类库集成的公告。GPU 的支持是通过像 CUDA 这样的硬件类库完成的,并可以在 Databricks 中预先构建它,据说这样集群设置成本就会有更低了。

查看英文原文: Spark Summit EU Highlights: TensorFlow, Structured Streaming and GPU Hardware Acceleration

2016-11-22 18:002418

评论

发布
暂无评论
发现更多内容

一份价格,双份收货,彻底搞定 PPT,兔年解放你自己

博文视点Broadview

【春季2月CSM认证周末班】提前报名特惠--“全球金牌”课程CST导师亲授

ShineScrum

ScrumMaster 项目经理 ScrumMaster认证 CSM认证

如何通过Java代码在PDF中插入、替换或删除图像?

在下毛毛雨

Java PDF 图像

视觉模型 ConvNeXt V2,结合纯卷积与MAE

Zilliz

计算机视觉

【新春特惠周末班】2月4-5日在线CSPO“价值交付课程” | 全国招生

ShineScrum

产品负责人 CSPO认证 CSPO

【春季2月A-CSM特惠周末班】ScrumMaster进阶课程 · CST导师亲授

ShineScrum

敏捷教练 高阶SM 敏捷教练技能

企业数字化转型,工具先行

飞算JavaAI开发助手

Electron打包错误的踩坑小记

茶无味的一天

前端 Electron Node electron实战

模块二作业 (架构实战训练营)

Justin

架构实战营

Datawhale学习笔记【阿里云天池 金融风控-贷款违约预测】Task2 数据分析

一颗小树

湖仓一体电商项目(十七):业务实现之编写写入DIM层业务代码

Lansonli

湖仓一体电商项目

设计文档概述

五毛

设计原则

深入浅出学习透析Nginx服务器的架构分析及原理分析「底层技术原理+运作架构机制」

码界西柚

nginx 负载均衡 反向代理 优化架构

TiCDC 源码解读(4)-- TiCDC Scheduler 工作原理解析

TiDB 社区干货传送门

TiCDC 源码解读

采购LED显示屏要注意的五大技术参数

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家

我理解的卓越工程

agnostic

卓越工程

一图回顾博睿数据的2022

博睿数据

年度报告 博睿数据

全球化商家平台技术探索与演进

阿里技术

全球化 架构演进

KaiwuDB CTO 魏可伟:1.0 时序数据库技术解读

KaiwuDB

时序数据库 多模数据库 技术优势

有什么方法从 PostgreSQL 数据迁移到 TiDB ?

TiDB 社区干货传送门

迁移 实践案例 管理与运维

2022年度回顾|龙蜥这一年:协同开放 众行致远

OpenAnolis小助手

开源社区 龙蜥 贡献 协同开放

喜报|HarmonyOS开发者社区连获业内奖项,持续深耕开发者生态

HarmonyOS开发者

HarmonyOS

开源SPL强化MangoDB计算

石臻臻的杂货铺

开源 SPL

2022最新MySQL高频面试题汇总

程序员大彬

MySQL 数据库 计算机

赛意信息张成康:在行业场景驱动下为企业创造数字化价值

科技热闻

TiDB PPT玩家快速点评 V6.5 新特性

TiDB 社区干货传送门

版本测评

京东探索研究院 | 2023年十大科技趋势

京东科技开发者

京东 技术分享 京东云 技术预测 企业号 1 月 PK 榜

Transformer 再添一员,比 Swin 更强的 DiNAT

Zilliz

QEMU与KVM架构介绍

Linux内核拾遗

Linux 虚拟化 qemu kvm

“祝福海报”小程序走红,AIGC走进“千家万户”

科技热闻

正式起航!用友23大行业客户与解决方案事业部全面亮相

用友BIP

用友BIP

Spark Summit EU重头戏:TensorFlow、结构化的流和GPU硬件加速_大数据_Alexandre Rodrigues_InfoQ精选文章