写点什么

Apache Spark 2.0 技术预览版

  • 2016-06-05
  • 本文字数:799 字

    阅读完需:约 3 分钟

Apache Spark 第一版发布时隔两年后, Databricks 公布了基于上游分支 2.0.0-preview 的 Apache Spark 2.0 技术预览版。该预览版在稳定性和 API 方面均不适合用于生产环境,主要是为了在正式上市前收集来及社区的反馈。

此次发布的新版主要针对社区反馈进一步完善了各种功能,根据 Spark 的开发计划,主要改进分为两方面。

SQL 是基于 Apache Spark 的应用程序最常用的接口之一。Spark 2.0 可以支持全部的 99 个 TPC-DS 查询,这些查询大部分都基于 SQL:2003 规范。这些改进有助于在对应用程序堆栈进行最少量重写的情况下将现有数据负载移植至 Spark 后端。

第二方面改进主要是编程 API,同时在这个新版中也更重视机器学习。spark.mllib 程序包已经被全新的 spark.ml 程序包所取代,后者更加侧重于基于管线的API,这项技术源自 DataFrames 。机器学习管线和模型现已能够持久保存,Spark 所支持的所有语言均支持这一特性。同时R 已经可以支持K-Means、 Generalized Linear Models(GLM)朴素贝叶斯和Survival Regression。

借助新增的Datasets 类,DataFrames 和Datasets 已实现了统一,可支持Scala 和Java 编程语言,同时也可充当结构流(Structured streaming)的抽象。不支持编译时类型安全(Compile time type safety)的语言暂时还无法做到这一点,此时只能使用DataFrames 作为主要抽象。SQLContext 和HiveContext 已被统一的 SparkSession 所取代。新增的 Accumulator API 具有比基本类型更简单的类型层级,可支持对基本类型进行专门化(Specialization)。老的 API 已被弃用,但为了实现向后兼容性依然包含在新版中。

新发布的结构化流API 主要可用于在不增加复杂性的前提下管理流数据集,借此程序员和现有机器学习算法将可以处理批量加载的数据集。在第二代Tungsten 引擎的帮助下,性能也有所增强,执行速度最高可提升10 倍。

该技术预览版已经发布至 DataBricks

查看英文原文: Apache Spark 2.0 Technical Preview

2016-06-05 19:003986
用户头像

发布了 283 篇内容, 共 119.0 次阅读, 收获喜欢 63 次。

关注

评论

发布
暂无评论
发现更多内容

面试官:说说你平时都用过哪些分布式ID生成方案?

程序员小毕

Java 程序员 分布式 后端 分布式ID

图解 | 聊聊「秒杀」

小小怪下士

Java 程序员 高并发 秒杀

Java | StringBuilder类/StringBuffer类

陌上

Java 编程 10月月更

Storm概念与架构

穿过生命散发芬芳

Storm 10月月更

3分钟了解CDN的工作原理

阿泽🧸

CDN 10月月更

Java | DateFormat和SimpleDateFormat类

陌上

Java 编程 10月月更

【运维】Centos 7 一键 搭建 Java开发者环境

石臻臻的杂货铺

Java 运维 10月月更

【分布式技术专题】「架构实践于案例分析」总结和盘点目前常用分布式技术特别及问题分析

码界西柚

分布式 微服务 10月月更 微服务化

数据库&基本SQL语法

w010w

数据库 sql 10月月更

统计匹配检索规则的物品数量

掘金安东尼

算法 10月月更

在熬夜中成长

暮春零贰

熬夜 10月月更

Vagrant定制个性化CentOS7模板

程序员欣宸

vagrant 虚拟机 10月月更

ubuntu16.04安装deb软件包教程

DS小龙哥

10月月更

Vue复刻华为官网 (一)

游坦之

10月月更

【JavaWeb】过滤器和监听器,就这?

游坦之

10月月更

从AI生成视频看人工智能未来发展趋势​

felix

人工智能 AI 图片生成

2022-10-29:go语言中的defer能非常方便地处理资源释放问题,rust语言里如何实现defer功能呢?

福大大架构师每日一题

rust defer 福大大 RAII

SQL注入的题目

w010w

网络安全 SQL注入 SQL语句 10月月更

【web 开发基础】PHP 自定义函数之函数的调用 -PHP 快速入门 (25)

迷彩

函数调用 函数 10月月更 web开发基础 PHP基础

Vue实现日期选择器

游坦之

10月月更

整合Mybatis、Servlet、Mysql、Axios、Filter、Session写一个入门级项目:非常适合初接触JavaWeb的小白白来进阶

游坦之

10月月更

JVM是什么?Java程序为啥需要运行在JVM中?

wljslmz

Java JVM 虚拟机 10月月更

SQL注入

w010w

网络安全 WEB安全 SQL注入 10月月更

设计模式之禅01单一职责原则

okokabcd

设计模式

【JavaWeb】一篇承载Ajax、Axios、Json的学习笔记~

游坦之

10月月更

记一次网络安全应急响应流程

网络安全学海

黑客 网络安全 信息安全 渗透测试 WEB安全

Java | Date类

陌上

Java 编程 10月月更

VM虚拟机下Ubuntu系统扩展磁盘大小方法

DS小龙哥

10月月更

电脑安装Ubuntu桌面系统(部署开发环境、直接U盘安装,针对I386工控板)

DS小龙哥

10月月更

Apache Spark 2.0技术预览版_开源_Alex Giamas_InfoQ精选文章