限时领|《AI 百问百答》专栏课+实体书(包邮)! 了解详情
写点什么

Apache Spark 2.0 技术预览版

  • 2016-06-05
  • 本文字数:799 字

    阅读完需:约 3 分钟

Apache Spark 第一版发布时隔两年后, Databricks 公布了基于上游分支 2.0.0-preview 的 Apache Spark 2.0 技术预览版。该预览版在稳定性和 API 方面均不适合用于生产环境,主要是为了在正式上市前收集来及社区的反馈。

此次发布的新版主要针对社区反馈进一步完善了各种功能,根据 Spark 的开发计划,主要改进分为两方面。

SQL 是基于 Apache Spark 的应用程序最常用的接口之一。Spark 2.0 可以支持全部的 99 个 TPC-DS 查询,这些查询大部分都基于 SQL:2003 规范。这些改进有助于在对应用程序堆栈进行最少量重写的情况下将现有数据负载移植至 Spark 后端。

第二方面改进主要是编程 API,同时在这个新版中也更重视机器学习。spark.mllib 程序包已经被全新的 spark.ml 程序包所取代,后者更加侧重于基于管线的API,这项技术源自 DataFrames 。机器学习管线和模型现已能够持久保存,Spark 所支持的所有语言均支持这一特性。同时R 已经可以支持K-Means、 Generalized Linear Models(GLM)朴素贝叶斯和Survival Regression。

借助新增的Datasets 类,DataFrames 和Datasets 已实现了统一,可支持Scala 和Java 编程语言,同时也可充当结构流(Structured streaming)的抽象。不支持编译时类型安全(Compile time type safety)的语言暂时还无法做到这一点,此时只能使用DataFrames 作为主要抽象。SQLContext 和HiveContext 已被统一的 SparkSession 所取代。新增的 Accumulator API 具有比基本类型更简单的类型层级,可支持对基本类型进行专门化(Specialization)。老的 API 已被弃用,但为了实现向后兼容性依然包含在新版中。

新发布的结构化流API 主要可用于在不增加复杂性的前提下管理流数据集,借此程序员和现有机器学习算法将可以处理批量加载的数据集。在第二代Tungsten 引擎的帮助下,性能也有所增强,执行速度最高可提升10 倍。

该技术预览版已经发布至 DataBricks

查看英文原文: Apache Spark 2.0 Technical Preview

2016-06-05 19:003932
用户头像

发布了 283 篇内容, 共 117.0 次阅读, 收获喜欢 62 次。

关注

评论

发布
暂无评论
发现更多内容

滴滴前端必会vue面试题汇总

bb_xiaxia1998

Vue 前端

解密领域驱动设计(DDD):搭建强大、灵活的软件架构神器

xfgg

Java 架构 DDD 领域驱动模型

太爆了!阿里最新出品2023版JDK源码学习指南,Github三天已万赞

程序员小毕

程序员 后端 jdk源码 架构师 java面试

Pose泰裤辣! 一键提取姿态生成新图像

华为云开发者联盟

人工智能 AI 华为云 华为云开发者联盟 企业号 5 月 PK 榜

2023 届 36under36 发布,涛思数据 92 年联合创始人侯江燚上榜

爱倒腾的程序员

时序数据库 taosdata

vue组件通信6种方式总结(常问知识点)

bb_xiaxia1998

Vue 前端

使用 NFTScan NFT API 开发一个多链 NFT Marketplace

NFT Research

API NFT\

免费堡垒机选择云堡垒机可以吗?哪家好?

行云管家

堡垒机 云堡垒机 免费堡垒机

阿里大佬耗时半年!肝出了这1015页分布式全栈手册

程序知音

Java 分布式 java架构 Java进阶 后端技术

行云流水| CI 3.0 云原生构建全新上线

CODING DevOps

DevOps 云原生 软件工程 研发效能 持续构建

天翼云CDN全站加速产品对websocket协议的支持

天翼云开发者社区

云计算 CDN

豆浆、油条、肉夹馍......西安银行的挑战开始了

OceanBase 数据库

数据库 oceanbase

企业数字转型加速器!居然是他!该不会还有人没用上吧?

加入高科技仿生人

低代码 数智转型 智能科技

聊聊原生拖拽API

巨梦科技

django Vue

全是技巧!ZBrush雕刻手部教程赶紧收藏!

Finovy Cloud

量化交易系统开发合约策略

薇電13242772558

量化策略

万物可卷!低代码充满想象,能打敢战

引迈信息

低代码 JNPF

亚马逊云是哪个国家的?收费标准贵吗?

行云管家

云计算 云服务 云管理 亚马逊云

开源之夏 2023|欢迎报名 Apache RocketMQ 社区项目!

Apache RocketMQ

RocketMQ 开源之夏

使用数据可视化分析还有多少人在玩梦幻西游

搞大屏的小北

数据可视化 用户画像 梦幻西游 游戏分析

大数据如何助力营销(4)策略制定

MobTech袤博科技

使用MFT进行加密文件传输的7个好处

镭速

使用增强版 singleflight 合并事件推送,效果炸裂!

捉虫大师

golang 性能优化

vue组件通信方式有哪些?

bb_xiaxia1998

Vue 前端

美团前端vue面试题

bb_xiaxia1998

Vue 前端

ChatGPT与深度学习的完美融合:打造智能化推荐系统新时代

GPU算力

靠这份GitHub 标星80K的图解算法,杀进大厂!

程序知音

Java 数据结构 算法 后端技术 算法与数据结构

虚拟化技术 - CPU虚拟化

天翼云开发者社区

cpu 虚拟化

Apache Spark 2.0技术预览版_开源_Alex Giamas_InfoQ精选文章