写点什么

Apache Spark 2.0 技术预览版

  • 2016-06-05
  • 本文字数:799 字

    阅读完需:约 3 分钟

Apache Spark 第一版发布时隔两年后, Databricks 公布了基于上游分支 2.0.0-preview 的 Apache Spark 2.0 技术预览版。该预览版在稳定性和 API 方面均不适合用于生产环境,主要是为了在正式上市前收集来及社区的反馈。

此次发布的新版主要针对社区反馈进一步完善了各种功能,根据 Spark 的开发计划,主要改进分为两方面。

SQL 是基于 Apache Spark 的应用程序最常用的接口之一。Spark 2.0 可以支持全部的 99 个 TPC-DS 查询,这些查询大部分都基于 SQL:2003 规范。这些改进有助于在对应用程序堆栈进行最少量重写的情况下将现有数据负载移植至 Spark 后端。

第二方面改进主要是编程 API,同时在这个新版中也更重视机器学习。spark.mllib 程序包已经被全新的 spark.ml 程序包所取代,后者更加侧重于基于管线的API,这项技术源自 DataFrames 。机器学习管线和模型现已能够持久保存,Spark 所支持的所有语言均支持这一特性。同时R 已经可以支持K-Means、 Generalized Linear Models(GLM)朴素贝叶斯和Survival Regression。

借助新增的Datasets 类,DataFrames 和Datasets 已实现了统一,可支持Scala 和Java 编程语言,同时也可充当结构流(Structured streaming)的抽象。不支持编译时类型安全(Compile time type safety)的语言暂时还无法做到这一点,此时只能使用DataFrames 作为主要抽象。SQLContext 和HiveContext 已被统一的 SparkSession 所取代。新增的 Accumulator API 具有比基本类型更简单的类型层级,可支持对基本类型进行专门化(Specialization)。老的 API 已被弃用,但为了实现向后兼容性依然包含在新版中。

新发布的结构化流API 主要可用于在不增加复杂性的前提下管理流数据集,借此程序员和现有机器学习算法将可以处理批量加载的数据集。在第二代Tungsten 引擎的帮助下,性能也有所增强,执行速度最高可提升10 倍。

该技术预览版已经发布至 DataBricks

查看英文原文: Apache Spark 2.0 Technical Preview

2016-06-05 19:004110
用户头像

发布了 283 篇内容, 共 123.1 次阅读, 收获喜欢 63 次。

关注

评论

发布
暂无评论
发现更多内容

零售业海量场景下 ToC 系统的数据库选型和迁移实践

TiDB 社区干货传送门

实践案例

TiDB 在全球头部物流企业计费管理系统的应用实践

TiDB 社区干货传送门

实践案例

质量管理QMS系统实施的好处是什么?

万界星空科技

质量管理 万界星空科技 QMS 质量管理QMS系统 生产质量管理

签约勃肯BIRKENSTOCK 第七在线助力智能商品数字化管理

第七在线

京东物流基于 StarRocks 的数据分析平台建设

StarRocks

数据仓库 StarRocks 数据分析平台

项目认证体系全览:PMP、CMMI、ISTQB、CSTQB解读

测吧(北京)科技有限公司

测试

关于如何优化TiDB中的写热点问题

TiDB 社区干货传送门

实践案例 7.x 实践

使用无代码/低代码平台进行开发的 5 大挑战

NocoBase

开源 低代码 低代码开发 无代码 无代码平台

打造工业4.0的5G+边缘云服务产业生态,艾灵完成1.5亿元A轮融资

极客天地

MES和QMS怎么选?

万界星空科技

mes 万界星空科技 QMS 质量管理QMS系统 生产管理

WMS仓储管理系统的作用是什么?

万界星空科技

wms WMS仓库管理 万界星空科技 扫码出入库管理

【教程】Objective-C 性能监控

TiDB 事务心跳超时机制测试

TiDB 社区干货传送门

故障排查/诊断

PingCAP 故事|势高,则围广:TiDB 的架构演进哲学

TiDB 社区干货传送门

构建 Streaming Lakehouse:使用 Paimon 和 Hudi 的性能对比

Apache Flink

大数据 flink 实时计算

喜讯!云起无垠上榜《CCSIP 2023中国网络安全行业全景册(第六版)》

云起无垠

祝福加载中,签收你的新年好“饰”! 老庙与你共启“富余年”

科技大数据

融云连续多年展现统治力,「IM 一哥」的通关密码

融云 RongCloud

一文看懂华为云IoT第三方物联网业务无感迁移方案

华为云开发者联盟

后端 物联网 华为云 华为云IoT 华为云开发者联盟

IPQ6010 and QCN9074: innovative WiFi partnership to create the ultimate network experience

wallysSK

从 20 多套 MySQL 到 1 套 TiDB丨骏伯网络综合运营管理平台应用实践

TiDB 社区干货传送门

实践案例

为什么说TiDB在线扩容对业务几乎没有影响

TiDB 社区干货传送门

TiDB 底层架构 数据库架构选型 TiKV 底层架构

用 Footprint 的交易类型标签揭秘链上交易

Footprint Analytics

区块链 加密货币

【服务器搭建】快速完成幻兽帕鲁服务器的搭建及部署【零基础上手】

恬静的小魔龙

服务器 幻兽帕鲁

开发者的口碑之选!融云获 CSDN、InfoQ 年度开发者影响力&技术生态构建奖

融云 RongCloud

项目复盘之道:Review制度与关键内容深度解析

测吧(北京)科技有限公司

测试

Apache Spark 2.0技术预览版_开源_Alex Giamas_InfoQ精选文章