2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

Apache Spark 2.0 技术预览版

  • 2016-06-05
  • 本文字数:799 字

    阅读完需:约 3 分钟

Apache Spark 第一版发布时隔两年后, Databricks 公布了基于上游分支 2.0.0-preview 的 Apache Spark 2.0 技术预览版。该预览版在稳定性和 API 方面均不适合用于生产环境,主要是为了在正式上市前收集来及社区的反馈。

此次发布的新版主要针对社区反馈进一步完善了各种功能,根据 Spark 的开发计划,主要改进分为两方面。

SQL 是基于 Apache Spark 的应用程序最常用的接口之一。Spark 2.0 可以支持全部的 99 个 TPC-DS 查询,这些查询大部分都基于 SQL:2003 规范。这些改进有助于在对应用程序堆栈进行最少量重写的情况下将现有数据负载移植至 Spark 后端。

第二方面改进主要是编程 API,同时在这个新版中也更重视机器学习。spark.mllib 程序包已经被全新的 spark.ml 程序包所取代,后者更加侧重于基于管线的API,这项技术源自 DataFrames 。机器学习管线和模型现已能够持久保存,Spark 所支持的所有语言均支持这一特性。同时R 已经可以支持K-Means、 Generalized Linear Models(GLM)朴素贝叶斯和Survival Regression。

借助新增的Datasets 类,DataFrames 和Datasets 已实现了统一,可支持Scala 和Java 编程语言,同时也可充当结构流(Structured streaming)的抽象。不支持编译时类型安全(Compile time type safety)的语言暂时还无法做到这一点,此时只能使用DataFrames 作为主要抽象。SQLContext 和HiveContext 已被统一的 SparkSession 所取代。新增的 Accumulator API 具有比基本类型更简单的类型层级,可支持对基本类型进行专门化(Specialization)。老的 API 已被弃用,但为了实现向后兼容性依然包含在新版中。

新发布的结构化流API 主要可用于在不增加复杂性的前提下管理流数据集,借此程序员和现有机器学习算法将可以处理批量加载的数据集。在第二代Tungsten 引擎的帮助下,性能也有所增强,执行速度最高可提升10 倍。

该技术预览版已经发布至 DataBricks

查看英文原文: Apache Spark 2.0 Technical Preview

2016-06-05 19:003896
用户头像

发布了 283 篇内容, 共 115.7 次阅读, 收获喜欢 62 次。

关注

评论

发布
暂无评论
发现更多内容

聊聊我对敏捷项目交付的理解

老张

交付质量 项目交付

java高级用法之:在JNA中将本地方法映射到JAVA代码中

程序那些事

Java Netty 程序那些事 3月月更

AI与开源的碰撞 昇思MindSpore TechDay直播来袭

极客天地

cdr2022新版本号V24.0.0301简体语言新增功能

茶色酒

cdr2022

Apache Flink 在国有大型银行智能运营场景下的应用

Apache Flink

大数据 flink 编程 流计算 实时计算

配置Mountebank环境-mountebank系列(2)

Bruce Talk

技术 敏捷 Agile

面试官:你在项目中用过 多线程 吗?

田维常

面试 java面试

使用云服务器ECS搭建DoH服务的开发实践

阿里云弹性计算

征文投稿 玩转ECS DoH

小程序加入智能家居行业,共创未来美好生活

發財KK

物联网 小程序容器 智慧生活 全屋智能 智能家居生态平台

英特尔X钉钉:以智能协作驱动数字办公发展

科技新消息

OpenMLDB 在线模块架构解析

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征平台

去你的35岁危机|ONES 人物

万事ONES

程序员 ONES

WebAssembly技术_在Web端运行C与C++程序(win10)

DS小龙哥

webassembly 3月月更

Linux之export命令

入门小站

最终信息模式:终结香农极限,语义通信的另类空间

脑极体

关注:车联网的数据安全问题

發財KK

车联网 物联网 数据安全 隐私安全 信息服务

我们如何建立一套无参考视频质量评价体系?

声网

视频 Dev for Dev VQA

5G区块链技术让建水紫陶有了“身份证”

CECBC

元宇宙跟区块链的关系是什么呢?

CECBC

在线Js,JavaScript压缩格式化工具

入门小站

工具

【Zeekr_Tech】TARA攻击树分析方法论

Zeekr_Tech

信息安全 极氪

大数据,不只“懂数”,更要“懂行”

鼎道智联

大数据

3大能力升级,云效+钉钉,让研发协作更「敏捷」

阿里云云效

云计算 阿里云 云原生 钉钉 敏捷研发

数字人民币为全球CBDC监管提供宝贵经验

CECBC

我写的 Python 代码,同事都说好

AlwaysBeta

Python Pythonic

创业圈的哈利波特们注意了!霍格沃兹即将开学,谁是你的魔法导师?

创业邦

电阻电路的等效变换(Ⅰ)

謓泽

3月月更

区块链的支付模式

CECBC

校招项目应该如何准备才能高大上一点

宇宙之一粟

项目 3月月更

前Cisco思科首席工程师、Webex AV1第一人Thomas加入微帧科技!

微帧Visionular

视频编码

在线JSON转YAML工具

入门小站

工具

Apache Spark 2.0技术预览版_开源_Alex Giamas_InfoQ精选文章