写点什么

Apache Spark 2.0 技术预览版

  • 2016-06-05
  • 本文字数:799 字

    阅读完需:约 3 分钟

Apache Spark 第一版发布时隔两年后, Databricks 公布了基于上游分支 2.0.0-preview 的 Apache Spark 2.0 技术预览版。该预览版在稳定性和 API 方面均不适合用于生产环境,主要是为了在正式上市前收集来及社区的反馈。

此次发布的新版主要针对社区反馈进一步完善了各种功能,根据 Spark 的开发计划,主要改进分为两方面。

SQL 是基于 Apache Spark 的应用程序最常用的接口之一。Spark 2.0 可以支持全部的 99 个 TPC-DS 查询,这些查询大部分都基于 SQL:2003 规范。这些改进有助于在对应用程序堆栈进行最少量重写的情况下将现有数据负载移植至 Spark 后端。

第二方面改进主要是编程 API,同时在这个新版中也更重视机器学习。spark.mllib 程序包已经被全新的 spark.ml 程序包所取代,后者更加侧重于基于管线的API,这项技术源自 DataFrames 。机器学习管线和模型现已能够持久保存,Spark 所支持的所有语言均支持这一特性。同时R 已经可以支持K-Means、 Generalized Linear Models(GLM)朴素贝叶斯和Survival Regression。

借助新增的Datasets 类,DataFrames 和Datasets 已实现了统一,可支持Scala 和Java 编程语言,同时也可充当结构流(Structured streaming)的抽象。不支持编译时类型安全(Compile time type safety)的语言暂时还无法做到这一点,此时只能使用DataFrames 作为主要抽象。SQLContext 和HiveContext 已被统一的 SparkSession 所取代。新增的 Accumulator API 具有比基本类型更简单的类型层级,可支持对基本类型进行专门化(Specialization)。老的 API 已被弃用,但为了实现向后兼容性依然包含在新版中。

新发布的结构化流API 主要可用于在不增加复杂性的前提下管理流数据集,借此程序员和现有机器学习算法将可以处理批量加载的数据集。在第二代Tungsten 引擎的帮助下,性能也有所增强,执行速度最高可提升10 倍。

该技术预览版已经发布至 DataBricks

查看英文原文: Apache Spark 2.0 Technical Preview

2016-06-05 19:004134
用户头像

发布了 283 篇内容, 共 124.0 次阅读, 收获喜欢 63 次。

关注

评论

发布
暂无评论
发现更多内容

DeepSeek Function Calling调用实践

AI时代的一滴水

Python LLM模型 Function Calling DeepSeek v3

哈尔滨等保:保护企业终端数据

黑龙江陆陆信息测评部

没有专业IT团队?灯塔低代码平台让中小企业自己当"开发者"

中烟创新

如何使用通义灵码辅助开发微信小游戏

阿里巴巴云原生

《Operating System Concepts》阅读笔记:p667-p699

codists

操作系统

与AI深度融合的Go开发框架sponge,解决使用cursor、trae等AI辅助编程工具开发项目时的部分痛点

vison

golang 代码生成 AI助手

JVM 调优不再难:AI 工具自动生成内存优化方案

飞算JavaAI开发助手

如何使用通义灵码辅助开发微信小游戏

阿里云云效

无感改造,完美监控:Docker 多阶段构建 Go 应用无侵入观测

阿里巴巴云原生

golang 阿里云 云原生

【活动预告】4.19 相约上海,详解数据库与 AI 的理念融合

Apache IoTDB

如何高效使用 Text to SQL 提升数据分析效率?四个关键应用场景解析

镜舟科技

数据湖 数据分析 分析型数据库 StarRocks Text to SQL

KWDB 开源社区走进重庆大学

KaiwuDB

数据库 kwdb数据库 校园行

Flutter 与 uni-app 的深度对比:鸿蒙开发的最佳选择竟是原生开发

坚果

鸿蒙 HarmonyOS

直播预告 | KWDB 数据库安装使用快速上手

KaiwuDB

数据库 直播

Kube-Proxy 可观测性最佳实践

观测云

Kubernetes

Spring Boot整合难点?AI一键生成全流程解决方案

飞算JavaAI开发助手

利用代理 IP 突破反爬限制,实现跨境电商数据高效爬取

Yan-英杰

Python 爬虫 爬虫实战

从开发者视角解读 Google Cloud Next 25

RTE开发者社区

电商系统开发:基于飞算JavaAI的分布式事务解决方案自动化实践

飞算JavaAI开发助手

AI智上 | 财务数智化乘风启航,企业转型建设正当时!

用友智能财务

AI 财务 数智化

阿里云 MSE Nacos 发布全新“安全防护”模块,简化安全配置,提升数据保护

阿里巴巴云原生

阿里云 云原生 nacos MSE

Apache Spark 2.0技术预览版_开源_Alex Giamas_InfoQ精选文章