写点什么

Apache Spark 2.0 技术预览版

  • 2016-06-05
  • 本文字数:799 字

    阅读完需:约 3 分钟

Apache Spark 第一版发布时隔两年后, Databricks 公布了基于上游分支 2.0.0-preview 的 Apache Spark 2.0 技术预览版。该预览版在稳定性和 API 方面均不适合用于生产环境,主要是为了在正式上市前收集来及社区的反馈。

此次发布的新版主要针对社区反馈进一步完善了各种功能,根据 Spark 的开发计划,主要改进分为两方面。

SQL 是基于 Apache Spark 的应用程序最常用的接口之一。Spark 2.0 可以支持全部的 99 个 TPC-DS 查询,这些查询大部分都基于 SQL:2003 规范。这些改进有助于在对应用程序堆栈进行最少量重写的情况下将现有数据负载移植至 Spark 后端。

第二方面改进主要是编程 API,同时在这个新版中也更重视机器学习。spark.mllib 程序包已经被全新的 spark.ml 程序包所取代,后者更加侧重于基于管线的API,这项技术源自 DataFrames 。机器学习管线和模型现已能够持久保存,Spark 所支持的所有语言均支持这一特性。同时R 已经可以支持K-Means、 Generalized Linear Models(GLM)朴素贝叶斯和Survival Regression。

借助新增的Datasets 类,DataFrames 和Datasets 已实现了统一,可支持Scala 和Java 编程语言,同时也可充当结构流(Structured streaming)的抽象。不支持编译时类型安全(Compile time type safety)的语言暂时还无法做到这一点,此时只能使用DataFrames 作为主要抽象。SQLContext 和HiveContext 已被统一的 SparkSession 所取代。新增的 Accumulator API 具有比基本类型更简单的类型层级,可支持对基本类型进行专门化(Specialization)。老的 API 已被弃用,但为了实现向后兼容性依然包含在新版中。

新发布的结构化流API 主要可用于在不增加复杂性的前提下管理流数据集,借此程序员和现有机器学习算法将可以处理批量加载的数据集。在第二代Tungsten 引擎的帮助下,性能也有所增强,执行速度最高可提升10 倍。

该技术预览版已经发布至 DataBricks

查看英文原文: Apache Spark 2.0 Technical Preview

2016-06-05 19:003921
用户头像

发布了 283 篇内容, 共 116.6 次阅读, 收获喜欢 62 次。

关注

评论

发布
暂无评论
发现更多内容

OpsPilot 智能体:打破工具孤岛、降低人为失误,优化运维流程

嘉为蓝鲸

智能运维 #WeOps OpsPilot

装备制造MES系统解决方案:破解生产痛点,驱动智能制造升级

万界星空科技

制造业 mes 装备修理行业 装备制造 装备mes

选择GPU云服务器供应商的注意事项

Ogcloud

gpu 云服务商 GPU云服务器 GPU云服务器供应商

Boom 3D for Mac:重塑你的听觉盛宴

晨光熹微

Boom 3D Boom 3D for Mac Boom 3D激活版

cinema 4d 2024-c4d中文版激活教程【Mac/win】

Rose

警惕!这3个AI测试用例陷阱,让80%的团队白忙一场...

测试人

人工智能

当AI遇上供应链 第七在线助力精准决策

第七在线

3D建筑建模 Vectorworks2024破解安装教程【Mac&win】

Rose

精彩抢先看 | 博睿数据将受邀出席GOPS全球运维大会2025北京站!

博睿数据

AI技术在图书馆业务中的应用

北京木奇移动技术有限公司

软件外包公司 AI技术应用 图书馆信息化

QT软件外包开发流程

北京木奇移动技术有限公司

软件外包公司 QT软件开发 QT外包公司

构建精细化DevOps权限体系:从数据级管控到全局授权

嘉为蓝鲸

DevOps 智能运维

KOL技术圈 | 下一代智能可观测平台长什么样?来看Bonree ONE的极致演绎!

博睿数据

【重磅】JimuReport 积木报表 v2.0 版本发布,免费可视化报表

JEECG低代码

数据可视化 报表 积木报表 报表工具 积木BI

DVD光盘刻录 Toast Titanium 17 Mac中文注册版

Rose

支持 4K/HDR/杜比视界!nPlayer for Mac

Rose

从OCR到Document Parsing,AI时代的非结构化数据处理发生了什么改变?

合合技术团队

人工智能 算法 #大数据

CST的热仿真THs稳态求解器--针式散热片

思茂信息

cst CST软件 CST Studio Suite

QT软件外包开发中的测试

北京木奇移动技术有限公司

软件外包公司 QT开发公司 QT软件开发

Package Builder for Mac:Mac 软件打包的得力助手

晨光熹微

DeepChat for mac您的桌面AI伙伴

Rose

专业的科学和工程分析软件 WaveMetrics Igor Pro 9 Mac

Rose

BricsCAD 23 for Mac(CAD建模软件)v23.2.07中/英文永久激活版

Rose

企业带宽租赁的优势与应用场景有哪些?

Ogcloud

带宽租用 带宽租赁 大带宽 机房大带宽 大带宽租用

QT软件外包项目的验收

北京木奇移动技术有限公司

软件外包公司 QT开发公司 QT外包公司

BCS 2025|百度副总裁陈洋:智能体在安全领域的应用实践

百度安全

嘉为蓝鲸可观测系列产品入选Gartner《中国智能IT监控与日志分析工具市场指南》

嘉为蓝鲸

Gartner 可观测

嘉为蓝鲸WeOps:集成主流云服务商,自动化证书申请 + 一键部署全流程提速

嘉为蓝鲸

SSL证书 #WeOps 一体化运维

mac吉他原生插件 Ample Sound Ample Guitar M

Rose

TK海外抢单网站源码/前后端分离,前端uniapp,后端php

网站,小程序,APP开发定制

为什么有的企业上了ERP还要上MES?

积木链小链

数字化转型 ERP 智能制造 mes

Apache Spark 2.0技术预览版_开源_Alex Giamas_InfoQ精选文章