写点什么

Apache Spark 2.0 技术预览版

  • 2016-06-05
  • 本文字数:799 字

    阅读完需:约 3 分钟

Apache Spark 第一版发布时隔两年后, Databricks 公布了基于上游分支 2.0.0-preview 的 Apache Spark 2.0 技术预览版。该预览版在稳定性和 API 方面均不适合用于生产环境,主要是为了在正式上市前收集来及社区的反馈。

此次发布的新版主要针对社区反馈进一步完善了各种功能,根据 Spark 的开发计划,主要改进分为两方面。

SQL 是基于 Apache Spark 的应用程序最常用的接口之一。Spark 2.0 可以支持全部的 99 个 TPC-DS 查询,这些查询大部分都基于 SQL:2003 规范。这些改进有助于在对应用程序堆栈进行最少量重写的情况下将现有数据负载移植至 Spark 后端。

第二方面改进主要是编程 API,同时在这个新版中也更重视机器学习。spark.mllib 程序包已经被全新的 spark.ml 程序包所取代,后者更加侧重于基于管线的API,这项技术源自 DataFrames 。机器学习管线和模型现已能够持久保存,Spark 所支持的所有语言均支持这一特性。同时R 已经可以支持K-Means、 Generalized Linear Models(GLM)朴素贝叶斯和Survival Regression。

借助新增的Datasets 类,DataFrames 和Datasets 已实现了统一,可支持Scala 和Java 编程语言,同时也可充当结构流(Structured streaming)的抽象。不支持编译时类型安全(Compile time type safety)的语言暂时还无法做到这一点,此时只能使用DataFrames 作为主要抽象。SQLContext 和HiveContext 已被统一的 SparkSession 所取代。新增的 Accumulator API 具有比基本类型更简单的类型层级,可支持对基本类型进行专门化(Specialization)。老的 API 已被弃用,但为了实现向后兼容性依然包含在新版中。

新发布的结构化流API 主要可用于在不增加复杂性的前提下管理流数据集,借此程序员和现有机器学习算法将可以处理批量加载的数据集。在第二代Tungsten 引擎的帮助下,性能也有所增强,执行速度最高可提升10 倍。

该技术预览版已经发布至 DataBricks

查看英文原文: Apache Spark 2.0 Technical Preview

2016-06-05 19:004153
用户头像

发布了 283 篇内容, 共 124.5 次阅读, 收获喜欢 63 次。

关注

评论

发布
暂无评论
发现更多内容

全球案例 | 一家有着百年历史的航空公司如何扩展和转型,推动航空业创新

龙智—DevSecOps解决方案

Atlassian Jira 航空公司

一手实录!朱广权的AI手语搭档是怎样“养成”的?

百度开发者中心

百度智能云 百度AI

【架构训练营模块二作业】分析一下微信朋友圈的高性能复杂度

yhjhero

#架构训练营

关于 docker-compose stop 和 docker-compose start 的误解

liuzhen007

容器 云服务 2月月更

区块链+体育发展提速 区块链球员数据系统预计上半年投入使用

CECBC

Kotlin语法手册(一)

寻找生命中的美好

android kotin

Linux系统编程-(pthread)线程通信(信号量)

DS小龙哥

信号量 2月月更

Apache APISIX 存在改写 X-REAL-IP header 的风险公告(CVE-2022-24112)

API7.ai 技术团队

IP 漏洞 Apache APISIX APISIX 网关

玉米可流转数字仓单标准的落地 将加速行业的资产数字化进程

CECBC

浅谈AI机器学习及实践总结 | 社区征文

张浩_house

机器学习 数据工程 机器学习算法 新春征文

阿里云张献涛:自主最强DPU神龙的秘诀

阿里云弹性计算

阿里云 神龙架构 DPU

基于 Kyma 的企业级云原生应用的扩展案例分享 | 社区征文

汪子熙

Kubernetes 云原生 新春征文 2月月更 Kyma

电商直播选品该怎么做?有没有好用的工具?

优秀

带货 直播 低代码开发

DC系列靶机知识点总结

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 安全漏洞

如何将Perforce Helix Core与CI构建服务器结合使用

龙智—DevSecOps解决方案

ci 持续集成 持续交付 CD

实战领域驱动设计开篇

worry

领域驱动设计 DDD 领域驱动 Domain Driven Design

网络安全kali渗透学习 web渗透入门 如何进行基于ping命令的探测

学神来啦

基于云开发的健身房预约小程序平台

CC同学

Web Components 系列(五)—— 关于 Templates

编程三昧

前端 组件化 2月月更

浅析PHP伪协议在CTF的应用

喀拉峻

网络安全

区块链通证经济:通往未来十年财富分配的新格局

CECBC

Linux系统编程-Shell脚本基本使用(变量、运算符、语句等)

DS小龙哥

shell脚本编写 2月月更

模块八作业

Geek_e6f7f6

架构实战营

在线ASCII Banner艺术字生成工具

入门小站

工具

加入科学计算SIG,挑战最前沿的AI+Science研发与创新

百度开发者中心

百度AI

裁员,降薪,大牛出走:AI大退却的始末缘由

脑极体

RTE2021 回顾丨实践中的摸爬滚打,AI OPS 落地之路

RTE开发者社区

人工智能 算法 Ops

Linux系统编程-(pthread)线程通信(自旋锁)

DS小龙哥

自旋锁 2月月更

AI+Science:基于飞桨的AlphaFold2,带你入门蛋白质结构预测

百度开发者中心

百度AI

欧拉的奇异之旅·风暴来临与欧拉初诞

脑极体

第十节:SpringBoot中的日志管理

入门小站

spring-boot

Apache Spark 2.0技术预览版_开源_Alex Giamas_InfoQ精选文章