生成式AI领域的最新成果都在这里!抢 QCon 展区门票 了解详情
写点什么

Apache Spark 2.0 技术预览版

  • 2016-06-05
  • 本文字数:799 字

    阅读完需:约 3 分钟

Apache Spark 第一版发布时隔两年后, Databricks 公布了基于上游分支 2.0.0-preview 的 Apache Spark 2.0 技术预览版。该预览版在稳定性和 API 方面均不适合用于生产环境,主要是为了在正式上市前收集来及社区的反馈。

此次发布的新版主要针对社区反馈进一步完善了各种功能,根据 Spark 的开发计划,主要改进分为两方面。

SQL 是基于 Apache Spark 的应用程序最常用的接口之一。Spark 2.0 可以支持全部的 99 个 TPC-DS 查询,这些查询大部分都基于 SQL:2003 规范。这些改进有助于在对应用程序堆栈进行最少量重写的情况下将现有数据负载移植至 Spark 后端。

第二方面改进主要是编程 API,同时在这个新版中也更重视机器学习。spark.mllib 程序包已经被全新的 spark.ml 程序包所取代,后者更加侧重于基于管线的API,这项技术源自 DataFrames 。机器学习管线和模型现已能够持久保存,Spark 所支持的所有语言均支持这一特性。同时R 已经可以支持K-Means、 Generalized Linear Models(GLM)朴素贝叶斯和Survival Regression。

借助新增的Datasets 类,DataFrames 和Datasets 已实现了统一,可支持Scala 和Java 编程语言,同时也可充当结构流(Structured streaming)的抽象。不支持编译时类型安全(Compile time type safety)的语言暂时还无法做到这一点,此时只能使用DataFrames 作为主要抽象。SQLContext 和HiveContext 已被统一的 SparkSession 所取代。新增的 Accumulator API 具有比基本类型更简单的类型层级,可支持对基本类型进行专门化(Specialization)。老的 API 已被弃用,但为了实现向后兼容性依然包含在新版中。

新发布的结构化流API 主要可用于在不增加复杂性的前提下管理流数据集,借此程序员和现有机器学习算法将可以处理批量加载的数据集。在第二代Tungsten 引擎的帮助下,性能也有所增强,执行速度最高可提升10 倍。

该技术预览版已经发布至 DataBricks

查看英文原文: Apache Spark 2.0 Technical Preview

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2016-06-05 19:003527
用户头像

发布了 283 篇内容, 共 101.9 次阅读, 收获喜欢 61 次。

关注

评论

发布
暂无评论
发现更多内容

一文读懂 | Getaverse 节点部署

Geek_Web3

Oracle数据库安装配置详细教程汇总(含11g、12c、18c、19c、21c)

墨天轮

数据库 oracle 升级 安装 & 部署

不止稳定快速,看华为云CDN如何在国际云服务市场中“分蛋糕”

爱科技的水月

华为云CDN加速,为企业开启高效且安全的加速环境

科技说

华为云CDN加速,如何助力企业更好发展?

爱科技的水月

泰山众筹4.0合约系统开发技术

薇電13242772558

智能合约

OneAccess | 面对庞大复杂的身份和权限管理,企业该怎么办?

爱尚科技

软件测试 | 掌握高频 Docker 命令,夯实内功基础

测试人

Docker 软件测试 自动化测试 测试开发 环境搭建

数据存储服务的百宝箱——华为云对象存储服务OBS

IT科技苏辞

“上云”成本低,稳定可靠!华为云OBS助力企业解决数据存储难题

与时俱进的时代

ModStart交给您的开源年终总结

ModStart

数据存储安全责任重于泰山,看华为云对象存储服务OBS如何大展身手

IT科技苏辞

华为云CDN加速服务的精细化管理,让加速变得简单起来

科技说

企业数据如何存?华为云对象存储服务OBS帮您忙

IT科技苏辞

不止于快,华为云CDN加速服务对OBS桶文件加速的超实用技巧

爱科技的水月

华为云CSE 关键特性,支持托管Nacos注册配置中心

与时俱进的时代

探讨丨SaaS软件是否正在“毁掉”数字化转型企业?

优秀

数字化转型

开个脑洞,带你写一个自己的极狐GitLab CI Runner

极狐GitLab

DevOps 持续集成 CI/CD runner 极狐GitLab

存储空间不够大?试试华为云OBS对象存储服务

与时俱进的时代

“数字·进化”——2022数字化发展峰会圆满落幕

创业邦

Vertically Federated Graph Neural Network for Privacy-Preserving Node Classification

1+1=王

联邦学习 Fl 图神经网络 GNN 节点分类

2022年11月视频行业用户洞察:世界杯效应显著,咪咕视频凭借大屏、小屏同时触达球迷群体,未来体育营销将更加激烈

易观分析

视频 世界杯

正式毕业!Apache Kyuubi 成为 Apache 基金会顶级项目!

网易数帆

大数据 spark 开源 Apache Kyuubi

数据存储难?华为云对象存储OBS轻松解决

IT科技苏辞

软件测试 / 测试开发 / BAT大厂都在用的Docker。学会这三招,面试、工作轻松hold住

测试人

Docker 容器 软件测试 测试开发 环境搭建

数据存储的全能侠——华为云对象存储服务OBS

IT科技苏辞

不止于快,华为云CDN加速服务为企业提供安全加速环境

科技说

华为云CDN:海量存储+过硬本领为用户带来更优体验

科技说

极狐GitLab include 语法减少 CI/CD Pipeline 代码冗余,提升构建效率

极狐GitLab

DevOps CI/CD pipeline 极狐GitLab include

华为云CDN,如何助力智能新媒体转型

科技说

【电商行业必备神器】轻松备战“双十一”,华为云OBS值得拥有

与时俱进的时代

Apache Spark 2.0技术预览版_开源_Alex Giamas_InfoQ精选文章