【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

微软发布 .Net for Apache Spark :用什么语言开发大数据都可以

  • 2019-04-29
  • 本文字数:2100 字

    阅读完需:约 7 分钟

微软发布 .Net for Apache Spark :用什么语言开发大数据都可以

导读: Apache Spark 是当今最流行的开源大数据处理框架。Spark 用于进行分布式、大规模的数据处理,提供了更高级的编程接口、更高的性能。除此之外,Spark 不仅能进行常规的批处理计算,还提供了流式计算支持。而 .NET 是由 Microsoft 开发的一种致力于敏捷开发、快速应用开发、平台无关性和网络透明化的开发平台。长久以来,.NET 开发人员无法用他们已有的知识来使用 Apache Spark,但这样尴尬的局面就要终结了。Microsoft 4 月 29 日发布了 .NET for Apache Spark 预览版。从此以后,无论你用什么语言,都可以进行数据分析了!



4 月 24 日,在 Spark+AI 峰会 上,我们很高兴地宣布推出 .NET for Apache Spark。Spark 是一种流行的开源分布式处理引擎,用于分析大型数据集。Spark 可用于处理批量数据、实时流、机器学习和即席查询(ad-hoc query)。


.NET for Apache Spark 旨在使 .NET 开发人员可以跨所有 Spark API 来访问 Apache® Spark™。到目前为止,Spark 已经可以通过 Scala、Java、Python 和 R 来访问,但尚不能通过 .NET 来访问。


我们计划在 open(作为 .NET Foundation 成员项目)中为 Apache Spark 开发 .NET,同时与 Spark 和 .NET 社区一起开发,以确保开发人员能够在这两方面都做得很好。


本文将阐述关于以下主题的更多细节:


什么是 .NET for Apache Spark?

.NET for Apache Spark 提供了高性能 API,用于使用 C# 和 F# 中的 Spark。通过这个 .NET API,开放人员可以访问 Apache Spark 的所有方面,包括 Spark SQL、DataFrame、Streaming、MLLib 等。.NET for Apache Spark 允许 .NET 开发人员重用已有的所有知识、技能、代码和库。


绑定到 Spark 的 C#/F# 语言将被编写到一个新的 Spark 互操作层上,该层提供了更容易的可扩展性。这一新的 Spark 互操作层的编写,考虑到了语言扩展的最佳实践,并针对互操作性和性能进行了优化。从长期来看,这种可扩展性可用于在 Spark 中增加对其他语言的支持。


你可以通过访问这个 提案 来了解更多关于这项工作的细节。



.NET for Apache Spark 与 .NET Standard 2.0 兼容,可以在 Linux、macOS 和 Windows 系统上使用,就像 .NET 的其余部分一样。.NET for Apache Spark 在 Azure HDInsight 中默认可用,并且可以安装在 Azure Databricks 等软件中。

.NET for Apache Spark 入门

在开始使用。NET for Apache Spark 之前,需要安装一些东西。按照 以下步骤 开始使用 .NET for Apache Spark


设置完成之后,我们可以通过三个简单的步骤在 .NET 中开始编写 Spark 应用。


在我们的第一个 .NET Spark 应用中,我们将编写一个基本的 Spark 管道,用于计算文本段中每个单词的出现次数。


// 1. Create a Spark sessionvar spark = SparkSession    .Builder()    .AppName("word_count_sample")    .GetOrCreate(); // 2. Create a DataFrameDataFrame dataFrame = spark.Read().Text("input.txt"); // 3. Manipulate and view datavar words = dataFrame.Select(Split(dataFrame["value"], " ").Alias("words")); words.Select(Explode(words["words"])    .Alias("word"))    .GroupBy("word")    .Count()    .Show();
复制代码

.NET for Apache Spark 性能

我们很高兴地宣布,.NET fro Apache Spark 的第一个预览版本在流行的 TPC-H 基准 测试中表现良好。TPC-H 基准由一组面向业务的查询组成。下图展示了 .NET Core 与 Python、Scale 在 TPC-H 查询集上的性能对比。



上图显示了 .NET for Apache Spark 与 Python 和 Scala 的每个查询性能对比。.NET for Apache Spark 对阵 Python 和 Scale 时表现出色。此外,在 UDF 性能至关重要的情况下,例如查询 1,其中在用于 Apache Spark 的 JVM 和 CLR 之间传递 3B 行的非字符串数据,就其传递速度而言,.NET 要比 Python 快上 2 倍。


同样重要的是,这是我们为 Apache Spark 开发的第一个 .NET 预览版,我们的目标是进一步致力于改进和基准测试性能(如 Arrow 优化)。你可以按照我们的说明在 Github repo 上对其进行基准测试。

.NET For Apache Spark 的下一步

今天 .NET for Apache Spark 的发布,是我们征途的第一步。以下是我们近期路线图的一些功能,请关注我们的 GitHub repo完整路线图


  • 简化入门体验、文档与示例。

  • 与 Visual Studio、Visual Studio Code、Jupyter notebooks 等开发工具进行原生整合。

  • .NET 支持用户定义的聚合函数。

  • 用于 C# 和 F# 的 .NET 惯用 API(如,使用 LINQ 编写查询)。

  • 对 Azure Databricks、Kubernetes 等开箱即用的支持。

  • 将 .NET for Apache Spark 作为 Spark Core 的部分。你可以访问此 网址 跟踪进程。

结语

.NET for Apach Spark 是我们将 .NET 打造成构建大数据应用程序的重要技术堆栈的第一步。


我们需要你的帮助来为 .NET for Apache Spark 塑造未来。我们期待你使用 .NET for Apache Spark 进行构建。你可以通过我们的 GitHub repo,向我们伸出援助之手。


https://github.com/dotnet/spark




原文链接:


https://devblogs.microsoft.com/dotnet/introducing-net-for-apache-spark/


2019-04-29 15:585773
用户头像

发布了 368 篇内容, 共 170.3 次阅读, 收获喜欢 939 次。

关注

评论 1 条评论

发布
用户头像
Make Microsoft Great Again !
2019-04-30 09:41
回复
没有更多了
发现更多内容

chatglm2-6b模型在9n-triton中部署并集成至langchain实践 | 京东云技术团队

京东科技开发者

人工智能 #LangChain langchain 企业号 8 月 PK 榜 ChatGLM2-6B

电商小程序微服务架构

艾瑾行

架构训练营

前端合成海报并保存到本地

南城FE

JavaScript 小程序 前端 图片合成

MAMP Pro for Mac:打造本地开发和测试环境,轻松搭建网站

晴雯哥

数仓备份经验分享丨详解roach备份原理及问题处理套路

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

大容量文件传输的高速传输协议解决方案评估与比较

镭速

大文件传输 大容量文件传输

生成式AI:2023产业机遇与落地场景探索

百度开发者中心

人工智能 百度文心一言

如何用树莓派Pico针对IoT编程?

高端章鱼哥

树莓派 物联网 树莓派 Pico MCU

晋级名单公布!“域见杯”复赛今日火热开启

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 8 月 PK 榜

关于跨国文件传输需要了解的5点

镭速

跨国文件传输

08.25北京站|阿里云Serverless 技术实践营( AI 专场)开放报名

Serverless Devs

阿里云 Serverless 云原生

OTP令牌是什么?有什么作用?是怎么实现的?

行云管家

运维 堡垒机 双因子认证 OTP令牌

你可以信任由编译器优化的代码吗?

互联网工科生

编译器 simd 数据流

融入数据浪潮,KaiwuDB 期待与您共赴 DTCC 2023

KaiwuDB

KaiwuDB DTCC2023

AI 自动开发软件并部署到云服务器,DevOpsGPT实现从自然语言需求到可运行的软件!

booboosui

AI Codec AI开发软件 ChatGPT

2023中国高校计算机大赛热度再刷新:2100+参赛队伍,获超480所国内知名高校关注!

云智慧AIOps社区

编程 算法 模型 中国大学生计算机设计大赛 计算机大赛

mac端矢量图编辑器 Boxy SVG 免激活

mac大玩家j

Mac 软件推荐 Mac软件

生成式AI技术发展趋势报告

百度开发者中心

人工智能 百度文心一言

透彻理解 Axios Blob 的使用与优化

Apifox

性能优化 后端 HTTP API web开发

开源XL-LightHouse与Flink、ClickHouse之类技术相比有什么优势

feng

大数据 flink Clickhouse 流式计算 流式统计

Parallels Desktop 18 for Mac(Pd虚拟机) 18.3.2激活版

mac

Parallels Desktop 18 pd 18 pd虚拟机 苹果mac Windows软件

RPA+智能问答实现微信端智能客服 | 京东云技术团队

京东科技开发者

微信 RPA 智能客服 企业号 8 月 PK 榜

深入理解 Flutter 图片加载原理 | 京东云技术团队

京东科技开发者

flutter 移动开发 图片懒加载 企业号 8 月 PK 榜

加密传输,保护Mac电脑的文件安全—SecureFX for Mac

晴雯哥

LED小间距屏幕的COB封装技术应用和优势

Dylan

技术 封装 PCB LED显示屏

ARM64是什么意思?与x86有什么区别?

行云管家

arm64

食品包装MES系统解决方案

万界星空科技

MES系统

构建DAO,你需要了解的关键要素

这我可不懂

智能合约 数字化 DAO

函数性能探测:更简单高效的 Serverless 规格选型方案

阿里巴巴云原生

阿里云 Serverless 云原生

利用CI机制管控jar依赖树 | 京东云技术团队

京东科技开发者

ci CI/CD jar包 企业号 8 月 PK 榜

快手光合大会公开全模态大模型AIGC解决方案 人机协同助力创作全流程提效

Geek老T

AI 短视频

微软发布 .Net for Apache Spark :用什么语言开发大数据都可以_大数据_Ankit Asthana_InfoQ精选文章