写点什么

Mahout 通过可插拔的后端平台 Spark 和 Flink 获取自优化矩阵代数接口

  • 2014-12-16
  • 本文字数:896 字

    阅读完需:约 3 分钟

在柏林最近 GOTO 发布会,Mahout 的提交者 Sebastian Schelter 概述了 Mahout 中的最新进展,即持续努力为数据分析创造一个可扩展的基础,使其如R 或Python 一样易用。

Schelter 所述的主要目标是提供一种简单的基于 DSL(域特定语言)Scala 语言,它类似于 R 语言中的矩阵表示法,但又能提供集群的大矩阵分布式存储和并行计算的可能性。

Schelter 说到,最终的库将无缝地提供对本地和分布式矩阵的使用。Mahout 团队通过设计使得这个库不依赖于特定的平台,相反它有一个可插拔的后端以针对不同的平台。

Schelter 说,目前 Apache Spark (星火)发展最为快速,但是 Apache Flink ,另一个正在孵化的下一代大数据平台,也将在 Mahout 的考虑之中。

这种新结构的一个重要方面是提供不同操作的可能性,比如,基于涉及矩阵的大小来进行潜在的深入优化。根据 Schelter 所说,主要的设计目标是让数据科学家能够编写出可伸缩的代码,而不必过分担心并行的因素。这个演示页给出了结果界面的第一印象。

Apache Mahout 最初是在 Hadoop 之上实现一些机器学习算法的一个项目。它涵盖了分类,聚类,推荐和文档学习模型算法。到目前为止,这些算法是基于Hadoop 和MapReduce 的计算模型,而不是其它更灵活的模型,比如Apache Spark。Apache Spark 已经开始发展自己的机器学习库 mllib ,目前它涵盖的算法要比 Mahout 少,但他们的项目主页声称其算法要比 Mahout 快很多(译者注:这里是说基于 MapReduce 的 Mahout),这些改进是因为将计算移动到内存中以及更好地支持了迭代算法。

Mahout 开始不仅仅依靠 MapReduce,这正是其它各种各样分布式计算替代方法出现的时候。

谷歌自身前段时间已开始探索替代的计算方案,这其中包括 Percolator (咖啡滤壶),它允许谷歌在搜索的数据库上做增量更新,还有 Pregel (普雷格尔),一个专为分布式图形计算建立的系统。Pregel 反过来又导致了象 Apache Giraph 斯坦福大学GPS 的开源项目。

卡内基 - 梅隆大学开发的GraphLab 是可替代另一种工具箱,它提供了各种各样的机器学习算法的分布式实现。

查看英文原文: Mahout to Get Self-Optimizing Matrix Algebra Interface with Pluggable Backends for Spark and Flink

2014-12-16 00:422639

评论

发布
暂无评论
发现更多内容

华为云专家详解GaussDB(for MySQL)新特性

华为云开发者联盟

数据库 云计算 后端 算子

微服务服务稳定性治理

阿泽🧸

微服务治理 7月月更

认识线程

zarmnosaj

7月月更

linux下清理系统缓存并释放内存

入门小站

Linux

毕业总结

流火

实例讲解将Graph Explorer搬上JupyterLab

华为云开发者联盟

人工智能 GES

AirServer2022最新版功能介绍及下载

茶色酒

AirServer AirServer2022

纪念成为首个DAYU200三方demo贡献者

坚果

HarmonyOS OpenHarmony OpenHarmony应用开发 7月月更 harmony

BOOTSTRAP

Jason199

bootstrap 7月月更

云服务器ECS夏日省钱秘籍,这次@老用户快来领走

阿里云弹性计算

阿里云 云服务器ECS

从零开始学 MySQL —数据库和数据表操作

C++后台开发

MySQL 数据库 中间件 后端开发 C++开发

云小课|3种常用Git工作流推荐

华为云开发者联盟

后端 开发 华为云

BlocProvider 为什么感觉和 Provider 很相似?

岛上码农

flutter ios 安卓 移动端开发 7月月更

JavaScript 设计模式之代理模式

devpoint

JavaScript 设计模式 代理模式 7月月更

K临近算法介绍

乌龟哥哥

7月月更

【6.24-7.1】写作社区精彩技术博文回顾

InfoQ写作社区官方

优质创作周报

4. 对象映射 - Mapping.Mapstercover

MASA技术团队

C# .net 微软 框架 Framework

九章云极DataCanvas公司蝉联中国机器学习平台市场TOP 3

九章云极DataCanvas

Windows11 ARM版本安装Python环境

IT蜗壳-Tango

IT蜗壳教学 7月月更

精耕渠道共谋发展 福昕携手伟仕佳杰开展新产品培训大会

联营汇聚

混沌工程平台 ChaosBlade-Box 新版重磅发布

阿里巴巴云原生

阿里云 分布式 云原生 混沌工程

【直播回顾】战码先锋首期8节直播完美落幕,下期敬请期待!

OpenHarmony开发者

Open Harmony

vue-axios(三)

小恺

7月月更

使用环信提供的uni-app Demo,快速实现一对一单聊

环信

即时通讯 uni-app集成 环信im

如何使用物联网低代码平台进行个人设置?

AIRIOT

低代码 物联网 低代码,项目开发

透过华为军团看科技之变(六):智慧公路

脑极体

毕业季 | 华为专家亲授面试秘诀:如何拿到大厂高薪offer?

华为云开发者联盟

面试 工作 offer 大厂 毕业

架构师毕业总结

凯博无线

若干互联网暴露面的收敛及处置建议

穿过生命散发芬芳

7月月更 互联网暴露

一个实习生的CnosDB之旅

CnosDB

IoT 时序数据库 开源社区 CnosDB infra

宝,运维100+服务器很头疼怎么办?用行云管家!

行云管家

云计算 运维 服务器 云管

Mahout通过可插拔的后端平台Spark和Flink获取自优化矩阵代数接口_开源_Mikio Braun_InfoQ精选文章