写点什么

Mahout 通过可插拔的后端平台 Spark 和 Flink 获取自优化矩阵代数接口

  • 2014-12-16
  • 本文字数:896 字

    阅读完需:约 3 分钟

在柏林最近 GOTO 发布会,Mahout 的提交者 Sebastian Schelter 概述了 Mahout 中的最新进展,即持续努力为数据分析创造一个可扩展的基础,使其如R 或Python 一样易用。

Schelter 所述的主要目标是提供一种简单的基于 DSL(域特定语言)Scala 语言,它类似于 R 语言中的矩阵表示法,但又能提供集群的大矩阵分布式存储和并行计算的可能性。

Schelter 说到,最终的库将无缝地提供对本地和分布式矩阵的使用。Mahout 团队通过设计使得这个库不依赖于特定的平台,相反它有一个可插拔的后端以针对不同的平台。

Schelter 说,目前 Apache Spark (星火)发展最为快速,但是 Apache Flink ,另一个正在孵化的下一代大数据平台,也将在 Mahout 的考虑之中。

这种新结构的一个重要方面是提供不同操作的可能性,比如,基于涉及矩阵的大小来进行潜在的深入优化。根据 Schelter 所说,主要的设计目标是让数据科学家能够编写出可伸缩的代码,而不必过分担心并行的因素。这个演示页给出了结果界面的第一印象。

Apache Mahout 最初是在 Hadoop 之上实现一些机器学习算法的一个项目。它涵盖了分类,聚类,推荐和文档学习模型算法。到目前为止,这些算法是基于Hadoop 和MapReduce 的计算模型,而不是其它更灵活的模型,比如Apache Spark。Apache Spark 已经开始发展自己的机器学习库 mllib ,目前它涵盖的算法要比 Mahout 少,但他们的项目主页声称其算法要比 Mahout 快很多(译者注:这里是说基于 MapReduce 的 Mahout),这些改进是因为将计算移动到内存中以及更好地支持了迭代算法。

Mahout 开始不仅仅依靠 MapReduce,这正是其它各种各样分布式计算替代方法出现的时候。

谷歌自身前段时间已开始探索替代的计算方案,这其中包括 Percolator (咖啡滤壶),它允许谷歌在搜索的数据库上做增量更新,还有 Pregel (普雷格尔),一个专为分布式图形计算建立的系统。Pregel 反过来又导致了象 Apache Giraph 斯坦福大学GPS 的开源项目。

卡内基 - 梅隆大学开发的GraphLab 是可替代另一种工具箱,它提供了各种各样的机器学习算法的分布式实现。

查看英文原文: Mahout to Get Self-Optimizing Matrix Algebra Interface with Pluggable Backends for Spark and Flink

2014-12-16 00:422543

评论

发布
暂无评论
发现更多内容

架构实战营:模块六业

刘璐

毕业总结:

Anlumina

#架构实战营

Vuex在TSX中的改造方案:TS改造Vue2项目Vuex如何处置?

zhoulujun

Vue3 vue2 tsx vuex-class vuex-module-decorators

kratos 微服务框架商城实战初识 kratos

Aliliin

Go Kratos

模块六

Geek_28cf33

模块6作业:电商系统微服务拆分

炎彬

「架构实战营」

Orbiton JS:用于构建 UI 的 JavaScript 库

devpoint

JavaScript 3月月更 Orbiton JS

电商系统微服务拆分

风中奇缘

#架构实战营 「架构实战营」

毕业设计

Anlumina

「架构实战营」

模块六作业

Mr小公熊

到底为什么不建议使用SELECT *?

蝉沐风

MySQL

PHP session反序列化漏洞原理解析

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

作业六

Geek_f3e842

架构实战营

在线HTTP/HTTPS协议GET,POST,RESTful接口测试

入门小站

工具

在线HTML美化格式化工具

入门小站

工具

我的前端技术思考

PingCode研发中心

架构 Worktile angular dialog PingCode

电商系统的微服务拆分方案设计

五月雨

架构实战营 「架构实战营」

KCP协议:从TCP到UDP家族QUIC/KCP/ENET

zhoulujun

网络加速 KCP 游戏加速 quick 带宽优化

如何保持知识与技能的先进性

长沙造纸农

学习方法 方法论 认知提升 学习笔记 技能提升

Flink对接kafka

云原生

flink kafka 流计算 实时计算

电商系统微服务拆分

张逃逃

一文搞懂I2C总线通信

不脱发的程序猿

嵌入式 通信协议 I2C协议

聊聊 Webpack 插件系统的关键实现 Tapable

蛋先生DX

JavaScript 前端 webpack

电商系统微服务拆分

随欣所遇

架构训练营5期

架构实战营四期-毕业总结

木几丶

「架构实战营」

Centos7安装单机版Redis

云原生

redis Redis 数据结构

设计一款照片一键加水印的小工具

DS小龙哥

3月月更

Linux之seq命令

入门小站

Linux

关于DDD的一些思考

meacial

DDD 架构设计 领域模型

架构实战营四期-毕业设计

木几丶

「架构实战营」

电商系统微服务架构拆分

李大虾

#架构实战营 「架构实战营」

Mahout通过可插拔的后端平台Spark和Flink获取自优化矩阵代数接口_开源_Mikio Braun_InfoQ精选文章