写点什么

Mahout 通过可插拔的后端平台 Spark 和 Flink 获取自优化矩阵代数接口

  • 2014-12-16
  • 本文字数:896 字

    阅读完需:约 3 分钟

在柏林最近 GOTO 发布会,Mahout 的提交者 Sebastian Schelter 概述了 Mahout 中的最新进展,即持续努力为数据分析创造一个可扩展的基础,使其如R 或Python 一样易用。

Schelter 所述的主要目标是提供一种简单的基于 DSL(域特定语言)Scala 语言,它类似于 R 语言中的矩阵表示法,但又能提供集群的大矩阵分布式存储和并行计算的可能性。

Schelter 说到,最终的库将无缝地提供对本地和分布式矩阵的使用。Mahout 团队通过设计使得这个库不依赖于特定的平台,相反它有一个可插拔的后端以针对不同的平台。

Schelter 说,目前 Apache Spark (星火)发展最为快速,但是 Apache Flink ,另一个正在孵化的下一代大数据平台,也将在 Mahout 的考虑之中。

这种新结构的一个重要方面是提供不同操作的可能性,比如,基于涉及矩阵的大小来进行潜在的深入优化。根据 Schelter 所说,主要的设计目标是让数据科学家能够编写出可伸缩的代码,而不必过分担心并行的因素。这个演示页给出了结果界面的第一印象。

Apache Mahout 最初是在 Hadoop 之上实现一些机器学习算法的一个项目。它涵盖了分类,聚类,推荐和文档学习模型算法。到目前为止,这些算法是基于Hadoop 和MapReduce 的计算模型,而不是其它更灵活的模型,比如Apache Spark。Apache Spark 已经开始发展自己的机器学习库 mllib ,目前它涵盖的算法要比 Mahout 少,但他们的项目主页声称其算法要比 Mahout 快很多(译者注:这里是说基于 MapReduce 的 Mahout),这些改进是因为将计算移动到内存中以及更好地支持了迭代算法。

Mahout 开始不仅仅依靠 MapReduce,这正是其它各种各样分布式计算替代方法出现的时候。

谷歌自身前段时间已开始探索替代的计算方案,这其中包括 Percolator (咖啡滤壶),它允许谷歌在搜索的数据库上做增量更新,还有 Pregel (普雷格尔),一个专为分布式图形计算建立的系统。Pregel 反过来又导致了象 Apache Giraph 斯坦福大学GPS 的开源项目。

卡内基 - 梅隆大学开发的GraphLab 是可替代另一种工具箱,它提供了各种各样的机器学习算法的分布式实现。

查看英文原文: Mahout to Get Self-Optimizing Matrix Algebra Interface with Pluggable Backends for Spark and Flink

2014-12-16 00:422697

评论

发布
暂无评论
发现更多内容

第8周作业

小胖子

第8周-作业2

seng man

5万字长文:Stream和Lambda表达式最佳实践-附PDF下载

程序那些事

Java jdk Lambda stream

简易web性能工具

鲁米

封装element-ui表格,我是这样做的

前端有的玩

Java Vue Element 封装

从零开始写一个迷你版的Tomcat

简爱W

C++编译过程 宏 内联和静态变量

正向成长

JDK1.8新特性(六):Stream的终极操作,轻松解决集合分组、汇总等复杂操作

xcbeyond

stream 集合 JDK1.8 Collections JDK1.8新特性

ARTS打卡 第9周

引花眠

ARTS 打卡计划

Jenkins 多分支项目过滤及 when 的高级用法

jerry.mei

DevOps 运维 自动化 jenkins CI/CD

作业1

武鹏

应用程序研发之网络-分层模型

superman

应用程序研发之网络 - Http

superman

门面效应 - 拒绝别人会产生愧疚吗?

石云升

心理学 门面效应 留面子效应

百万并发「零拷贝」技术系列之Linux实现

码农神说

Java 架构 零拷贝

耦合层:撮合物联网的理论与实践牵手的“月老”

华为云开发者联盟

AI 物联网 IoT 低耦合 华为云

LeetCode题解: 206. 反转链表,JavaScript,容易理解的递归解释,详细注释

Lee Chen

大前端 LeetCode

第8周-作业1

seng man

计算机的时钟(二):Lamport逻辑时钟

ElvinYang

Java 8 中的函数式接口

陈皮

MySQL 百万级数据量分页查询方法及其优化

xcbeyond

SQL优化 数据库优化

ARTS 06 - Jenkins 多分支项目过滤及 when 的高级用法

jerry.mei

学习 算法 ARTS 打卡计划 CI/CD ARTS活动

轻松应对并发问题,Newbe.Claptrap 框架中 State 和 Event 应该如何理解?

newbe36524

分布式 微服务 架构设计 .net core ASP.NET Core

Flink 使用大状态时的一点优化

Apache Flink

flink RocksDB

初识进程coredump(以中间件为例)异常宕机

清康

程序的机器级表示-访问数据

引花眠

读完《云原生架构白皮书》,我们来谈谈开放应用模型(OAM)

郭旭东

Kubernetes 云原生 OMA

架构师训练营第八周课后总结

Cloud.

应用程序研发之网络-网络编程模型

superman

MySQL主从复制详解

Simon

MySQL 主从复制

云图说|“真人?机器?傻傻分不清!” WAF Bot管理,带你慧眼辨“精”!

华为云开发者联盟

bootstrap 搜索引擎 安全 防火墙 华为云

Mahout通过可插拔的后端平台Spark和Flink获取自优化矩阵代数接口_开源_Mikio Braun_InfoQ精选文章