写点什么

Mahout 通过可插拔的后端平台 Spark 和 Flink 获取自优化矩阵代数接口

  • 2014-12-16
  • 本文字数:896 字

    阅读完需:约 3 分钟

在柏林最近 GOTO 发布会,Mahout 的提交者 Sebastian Schelter 概述了 Mahout 中的最新进展,即持续努力为数据分析创造一个可扩展的基础,使其如R 或Python 一样易用。

Schelter 所述的主要目标是提供一种简单的基于 DSL(域特定语言)Scala 语言,它类似于 R 语言中的矩阵表示法,但又能提供集群的大矩阵分布式存储和并行计算的可能性。

Schelter 说到,最终的库将无缝地提供对本地和分布式矩阵的使用。Mahout 团队通过设计使得这个库不依赖于特定的平台,相反它有一个可插拔的后端以针对不同的平台。

Schelter 说,目前 Apache Spark (星火)发展最为快速,但是 Apache Flink ,另一个正在孵化的下一代大数据平台,也将在 Mahout 的考虑之中。

这种新结构的一个重要方面是提供不同操作的可能性,比如,基于涉及矩阵的大小来进行潜在的深入优化。根据 Schelter 所说,主要的设计目标是让数据科学家能够编写出可伸缩的代码,而不必过分担心并行的因素。这个演示页给出了结果界面的第一印象。

Apache Mahout 最初是在 Hadoop 之上实现一些机器学习算法的一个项目。它涵盖了分类,聚类,推荐和文档学习模型算法。到目前为止,这些算法是基于Hadoop 和MapReduce 的计算模型,而不是其它更灵活的模型,比如Apache Spark。Apache Spark 已经开始发展自己的机器学习库 mllib ,目前它涵盖的算法要比 Mahout 少,但他们的项目主页声称其算法要比 Mahout 快很多(译者注:这里是说基于 MapReduce 的 Mahout),这些改进是因为将计算移动到内存中以及更好地支持了迭代算法。

Mahout 开始不仅仅依靠 MapReduce,这正是其它各种各样分布式计算替代方法出现的时候。

谷歌自身前段时间已开始探索替代的计算方案,这其中包括 Percolator (咖啡滤壶),它允许谷歌在搜索的数据库上做增量更新,还有 Pregel (普雷格尔),一个专为分布式图形计算建立的系统。Pregel 反过来又导致了象 Apache Giraph 斯坦福大学GPS 的开源项目。

卡内基 - 梅隆大学开发的GraphLab 是可替代另一种工具箱,它提供了各种各样的机器学习算法的分布式实现。

查看英文原文: Mahout to Get Self-Optimizing Matrix Algebra Interface with Pluggable Backends for Spark and Flink

2014-12-16 00:422675

评论

发布
暂无评论
发现更多内容

《清远折叠》,数智广东第一个SPN政务专网故事

脑极体

通信

如何在Python中使用网页抓取API获得Google搜索结果

幂简集成

Python API

fx框架上手-进阶篇

FunTester

阿里云实时计算Flink在多行业的应用和实践

阿里云大数据AI技术

大数据 flink 实时计算

产品推荐:7月受欢迎AI容器镜像来了,有Qwen系列大模型镜像

OpenAnolis小助手

操作系统 AI容器镜像 AC2

基于“日志审计应用”的 DNS 日志洞察实践

阿里巴巴云原生

阿里云 云原生

淘宝商品详情API:商品关联推荐算法的解读

技术冰糖葫芦

API 安全 API 文档 API 测试 API 优先

喜报 | 极限科技入选北京市 2024 年第一批科技中小企业名单

极限实验室

LLM智能体工程落地思考

数由科技

人工智能 低代码 数据科学 LLM AI Agent

(价格准确)淘宝推荐引擎揭秘:商品详情页API背后的智能算法

代码忍者

API 安全 API 文档 API 测试

首届「中国可观测日」圆满落幕

观测云

可观测性

不容错过的 CentOS 迁移替换专场!分享安全保障、最佳案例等技术 | 龙蜥大讲堂

OpenAnolis小助手

centos 操作系统 龙蜥大讲堂 CentOS迁移替换

ai写作ppt软件有哪些?这5款AI生成工具值得一试!

彭宏豪95

效率工具 职场 科技 办公软件 AI生成PPT

焱融全闪存储助力视源垂直大模型训练效率提升 6 倍

焱融科技

数据虚拟化和传统数据集成方式(如 ETL)有何区别?

Aloudata

Data 数据虚拟化 数据编织 逻辑数据平台

JPA乐观锁改悲观锁遇到的一些问题与思考

不在线第一只蜗牛

数据库 oracle 乐观锁 jap

LeetCode题解:2073. 买票需要的时间,直接计算,JavaScript,详细注释

Lee Chen

结束了~

XIAOJUSURVEY

开源 程序员 代码 贡献者 活动运营

开发者必看:Temu商品列表API接口详解应用

tbapi

temu temu API temu商品列表接口 关键词搜索temu列表接口

Mahout通过可插拔的后端平台Spark和Flink获取自优化矩阵代数接口_开源_Mikio Braun_InfoQ精选文章