写点什么

Mahout 通过可插拔的后端平台 Spark 和 Flink 获取自优化矩阵代数接口

  • 2014-12-16
  • 本文字数:896 字

    阅读完需:约 3 分钟

在柏林最近 GOTO 发布会,Mahout 的提交者 Sebastian Schelter 概述了 Mahout 中的最新进展,即持续努力为数据分析创造一个可扩展的基础,使其如R 或Python 一样易用。

Schelter 所述的主要目标是提供一种简单的基于 DSL(域特定语言)Scala 语言,它类似于 R 语言中的矩阵表示法,但又能提供集群的大矩阵分布式存储和并行计算的可能性。

Schelter 说到,最终的库将无缝地提供对本地和分布式矩阵的使用。Mahout 团队通过设计使得这个库不依赖于特定的平台,相反它有一个可插拔的后端以针对不同的平台。

Schelter 说,目前 Apache Spark (星火)发展最为快速,但是 Apache Flink ,另一个正在孵化的下一代大数据平台,也将在 Mahout 的考虑之中。

这种新结构的一个重要方面是提供不同操作的可能性,比如,基于涉及矩阵的大小来进行潜在的深入优化。根据 Schelter 所说,主要的设计目标是让数据科学家能够编写出可伸缩的代码,而不必过分担心并行的因素。这个演示页给出了结果界面的第一印象。

Apache Mahout 最初是在 Hadoop 之上实现一些机器学习算法的一个项目。它涵盖了分类,聚类,推荐和文档学习模型算法。到目前为止,这些算法是基于Hadoop 和MapReduce 的计算模型,而不是其它更灵活的模型,比如Apache Spark。Apache Spark 已经开始发展自己的机器学习库 mllib ,目前它涵盖的算法要比 Mahout 少,但他们的项目主页声称其算法要比 Mahout 快很多(译者注:这里是说基于 MapReduce 的 Mahout),这些改进是因为将计算移动到内存中以及更好地支持了迭代算法。

Mahout 开始不仅仅依靠 MapReduce,这正是其它各种各样分布式计算替代方法出现的时候。

谷歌自身前段时间已开始探索替代的计算方案,这其中包括 Percolator (咖啡滤壶),它允许谷歌在搜索的数据库上做增量更新,还有 Pregel (普雷格尔),一个专为分布式图形计算建立的系统。Pregel 反过来又导致了象 Apache Giraph 斯坦福大学GPS 的开源项目。

卡内基 - 梅隆大学开发的GraphLab 是可替代另一种工具箱,它提供了各种各样的机器学习算法的分布式实现。

查看英文原文: Mahout to Get Self-Optimizing Matrix Algebra Interface with Pluggable Backends for Spark and Flink

2014-12-16 00:422168

评论

发布
暂无评论
发现更多内容

物联网与低代码:构建智能化的连接世界

快乐非自愿限量之名

低代码 物联网 IoT

亚马逊云科技宣布推出四项Amazon Supply Chain新功能

财见

体育赛事为何成为各平台的“必争之地”与新兴变现模式

软件开发-梦幻运营部

flutter 代码混淆

dDapp发行代币合约质押挖矿系统开发丨详情开发

l8l259l3365

Trace 在多线程异步体系下传递

观测云

Trace 链路

量化交易与人工智能:技术的交叉引发金融市场的变革

不在线第一只蜗牛

人工智能 金融 量化交易

马斯克回应聊天机器人 Grok 抄 ChatGPT 作业;Figma 推出宏编程键盘丨 RTE 开发者日报 Vol.105

声网

天谋科技荣获国家高新技术企业认证

Apache IoTDB

软件测试/人工智能丨计算机视觉场景中,处理视频/图片数据并测试

测试人

Apache IoTDB PMC Chair 黄向东主办 2023 开放原子开发者大会开源工业物联网大数据分论坛,诚邀您的参加!

Apache IoTDB

想突破转化瓶颈?安排上 AI ,比漏斗图更高效、更实用!

Kyligence

数据分析 转化分析

深入了解埋点分析:Clklog助你优化用户体验

ClkLog

Java中的泛型通配符传递类型参数

技术冰糖葫芦

API 接口

1.5万字 + 25张图盘点RocketMQ 11种消息类型,你知道几种?

快乐非自愿限量之名

RocketMQ 事务管理

Kyligence 荣登甲子光年 2023 AIGC 技术应用领域最具商业潜力榜

Kyligence

数据分析 智能决策

一起学Elasticsearch系列-搜索推荐

Java随想录

Java 大数据 elastic 搜索

从Rustup出发看Rust语言的编译生态

程序饲养员

编译器 rust语言

入门PostgreSQL:安装和设置数据库的完整指南!

互联网工科生

postgresql

HarmonyOS NEXT分布式系统硬件资源池应用场景技术原理及接入实践

新消费日报

分析商品详情页中的数据,以了解产品的特点和优势

技术冰糖葫芦

API 接口

技术写作及技术作者的概述和重要性 - 了解技术写

小万哥

技术 程序人生 写作 软件开发 作者

首届中国研究生操作系统开源创新大赛即将启动:开启创新之旅,推动开源繁荣

新消费日报

深度 | AI数据标注迈入自动化时代,26年老兵掘金全球智能汽车市场

澳鹏Appen

自动驾驶 数据标注 4D标注

SD-WAN实现分公司与总部组网高效互联

Ogcloud

网络 SD-WAN 组网

一款最近很火的开源低代码平台

伤感汤姆布利柏

开源 低代码

2023-12-13:用go语言,密码是一串长度为n的小写字母,一则关于密码的线索纸条, 首先将字母a到z编号为0到25编号, 纸条上共有n个整数ai,其中a1表示密码里第一个字母的编号, 若i>1的

福大大架构师每日一题

福大大架构师每日一题

第31期 | GPTSecurity周报

云起无垠

多链铭文聚合协议20Exchange将为Ordi、SATS持仓用户快照空投

股市老人

基于模型驱动的可视化开发平台——JNPF

高端章鱼哥

低代码 可视化开发 JNPF

Mahout通过可插拔的后端平台Spark和Flink获取自优化矩阵代数接口_开源_Mikio Braun_InfoQ精选文章