AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

Mahout 通过可插拔的后端平台 Spark 和 Flink 获取自优化矩阵代数接口

  • 2014-12-16
  • 本文字数:896 字

    阅读完需:约 3 分钟

在柏林最近 GOTO 发布会,Mahout 的提交者 Sebastian Schelter 概述了 Mahout 中的最新进展,即持续努力为数据分析创造一个可扩展的基础,使其如R 或Python 一样易用。

Schelter 所述的主要目标是提供一种简单的基于 DSL(域特定语言)Scala 语言,它类似于 R 语言中的矩阵表示法,但又能提供集群的大矩阵分布式存储和并行计算的可能性。

Schelter 说到,最终的库将无缝地提供对本地和分布式矩阵的使用。Mahout 团队通过设计使得这个库不依赖于特定的平台,相反它有一个可插拔的后端以针对不同的平台。

Schelter 说,目前 Apache Spark (星火)发展最为快速,但是 Apache Flink ,另一个正在孵化的下一代大数据平台,也将在 Mahout 的考虑之中。

这种新结构的一个重要方面是提供不同操作的可能性,比如,基于涉及矩阵的大小来进行潜在的深入优化。根据 Schelter 所说,主要的设计目标是让数据科学家能够编写出可伸缩的代码,而不必过分担心并行的因素。这个演示页给出了结果界面的第一印象。

Apache Mahout 最初是在 Hadoop 之上实现一些机器学习算法的一个项目。它涵盖了分类,聚类,推荐和文档学习模型算法。到目前为止,这些算法是基于Hadoop 和MapReduce 的计算模型,而不是其它更灵活的模型,比如Apache Spark。Apache Spark 已经开始发展自己的机器学习库 mllib ,目前它涵盖的算法要比 Mahout 少,但他们的项目主页声称其算法要比 Mahout 快很多(译者注:这里是说基于 MapReduce 的 Mahout),这些改进是因为将计算移动到内存中以及更好地支持了迭代算法。

Mahout 开始不仅仅依靠 MapReduce,这正是其它各种各样分布式计算替代方法出现的时候。

谷歌自身前段时间已开始探索替代的计算方案,这其中包括 Percolator (咖啡滤壶),它允许谷歌在搜索的数据库上做增量更新,还有 Pregel (普雷格尔),一个专为分布式图形计算建立的系统。Pregel 反过来又导致了象 Apache Giraph 斯坦福大学GPS 的开源项目。

卡内基 - 梅隆大学开发的GraphLab 是可替代另一种工具箱,它提供了各种各样的机器学习算法的分布式实现。

查看英文原文: Mahout to Get Self-Optimizing Matrix Algebra Interface with Pluggable Backends for Spark and Flink

2014-12-16 00:422457

评论

发布
暂无评论
发现更多内容

如何选择适合自己的外贸独立站域名?

九凌网络

软件测试开发/全日制/测试管理丨用户端 App 自动化测试

测试人

软件测试 自动化测试 测试开发 app自动化测试

软件测试开发/全日制/测试管理丨接口测试抓包与 Mock/接口自动化

测试人

软件测试 接口测试 测试开发 Mock

面向研发使用、全栈开发、前后端分离的低代码平台

互联网工科生

软件开发 前后端分离 低代码 全栈开发

聚道云软件连接器助力某软件科技有限公司实现人力资源信息自动化

聚道云软件连接器

案例分享

12 月 NFT 市场动态:强劲增长塑造年终趋势

Footprint Analytics

区块链 加密货币 NFT

关于JAVA的常用工具类问题

伤感汤姆布利柏

亚马逊云科技助力施耐德电气加速AI技术在制造场景的落地与创新

财见

CAE技术的局限性讨论-CAE咨询

智造软件

CAE CAE软件

软件测试开发/全日制/测试管理丨性能测试

测试人

面向大模型,腾讯云大数据重磅发布ES及数据湖产品新版本

腾讯云大数据

数据湖 ES

云数据库与Web网站:构建高效、可扩展的网络应用

天翼云开发者社区

数据库 云计算 大数据

列式云数据库与关系型云数据库:区别、优缺点与选择

天翼云开发者社区

数据库 云计算 关系型数据库

医疗机构如何释放数据要素价值 推动数据资产化

用友BIP

数据资产

Apache Flink 和 Paimon 在自如数据集成场景中的使用

Apache Flink

大数据 flink 实时计算

软件测试开发/全日制/测试管理丨Docker容器技术

测试人

Docker 软件测试 容器技术 测试开发

程序员开年第一唠:rest开发步骤

不在线第一只蜗牛

Java 数据库 前端 Rest

DAPP、链游、交易所和区块链钱包开发

区块链软件开发推广运营

交易所开发 区块链开发 链游开发 公链开发 区块链开发DAPP开发

Postgres 中文周报:PostgreSQL 2023 热门回顾

酷克数据HashData

NeurIPS’23 Paper Digest | 如何把 LLM 的推理能力应用于事件序列预测?

可信AI进展

人工智能 机器学习 推理 推理模型 算法、

让数据要素合规高效流通!海南这么干!

天翼云开发者社区

云计算 大数据

软件测试开发/全日制/测试管理丨持续集成、持续交付、持续部署

测试人

软件测试 持续集成 自动化测试 持续交付 测试开发

数字新生态:低代码开发的实践应用

不在线第一只蜗牛

低代码 数字化 数字发展

AI新纪元:AI原生企业崛起

九章云极DataCanvas

Mahout通过可插拔的后端平台Spark和Flink获取自优化矩阵代数接口_开源_Mikio Braun_InfoQ精选文章