50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

Mahout 通过可插拔的后端平台 Spark 和 Flink 获取自优化矩阵代数接口

  • 2014-12-16
  • 本文字数:896 字

    阅读完需:约 3 分钟

在柏林最近 GOTO 发布会,Mahout 的提交者 Sebastian Schelter 概述了 Mahout 中的最新进展,即持续努力为数据分析创造一个可扩展的基础,使其如R 或Python 一样易用。

Schelter 所述的主要目标是提供一种简单的基于 DSL(域特定语言)Scala 语言,它类似于 R 语言中的矩阵表示法,但又能提供集群的大矩阵分布式存储和并行计算的可能性。

Schelter 说到,最终的库将无缝地提供对本地和分布式矩阵的使用。Mahout 团队通过设计使得这个库不依赖于特定的平台,相反它有一个可插拔的后端以针对不同的平台。

Schelter 说,目前 Apache Spark (星火)发展最为快速,但是 Apache Flink ,另一个正在孵化的下一代大数据平台,也将在 Mahout 的考虑之中。

这种新结构的一个重要方面是提供不同操作的可能性,比如,基于涉及矩阵的大小来进行潜在的深入优化。根据 Schelter 所说,主要的设计目标是让数据科学家能够编写出可伸缩的代码,而不必过分担心并行的因素。这个演示页给出了结果界面的第一印象。

Apache Mahout 最初是在 Hadoop 之上实现一些机器学习算法的一个项目。它涵盖了分类,聚类,推荐和文档学习模型算法。到目前为止,这些算法是基于Hadoop 和MapReduce 的计算模型,而不是其它更灵活的模型,比如Apache Spark。Apache Spark 已经开始发展自己的机器学习库 mllib ,目前它涵盖的算法要比 Mahout 少,但他们的项目主页声称其算法要比 Mahout 快很多(译者注:这里是说基于 MapReduce 的 Mahout),这些改进是因为将计算移动到内存中以及更好地支持了迭代算法。

Mahout 开始不仅仅依靠 MapReduce,这正是其它各种各样分布式计算替代方法出现的时候。

谷歌自身前段时间已开始探索替代的计算方案,这其中包括 Percolator (咖啡滤壶),它允许谷歌在搜索的数据库上做增量更新,还有 Pregel (普雷格尔),一个专为分布式图形计算建立的系统。Pregel 反过来又导致了象 Apache Giraph 斯坦福大学GPS 的开源项目。

卡内基 - 梅隆大学开发的GraphLab 是可替代另一种工具箱,它提供了各种各样的机器学习算法的分布式实现。

查看英文原文: Mahout to Get Self-Optimizing Matrix Algebra Interface with Pluggable Backends for Spark and Flink

2014-12-16 00:422623

评论

发布
暂无评论
发现更多内容

出海品牌传播为什么需要与海外舆情监测系统联动?

沃观Wovision

出海企业 沃观Wovision 海外舆情监测

“敏捷产品管理精进课程” 12月6-7日 · A-CSPO认证 · 上海线下【提前报名特惠】

ShineScrum

CSPO认证 敏捷认证

小红书笔记评论API数据解析(附代码)

tbapi

小红书API 小红书笔记评论接口 小红书笔记评论采集 小红书笔记评论api

“数字创新产品课程” 11月8-9日 · CSPO认证在线课程【和A-CSPO打包报名享特惠】

ShineScrum

敏捷 产品负责人 CSPO认证 CSPO

TEM on 腾讯云 开箱即用的完美体验

TiDB 社区干货传送门

TEM 试用

来自火山引擎的 MCP 安全授权新范式

火山引擎开发者社区

火山引擎 MCP

聊聊Deepseek V3.1的极你太美

冯骐

AI 模型训练 大模型 DeepSeek DeepSeekV3.1

具身智能评估新思路:智源评测FlagEval基于2025世界人形机器人运动会足球赛的初步探索

智源研究院

人工智能 具身智能

智能平权下,燃油车如何升级?

脑洞汽车

AI

案例实践 | 如何做好 Apache Pulsar 的运维?ASP 产品简介

AscentStream

消息队列

别让旧系统拖垮未来!新一代数字化底座:业务增长的“新引擎”

BeeWorks

即时通讯 IM 私有化部署

别再猜了!用数据揭穿平凯数据库(TiDB 企业版)敏捷模式和MySQL的性能对比真相!

TiDB 社区干货传送门

版本测评 性能测评 敏捷模式 TEM 试用

汽车之家携手 TiDB:业务增长20+倍,一套 HTAP 数据库的规模化实践

TiDB 社区干货传送门

Claude Code 官方内部团队最佳实践!

Immerse

2025年值得关注的五个海外内容平台趋势

Wolink

海外营销推广 沃链Wolink 达人营销

AI 网关代理 RAG 检索:Dify 轻松对接外部知识库的新实践

阿里巴巴云原生

阿里云 云原生 AI网关

硅谷顶级 VC 如何看语音 AI?Greylock 合伙人揭秘 Voice Agent 构建的三层策略

声网

区块链Web3项目的需求分析

北京木奇移动技术有限公司

区块链开发 软件外包公司 web3开发

内网部署数据本地化,不限时的视频会议软件-BeeWorks Meet

BeeWorks

即时通讯 IM 私有化部署

“全球金牌敏捷课程” · 10月25-26日CSM认证课程 · Jim老师引导团队Agility与企业Agility话题

ShineScrum

敏捷 CSM认证 CSM认证培训

七年,从 TB 到 PB:TiDB 助力马上消费金融核心系统演进

TiDB 社区干货传送门

9 月 13 日,TiDB 社区活动在西安!助力民生领域数据架构升级和业务效能提升,一起探讨 TiDB 在智慧城市、智能制造(半导体)、疾控、生活服务等行业的实践分享!

TiDB 社区干货传送门

新签约 | 千万级测点零故障运行,新奥数能的升级选择

TDengine

tdengine 时序数据库 国产时序数据库

抖音基于Flink的DataOps能力实践

Apache Flink

大数据 flink 实时计算

「高频必考」Docker&K8S面试题和答案

王中阳Go

Docker k8s

Java包装类:你需要掌握的核心要点

码语者

Java 包装类型

转化率始终上不去?用户行为分析来帮你

ClkLog

开源 数据分析 埋点 用户行为分析 用户画像

平凯数据库(TiDB 企业版)敏捷模式内测开启!报名即可获得 6 个月的企业版使用权限 & 领取考试课程券和积分奖励,Top 10 测试报告撰写者还可以获得 TiDB 社区定制款行李箱!

TiDB 社区干货传送门

TiDB 在智能制造与能源领域:以先进架构解决痛点,支撑多场景创新与发展

TiDB 社区干货传送门

哇塞!AI编程神器Kiro,免排队畅用真Claude模型!

王磊

Mahout通过可插拔的后端平台Spark和Flink获取自优化矩阵代数接口_开源_Mikio Braun_InfoQ精选文章