Mahout与Weka的对比_语言 & 开发_孙镜涛_InfoQ精选文章

点击围观！腾讯 TAPD 助力金融行业研发提效、敏捷转型最佳实践！了解详情 



 写点什么

登录/注册

随着机器学习热度的不断提高，与其相关的软件和工具也慢慢进入大家的视野，而 Weka 和 Mahout 无疑是这些工具中较为流行的两个。作为一款知名的老牌机器学习软件，Weka 支持经典的数据挖掘任务，同时还有大量的扩展包，可以支持文本挖掘、可视化和网格计算等功能。Mahout 则是 Apache 软件基金会旗下的一个开源项目，它提供了一些机器学习领域中的经典算法实现，支持 Apache Hadoop，能够高效地运行在云计算环境中。那么它们之间的最大不同在哪，我们该如何选择呢？最近 algorithmia 的团队发表了一篇《机器学习对决：Apache Mahout vs Weka 》的文章，对这两者做了比较。

功能层面，Weka 包含大量经过良好优化的机器学习和数据分析算法，可以处理与格式化、数据转换相关的各种任务，唯一的不足就是它对内存敏感的大数据处理的不好。而Mahout 则为大数据而生，作为一个新生的数据挖掘工具，它所支持的算法与Weka 相比依然很少，相关文档的质量也良莠不齐，但是它的优势在于不仅支持单机环境，还支持MapReduce 分布式计算，能够应对Weka 无法处理的大数据。

性能方面，algorithmia 通过使用两个工具都支持的算法（随机森林）对同一个数据集进行分类做了对比。结果显示，Weka 的最优准确率为99.39%（250 棵树），而Mahout 为95.89%（100 棵树），同时该实验也显示树的数量对Mahout 的分类准确率影响很小。

algorithmia 上的这篇文章在 Hacker News 上引发了广泛的讨论， jackhammer 说：

“现在，大部分数据科学家都在使用 scikit-learn 或者 R。Weka 真的已经过时了。Mahout 和 MLlib 使用起来比较难。通常，我们最好只是采样，或者租用一个内存充足的 EC2 实例。”

discardorama 则认为：

“Mahout 的力量在于它对大数据的并行处理能力，Weka 则是为了处理较小的问题或者是在实验中使用，但是无论如何现在已经很少用了。Mahout 和 Weka 都不是主流，对于大规模的分类，人们现在使用 VW ，对于小规模的实验，使用 Scikit 或者 R。”

akbar501 回复说：

“对于机器学习而言，Spark MLlib 是一个必然的选择。对于大规模、分布式的数据，我会使用 SparkR。”

感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ）或者腾讯微博（ @InfoQ ）关注我们，并与我们的编辑和其他读者朋友交流。

评论

发布

暂无评论

又双叒叕一行代码：Map按值排序

Java 排序 map LinkedHashMap

什么是共识？（理论篇）

音视频开发进阶指南，最新大厂Android校招面试经验汇总

欢喜学安卓

android 程序员面试移动开发

基于Spring Boot+Security+Redis权限管理系统，权限控制采用RBAC

Java架构追梦

Java 源码架构师 springboot 权限管理系统

深入原生冰山安全体系，详解华为云安全服务如何构筑全栈安全

华为云开发者联盟

容器数据安全云安全 Web应用防火墙华为云安全

[入门必读]TcaplusDB数据库常见问题解决及诊断技巧集锦-信息咨询类(2)

数据库 nosql TcaplusDB

已收藏！深入浅出Android性能调优

欢喜学安卓

android 程序员面试移动开发

腾讯云 TRTC 这次玩大了！冲出国门联手日本直播平台.yell Live打造在线直播互动能力

腾讯云音视频

面试阿里太难了！二本毕业、两年crud经验，侥幸通过面试定级P6

Java 程序员架构面试

虚拟币合约交易所搭建,永续合约平台搭建

955.WLB 不加班公司名单！再新增 5 家公司！

程序员生活志

年包70W，五轮拿下阿里Offer，全靠阿里内部整理的面试指南（真题分享）

Java 程序员架构面试

FIL的最新消息？FIL的价格还能回到150吗？

区块链分布式存储 IPFS fil挖矿最新消息？ fil价格

加油站三维可视化监控系统，安全管理智慧运营

一只数据鲸鱼

数据可视化智慧城市 3D可视化数字孪生加油站

我看JAVA 之垃圾回收GC

Java JVM 垃圾回收 GC

TcaplusDB君 · 行业新闻汇编（7月20日）

数据库 nosql 游戏 tencentdb TcaplusDB

为什么别的程序员能月薪 20k ，而你一个月只能拿 6K 的低保？差别就在这！

Java 编程程序员技术宅

为什么别的程序员能月薪 20k ，而你一个月只能拿 6K 的低保？差别就在这！

Java 编程程序员技术宅

[入门必读]TcaplusDB数据库常见问题解决及诊断技巧集锦-数据库使用类(1)

数据库 nosql tencentdb TcaplusDB

简单好用的照片恢复软件推荐

EasyRecovery 文件恢复硬盘数据恢复

亿万级信令服务演化

anyRTC开发者

音视频实时通信实时消息

流程审批系统如何通过低代码平台实现？

低代码流程审批系统

终于有10年阿里老兵把SpringCloud微服务实战经验全总结出来了

进击的王小二

Java 架构微服务 Spring Cloud

ZooKeeper 分布式锁 Curator 源码 02：可重入锁重复加锁和锁释放

程序员小航

源码分布式锁 zookeeper分布式锁 curator

聊聊 Web Workers 吧

JavaScript 大前端

PHA矿机挖矿系统搭建

区块链云算力模式系统开发源码 PHA矿机挖矿

浅谈：前端路由原理解析及实践

开源云原生大前端 UI 路由器