Mahout 0.3: 机器学习开源项目

2010 年 5 月 01 日

有关机器学习的开源项目 Apache Mahout 三月份的时候推 出了它的0.3 版本,这个新版本在之前的基础上添加了一些新功能,比之前的版本更为稳定,性能也有相应的提升。InfoQ 采访了Apache Mahout 项目的开发者 Grant Ingersoll Ted Dunning ,其中 Grant Ingresoll 也是该项目的创始人之一。

过去十年里,从大 量原始数据中解析出相关信息的需求急剧增长,以致于聚类(clustering)、协同过滤(collaborative filtering)和分类(categorization)等机器学习技术的需 求也是呈稳定增长势态。

Grant Ingersoll 这样介 绍 Mahout 项目:

  • 将已知方法语境中的文档聚类 (Clustering)有助于把注意力集中到某些特定的聚类和内容上,从而避免在无关的内容上浪费精力。
  • 推荐算法(协同过滤推荐算法 -Collaborative Filtering )常常用来向用户推荐书籍、音乐、电影等内容,也可以用于多用户协作的应用中精简所需关注的数 据。
  • 模式匹配(朴素贝叶斯分类器 -Naïve Bayes Classifier 等分类算法)可用于归类之前没有见过的文档。归类新文档时,算法在模式中查找文档中涉及的词汇, 计算该文档属于各个模式的概率,最后文档将归于概率最大的模式,输入的结果往往都以数值来表示算法本身对这个结果的正确与否有多大的把握。
  • Mahout 项目通过 Apache Hadoop 的支持来获 得伸缩性。

Mahout 另一个重点是,它提供一系列工 具把文本数据表示成矩阵形式。这也是采用Mahout 机器学习算法来处理数据的首要任务。

Mahout 项目是由 Apache Lucene (开源搜索项目)社区几 个热衷于聚类、分类等机器学习算法的技术人员所发起。社区最初的开发“追随”于 Ng et al. 发表的论文“支持多核之上的机器学习 Map-Reduce 框架(Map-Reduce for Machine Learning on Multicore)”,自项目启动以来,社区也致力于各种机器学习算法、模式的开发

最新 Apache Mahout 版本的亮点有:

在问到这个版本中最激动人心的特性 时,Ingersoll 这样回答:

新添加的分布式奇异值分解(Singular Value Decomposition)计算非常令人期待,此外,还有那些方便用户把内容导入到 Mahout 的诸多工具。其中,最激动人心的其实并不是有形的,而是 Mahout 社区的成长。社区目前已吸引到数量客观的贡献者和用户。任何开源项目的发展过程当中,最初阶段往往都很惨淡,工作常常只有一两个人去做,一旦 当中有人离开甚至只是减缓开发速度,整个项目都有可能中途夭折。但我相信 Mahout 已经通过了这样的考验,现在已经有非常多非常活跃的社区成员正努力把 它变成一个真正令人激动的项目。

Mahout 项目的未来计划包括:

SGD 和 SVM 的实现将适宜于文档挖掘以及其它一些与文本或重复归类数据相关的应用。尤其令人期待的是 SGD 系统将引入在线创建互动变量的 能力。

查看英文原文: Mahout 0.3: Open Source Machine Learning

2010 年 5 月 01 日 10:27 11097
用户头像

发布了 71 篇内容, 共 16.2 次阅读, 收获喜欢 2 次。

关注

评论

发布
暂无评论
发现更多内容

性能测试与优化 和 操作系统与文件系统

满山李子

极客大学架构师训练营

架构感悟 7- 性能优化何为

旭东(Frank)

web 性能压测工具

Z冰红茶

来了,来了,你们要的Nginx教程来了

Java旅途

nginx

英特尔唐炯:竞争推动PC行业良性发展,促使英特尔前行

飞天鱼2017

第7周-作业1

seng man

程序设计理念-CentOs7实践Nginx-带来安装服务的通用法则

图南日晟

Nginx PHP-FPM 架构设计 环境安装

第7周总结:性能

慵秋

http请求压测工具

潜默闻雨

挑战10的1,143,913次方种算法组合:这都不是事儿!

华为云开发者社区

华为 算法 进化 华为云

关于数据库索引的知识点,你所需要了解的都在这儿了

鄙人薛某

MySQL 索引结构 索引 MySQL优化

面试官拿System.out.println()考了我半个小时?我傻了

Java小咖秀

Java 面试

新手村:MySQL 学习经验、资源的分享

多选参数

MySQL MySQL 高可用 MySQL优化

BIGO | Likee深度推荐模型的特征工程优化

InfoQ_3597a20b53cc

人工智能

百度人脸算法“飞速迭代”,多模态活体检测V3.1获银行卡检测中心增强级认证

百度大脑

人工智能 人脸识别 百度大脑

【小白学YOLO】YOLOv3网络结构细致解析

华为云开发者社区

人工智能 网络 物体检测 华为云 网络层

进击的 Flink:网易云音乐实时数仓建设实践

Apache Flink

flink

为什么我们要自主开发一个稳定可靠的容器网络

博云技术社区

云计算 PaaS fabric 容器云

架构训练营第七周作业

张锐

技术​选型的艺术

YourBatman

技术选型 湖北

PV与UV你的网站也可以

北漂码农有话说

直播中那几秒延时到底来自哪?

巨侠说

CDN 云直播 直播 直播带货

数据湖应用解析:Spark on Elasticsearch一致性问题

华为云开发者社区

大数据 spark elasticsearch 数据湖 华为云

web压力性能测试

周冬辉

压力测试

漫画:如何证明sleep不释放锁,而wait释放锁?

王磊

Java Wait Sleep

秒懂云通信:选云通信到底哪家强?

巨侠说

云通信 通信云

计算机网络基础(八)---网络层-路由概述

书旅

计算机网络 网络协议 计算机基础 AS

原生Ingress灰度发布能力不够?我们是这么干的

博云技术社区

云计算 容器 云原生 PaaS

前浪出新招,996已过时,互联网员工都开始住公司了!(爆公司信息)

程序员生活志

加班 996 007 互联网公司

Kubernetes的拐点助推器:左手开源,右手边缘计算

华为云开发者社区

Kubernetes 容器 边缘计算 容器技术 华为云

为啥Underlay才是容器网络的最佳落地选择

博云技术社区

云计算 容器 容器网络

Mahout 0.3: 机器学习开源项目-InfoQ