NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

机器学习的 11 个开源项目

  • 2014-12-18
  • 本文字数:1787 字

    阅读完需:约 6 分钟

机器学习是目前数据分析领域的一个热点内容,在平时的学习和生活中经常会用到各种各样的机器学习算法。实际上,基于 Python、Java 等的很多机器学习算法基本都被前人实现过很多次了。这些算法在网上可以找到很多,然而往往存在很多“脏”或者“乱”的开源代码。

在这样的背景下, InfoWorld 近日公布了机器学习领域 11 个最受欢迎的开源项目,这 11 个开源项目大多与垃圾邮件过滤、人脸识别、推荐引擎相关。它们大多数基于现今最流行的语言以及平台,推广以及扩展了机器学习领域的很多重要算法。从中,用户不但可以找到 LDA 等主题模型,也可以找到 HMM 等隐马尔科夫模型。这些模型都是应用领域的热点,也是研究者们最需要的。

  1. Scikit-learn Scikit-learn 是一个非常强大的 Python 机器学习工具包。它通过在现有 Python 的基础上构建了 NumPy 和 Matplotlib,提供了非常便利的数学工具。这个工具包包括了很多简单且高效的工具,很适合用于数据挖掘和数据分析。

在主页中,可以看到 User Guide,这是整个机器学习的索引,其中用户可以学到各种有效的方法。在 Reference 里,用户可以找到各个类具体的用法索引。
2. Shogun Shogun 是一个基于 C++ 的最古老的机器学习开源库,它创建于 1999 年。作为一个 SWIG 库,Shogun 可以轻松地嵌入 Java、Python、C#等主流处理语言中。它的重点在于大尺度上的内核方法,特别是“支持向量机”的学习工具箱。其中,它包括了大量的线性方法,如 LDA、LPM、HMM 等等。
3. Accord Framework/AForge.net Accord 是 AForge.net 的扩展,是一个基于.Net 的机器学习与信号处理框架。它包括了一系列的对图像和音频的机器学习算法,如人脸检测、SIFT 拼接等等。同时,Accord 支持移动对象的实时跟踪等功能。它提供了一个从神经网络到决策树系统的机器学习库。
4. Mahout Mahout 是一个广为人知的开源项目,它是 Apache Software 旗下的一个开源项目,提供了众多的机器学习经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 内包含了聚类、分类、推荐等很多经典算法,并且提供了很方便的云服务的接口。
5. MLlib MLlib 是 Apache 自己的 Spark 和 Hadoop 机器学习库,它被设计用于大规模高速度地执行 MLlib 所包含的大部分常见机器学习算法。MLlib 是基于 Java 开发的项目,同时可以方便地与 Python 等语言对接。用户可以自己设计针对 MLlib 编写代码,这是很具有个性化的设计。
6. H2O H2O 是 0xdata 的旗舰产品,是一款核心数据分析平台。它的一部分是由 R 语言编写的,另一部分是由 Java 和 Python 语言编写的。用户可以部署 H2O 的 R 程序安装包,之后就可以在 R 语言环境下运行了。H2P 的算法是面向业务欺诈活着趋势预测的,目前正在新一轮的融资中。
7. Cloudera Oryx Oryx 也是由 Hadoop 所设计的机器学习开源项目,由 Cloudera Hadoop Distribution 的创造者所提供。Oryx 能够让机器学习的模型使用在实时的数据流上,如垃圾邮件过滤等。
8. GoLearn GoLearn 是谷歌所构建的 Go 语言的一体化机器学习库,目标是简单并且可定制。Go 语言是谷歌的主打语言,目前使用已经越来越广泛。GoLearn 的简单在于数据在库内被加载和处理,因此能够可定制地扩展数据结构以源码。
9. Weka >Weka 是使用 Java 开发的用户数据挖掘的开源项目。Weka 作为一个公开的数据挖掘工作平台,集合了大量能够承担数据挖掘人物的机器学习算法,包括了对数据进行预处理、分类、回归、聚类等等。同时,Weka 实现了对大数据的可视化,通过 Java 设计的新式交互界面上,实现人与程序的交互。
10. CUDA-Convnet CUDA 是我们众所周知的 GPU 加速套件。而 CUDA-Convnet 是一个基于 GPU 加速的神经网络应用程序机器学习库。它使用 C++ 编写,并且使用了 NVidia 的 CUDA GPU 处理技术。

目前,这个项目已经被重组成为 CUDA-Convnet2,支持多个 GPU 和 Kepler-generation GPUs. Vuples 项目与之类似,使用 F#语言编写,并且适用于.Net 平台上。
11. ConvNetJS ConvNetJS 是一款基于 JavaScript 的在线深度学习库,它提供了在线的深度学习训练方式。它能够帮助深度学习的初学者更快、更加直观的理解算法,通过一些简单的 Demo 给用户最直观的解释。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-12-18 04:1119402
用户头像

发布了 268 篇内容, 共 118.2 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

新版负载均衡WebClient CRUD

Damon

微服务架构 微服务框架 6月月更

安全信得过!天翼云数据安全管理平台通过评测

天翼云开发者社区

Development status of full color LED display

Dylan

LED display full-color LED display Outdoor LED display

IntelliJ IDEA中有什么让你相见恨晚的好用插件?

Jackpop

Vue-17-组件

Python研究所

6月月更

VHEDT业务发展框架

凌晞

框架 构架

知识管理在业务中的价值如何体现

小炮

知识管理

10款超牛Vim插件,爱不释手了

Jackpop

【Meetup 预告】RocketMQ OpenMLDB Connector,实时数据到特征工程的高速传输

第四范式开发者社区

机器学习 数据库 开源 云原生 特征平台

入驻快讯|欢迎极狐GitLab 正式入驻 InfoQ 写作社区!

极狐GitLab

gitlab git 学习 #GitLab DevOps工具

wallys/WiFi6 MiniPCIe Module 2T2R 2×2.4GHz 2x5GHz

wallys-wifi6

wifi6 mtk7915 mtk7975

TDengine 连接器上线 Google Data Studio 应用商店

TDengine

tdengine 时序数据库 Google Data Studio

天翼云乘风新基建,构建数字化转型“4+2”能力体系

天翼云开发者社区

"不敢去怀疑代码,又不得不怀疑代码"记一次网络请求超时分析

华为云开发者联盟

前端 开发 HTTP 华为云

Java不支持协程?那是你不知道Quasar!

码农参上

协程 Java后端

如何为政企移动办公加上一道“安全锁”?

WorkPlus

洞见科技牵头的全球「首个」IEEE隐私计算「互联互通」国际标准正式启动

洞见科技

隐私计算 IEEE 互联互通

机器学习实践:基于支持向量机算法对鸢尾花进行分类

华为云开发者联盟

人工智能 模型 华为云

多年亿级流量下的高并发经验总结,都毫无保留地写在了这本书中

博文视点Broadview

ironSource Luna 推出苹果搜索广告限时优惠,注册即享3个月免费服务

科技热闻

畅享高性能计算!天翼云HPC解决方案来了

天翼云开发者社区

2022年中国重卡智能化升级专题研究

易观分析

智能汽车

视频爆炸时代,谁在支撑视频生态网高速运行?

郑州埃文科技

flow IP地址 NetFlow

短视频源码开发,优质的短视频源码需要做好哪几点?

开源直播系统源码

软件开发 短视频源码

什么是RESTful,REST api设计时应该遵守什么样的规则?

wljslmz

RESTful 6月月更

删除视图——基于函数的视图 Django

海拥(haiyong.site)

Python django 6月月更

MongoDB在腾讯零售优码中的应用

杨亚洲(专注MongoDB及高性能中间件)

mongodb 分布式数据库mongodb 构架 NoSQL 数据库 数据库·

uni-app进阶之https请求方式/状态管理【day11】

恒山其若陋兮

6月月更

R 和 Python用于统计学分析,哪个更好?

Jackpop

web技术分享| 【高德地图】实现自定义的轨迹回放

anyRTC开发者

前端 Web 音视频 地图 轨迹回放

企业级软件开发新模式:低代码

力软低代码开发平台

机器学习的11个开源项目_语言 & 开发_张天雷_InfoQ精选文章