红帽白皮书新鲜出炉!点击获取,让你的云战略更胜一筹! 了解详情
写点什么

2018 年 Github 最受欢迎机器学习语言 Python 稳坐冠军,numpy、scipy 是最受欢迎软件包

  • 2019-01-25
  • 本文字数:1233 字

    阅读完需:约 4 分钟

2018年Github最受欢迎机器学习语言Python稳坐冠军,numpy、scipy是最受欢迎软件包

在 GitHub 2018 年的 Octoverse 报告中,机器学习和数据科学是 GitHub 上的热门话题。其中,tensorflow / tensorflow 是项目贡献最多的项目之一,pytorch / pytorch 是增长最快的项目之一,而 Python 是 GitHub 上第三大最受欢迎的语言。于是,GitHub 决定更加深入地研究一下,机器学习和数据科学在该平台究竟是怎样的情况。


GitHub 提取了 2018 年 1 月 1 日到 2018 年 12 月 31 日之间的贡献数据。这些贡献可能包括推送代码、发起话题或提取请求、评论问题或提取请求,以及审查拉取请求。对于大多数导入的程序包,GitHub 使用了从依赖关系图中获得的数据,其中包括所有公共存储库和已选择加入依赖关系图的所有私有存储库。

机器学习编程语言:Python 稳坐冠军


GitHub 以使用“机器学习”主题标记的存储库的贡献者为依据,对存储库中最常见的主要编程语言进行了排名。结果显示,Python 是机器学习库中最常用的语言,也是 GitHub 上第三种最常用的语言。然而,并非所有机器学习项目都使用 Python:GitHub 上还有其他一些最常见的机器学习通用语言,如 C ++、JavaScript、Java、C#、Shel l 和 TypeScript 跻身 GitHub 编程语言 Top10,同时是机器学习项目的 Top10 语言。Julia、R 和 Scala 都出现在机器学习项目编程语言的前 10 名,但未上榜 GitHub 整体最受欢迎编程语言 Top10。Julia 和 R 都是数据科学家常用的语言,Scala 在 与 Apache Spark 等大数据系统交互时变得越来越常用。

最受欢迎机器学习和数据科学包:numpy、scipy、pandas 占据前三


我们从依赖图中提取数据,以计算导入流行 Python 包的机器学习或数据科学项目的百分比。上表为项目导入最多程序包 Top10 排名。我们发现:


  • Numpy,一个支持多维数据数学运算的软件包,是导入最多的软件包,近四分之三的机器学习和数据科学项目使用此包。

  • Scipy,一个用于科学计算的软件,pandas,一个用于管理数据集的软件包,以及可视化库matplotlib,都在超过 40% 的机器学习和数据科学项目中使用。

  • Scikit-learn 是一种流行的机器学习包,包含大量机器学习算法的实现,近 40% 的项目使用此包。

  • Tensorflow 是一种用于处理神经网络的软件包,近四分之一的项目使用。


前十名中其他的包均为实用程序包:排名第六的是 Python 2 和 3 兼容性库,python-dateutilpytz 是用于处理日期的包。

最受欢迎的机器学习项目:Tensorflow


2018 年,带有“机器学习”标签、贡献最多的开源项目为 Tensorflow,是迄今为止最受欢迎的机器学习项目,且其贡献者数量是第二大受欢迎项目 scikit-learn 的五倍多。排名第三和第九的 explosion/spaCy/ spaCy 和 RasaHQ / rasa_nlu 是两个专注于自然语言处理问题的项目。另外四个项目,CMU-Perceptual-Computing-Lab / openpose,thtrieu / darkflow,ageitgey / face_recognition 和 tesseract-ocr / tesseract 则专注于图像处理。另外,Julia 语言源代码也是 2018 年项目贡献最多的项目之一。


原文链接:


https://github.blog/2019-01-24-the-state-of-the-octoverse-machine-learning/


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-01-25 12:446592
用户头像

发布了 98 篇内容, 共 62.3 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

Linux之ping命令

入门小站

Linux

白话机器学习(4):模型的裁判-交叉验证Cross-Validation

杜吉普

机器学习 杜吉普

如何加强自己对Java的编码规范

Bob

Java 8月日更

白话机器学习(6):用Lasso Regression踢出浑水摸鱼的变量

杜吉普

机器学习

[架构实战营一期] 模块四作业

trymorewang

架构实战营

杜吉普:数字化运营广告营销之道

杜吉普

机器学习 互联网广告 营销数字化

【前端 · 面试 】HTTP 总结(九)—— HTTP 协商缓存

编程三昧

面试 8月日更 HTTP缓存

趁着课余时间学点Python(八)函数的简单理解

ベ布小禅

8月日更

数据缓存历险记(四)--LRU大师兄的Java实现

卢卡多多

redis LRU 8月日更

白话机器学习(7):人类最好理解的预测模型-决策树Decision Tree

杜吉普

python-抽象

加里都好

白话机器学习(5):更高端的线性回归模型-Ridge Regression

杜吉普

机器学习

白话机器学习(3):理解机器学习中的Bias与Variance

杜吉普

机器学习

白话机器学习:什么机器学习模型?

杜吉普

机器学习 数据分析 数字化转型

白话机器学习(9):用户精细化管理背后的秘密:K-means聚类模型

杜吉普

机器学习

SpringBoot 数据库操作(集成MyBatis)

xcbeyond

mybatis SpringCloud 8月日更

架构训练营模块四作业

Lemon

写作 7 堂课——【4. 联机式写作】

LeifChen

素材 写作技巧 8月日更 联机 写作网感

不装了、摊牌了,我们要搞事情

不脱发的程序猿

程序员 技术 程序人生

【Vue2.x 源码学习】第三十篇 - diff算法-比对优化(上)

Brave

源码 vue2 8月日更

synchronized优化手段:锁膨胀、锁消除、锁粗化和自适应自旋锁...

王磊

Java 并发 synchronized 8月日更

白话机器学习(8):世界上本没有随机森林,决策树多了,也就变成了森林

杜吉普

机器学习

Java 面试都只是背答案不

HoneyMoose

白话机器学习(2):产品经理都在用的线性回归模型

杜吉普

机器学习 线性回归

杜吉普:指标体系多重奏——指标体系建立思路

杜吉普

数据分析 指标体系 数据运营

构建Apache Flink 开发环境(四)

数据与智能

flink IDEA 开发环境

负载均衡的原理与设计

海明菌

负载均衡 负载均衡算法 负载均衡架构

几十种编程语言说Hello World

入门小站

工具

前端之数据结构(六)图

Augus

数据结构 8月日更

Spring梳理

十二万伏特皮卡丘

Node.js 实现存储服务的上传功能【包含前后端代码】

liuzhen007

8月日更

2018年Github最受欢迎机器学习语言Python稳坐冠军,numpy、scipy是最受欢迎软件包_编程语言_Thomas_InfoQ精选文章