【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

10 月份最热门的机器学习开源项目 TOP 5

  • 2018-11-11
  • 本文字数:2867 字

    阅读完需:约 9 分钟

“我应该使用 GitHub 吗?”


我经常被有抱负的数据科学家问到这个问题,我的回答是:“当然要用!”


对于数据科学家来说,GitHub 是他们寻求脱颖而出机会的一个宝贵的平台。它就像是一个在线简历,向招聘人员和其他专业人士展示你的代码。事实上,Google、Facebook、IBM、NVIDIA 等顶级科技巨头都在 GitHub 上托管开源项目。


如果你是数据科学新手,或者甚至是老练的专业人士,你应该拥有一个 GitHub 帐户。为了帮你省下用于寻找有用的项目的时间,我将为你们带来这个月的最佳项目。



本月收集的开源项目来自各种使用场景——计算机视觉(对象检测和分割)、Google BERT 框架的 PyTorch 实现、提取最新的研究论文及摘要,等等。


为什么我们会在本系列中包含 Reddit 讨论?我个人发现,Reddit 是一个令人难以置信的平台,原因有很多——内容丰富、顶级机器学习/深度学习专家花时间提出他们的想法、各种各样的主题、开源资源,等等。

GitHub 开源项目

PyTorch 1.0 中更快的 R-CNN 和 Mask R-CNN(项目地址


如今,计算机视觉已经变得非常流行,很多企业迫不及待地在它们的产品中实现和集成最新的算法。


当然,对象检测很容易成为这个领域中最受欢迎的技能。这是来自 Facebook 的一个非常酷的项目,旨在通过 PyTorch 1.0 框架为创建分割和检测模型提供构建块。Facebook 声称,它比 Detectron 框架快两倍,并提供了预训练模型,还有足够的资源和细节供入门参考!

腾讯 ML Images:最大的开源多标签图像数据库(项目地址


这个项目是所有深度学习爱好者的金矿。来看看有关这个数据集的一些数字:17,609,752 次训练和 88,739 次图像 URL 验证,最多有 11,166 个类别,真的难以置信!


这个项目还包括一个预训练的 Resnet-101 模型,迄今为止在 ImageNet 上实现了 80.73%的准确率。这个项目提供了大量有关入门的详细信息和代码。这个项目向社区提供高质量数据迈出了重要的一步。

Google BERT 的 PyTorch 实现(项目地址


BERT 是一种语言表示模型,Bidirectional Encoder Representations from Transformers 的缩写。它念起来有点拗口,但它在机器学习领域已经掀起了阵阵波澜。


BERT 在 11 种自然语言处理(NLP)任务中设置了各种新的基准。在各种 NLP 任务中使用的预训练语言模型对某些人来说可能有点奇怪,但 BERT 框架已经将其变为现实。在 SQuAD 问答测试中,它甚至超越了人类的表现。


这个项目提供了用于在你自己的计算机上实现 BERT 的 PyTorch 代码。正如 Google Brain 研究科学家 Thang Luong 所说的那样,这可能是 NLP 新时代的开始。


如果你对论文感兴趣,也可以在这里(https://arxiv.org/abs/1810.04805)找到。

提取最新的 Arxiv 研究论文及其摘要(项目地址


我们如何才能站在最新的机器学习研究之巅?我们似乎几乎每周都会看到突破性进展,要跟上它们的步伐简直是一项令人生畏的挑战。大多数顶级研究人员在 arxiv.org 上发表他们的论文,那么有什么方法可以找出最新的论文吗?


这个项目使用 Python(v3.x)抓取 arxiv 论文返回最新的结果。这是一个非常有用的工具,让我们接触到最新的论文,可以选择我们想要阅读的论文。如项目所述,你可以运行以下命令来搜索关键字:


$ python3 sotawhat.py "[keyword]" [number of results]
复制代码


如果没有指定结果数,默认情况下这个脚本将返回五个结果。

DeepMimic(项目地址


我总是试图在这些清单中加入至少一个强化学习库,主要是因为我觉得每个人都应该了解这个领域的最新进展。本月的的作品是基于深度强化学习的动作模拟。


这个项目是 SIGGAPH 2018“DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills”论文的一个实现。项目中写道,“这个框架使用强化学习训练模拟人类各种各样的动作技巧“。项目中提供了有关如何自行实现框架的视频和代码。

特别推荐:Google AI 的 AdaNet(项目地址


这个非常有用的项目不能被忽略。AdaNet 是一个轻量级且可扩展的基于 TensorFlow 的框架,用于自动学习高质量模型。它的最好的部分是你不需要过多介入,框架本身很智能、灵活,足以构建更好的模型。


你可以在这里获得有关 AdaNet 更多的信息。

Reddit 讨论

未来 5 年我们在机器学习方面可以期待什么样的发展?(讨论链接

autoML 会占据主导地位吗?硬件方面会有怎样的发展?最终会出台有关道德规范的官方规则和政策吗?机器学习是否会融入社会结构?强化学习最终会在行业中找到一席之地吗?


这些只是这个讨论中提出的众多想法的一部分。每个人对他们期望的东西和他们想要看到的东西有自己的预测,这个讨论将两者结合在了一起。这个讨论分为技术和非技术两个主题,你可以选择自己喜欢阅读的内容。

对于让非 ML 人士来管理 ML 研究人员这个问题有何建议?(讨论链接

这是个有趣的话题。我们之前已经看到过这种趋势——非 ML 领域的人被指派领导一支 ML 专家团队,这通常会让双方感到不适。由于各种原因,事情通常会陷入僵局。


我恳请所有项目经理、负责人、CxO 等花点时间看看这个讨论主题。有一些非常有用的想法,你可以尽快在自己的项目中实现它们。让所有技术人员和非技术人员达成共识是整个项目成功的关键,领导者需要在这方面做出良好的榜样。

机器学习项目的主题思想(讨论链接

正在寻找一个可以试验的新项目?或者需要为你的论点寻找想法?看看这个讨论就对了。这些是研究生们正在努力磨练和调整他们机器学习技能的一系列想法。其中一些比较突出的是:


  • 预测行人的轨迹;

  • 通过声学估算天气现象(使用信号处理和机器学习);

  • 利用深度学习改进助听器语音处理流程。


这就是 Reddit 的有用之处——你可以在讨论中提出你的想法,你会收到社区关于如何应对挑战的反馈。

为什么机器学习论文中会出现如此令人畏惧的数学?(讨论链接

这是一个完全技术性的讨论,一个完全主观的问题,答案取决于读者的经验水平以及研究人员对自己想法的表达。我喜欢这个讨论,因为其中有非常具体的相关研究论文的例子,所以你可以探索它们,并形成自己的观点。


这是一个众所周知(并且被接受)的事实,相当多的论文都将数学和研究结果拼凑在一起——并不是每个人都有耐心、意愿或者以清晰的方式展示他们的研究的能力。如果有可能,请尽量改进你的表达技巧。

炒作机器学习的弊端(讨论链接

对于成熟的专业人士来说,当他们所在的领域开始受到新手的关注时,他们会作何感想?这是一个有趣的问题,可能会跨越领域,但这个讨论侧重于机器学习。


这本身并不是一种技术性讨论,但顶级数据科学家和应用机器学习专业人士对最近在该领域出现的兴趣热潮的看法应该会很有趣。这个讨论有 120 多条评论,富含思想和建议。当关于如何处理非技术领导者和团队成员的话题出现时,事情变得特别有趣。

后记

今年真的看到了一些让人眼前一亮的研究项目开源。无论微软官方收购 GitHub 后发生了什么,它仍然是程序员、开发人员和数据科学家协作的主要平台。我恳请所有阅读这篇文章的人更经常使用 GitHub,即使只是为了浏览最新的项目。


英文原文:


https://www.analyticsvidhya.com/blog/2018/11/best-machine-learning-github-repositories-reddit-threads-october-2018/


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-11-11 09:001706
用户头像

发布了 731 篇内容, 共 434.4 次阅读, 收获喜欢 1997 次。

关注

评论

发布
暂无评论
发现更多内容

堡垒机主流品牌有哪些?如何选择?

行云管家

堡垒机 IT运维

文盘Rust -- 用Tokio实现简易任务池

TiDB 社区干货传送门

开发语言

瓴羊Quick BI连续入选魔力象限ABI报告,实至名归

流量猫猫头

快手基于 Apache Flink 的实时数仓建设实践

Apache Flink

大数据 flink 实时计算

APP频繁改版惹人烦?火山引擎VeDI来帮忙

字节跳动数据平台

数字化 企业数字化 企业号 4 月 PK 榜 APP改版

TiCDC 源码阅读(六)TiCDC Puller 模块介绍

TiDB 社区干货传送门

瓴羊Quick BI国产数字化智能工具口碑怎么样?30天免费试用

小偏执o

堡垒机厂商都是大企业吗?你比较推荐哪家?

行云管家

网络安全 等级保护

ByteBase是什么,他怎么和tidb结合提高工作效率的

TiDB 社区干货传送门

实践案例

tiup cluster display 执行流程代码详解

TiDB 社区干货传送门

实践案例 集群管理 故障排查/诊断 安装 & 部署

知行合一!AI大模型与算法二三事

深数

深度学习 科普 数字化 NLP 大模型 LLM

Flink MongoDB CDC 在 XTransfer 的生产实践|Flink CDC 专题

Apache Flink

大数据 flink 实时计算

精选2023年大厂高频Java面试真题集锦(含答案),面试一路开挂

程序知音

java面试 java架构 Java进阶 后端技术 Java面试八股文

TiDB损坏多副本之有损恢复处理方法

TiDB 社区干货传送门

集群管理 6.x 实践 TiKV 底层架构

TiCDC 源码阅读(五)TiCDC 对 DDL 的处理和 Filter 解析

TiDB 社区干货传送门

TiCDC 源码阅读(七) TiCDC Sorter 模块揭秘

TiDB 社区干货传送门

一文彻底搞懂Raft算法,看这篇就够了!!!

做梦都在改BUG

NFT交易平台商城系统开发技术

薇電13242772558

NFT

漫谈 ChatGPT 与问答式 BI

观远数据

数据分析 BI ChatGPT

值得一看!阿里内部“M9”级别全彩版分布式实战笔记

做梦都在改BUG

Java 架构 分布式 分布式事务 微服务

GitHub已开源—在国内外都被称为分布式理论+实践的巅峰之作

做梦都在改BUG

Java 数据库 分布式 系统设计 设计数据密集型应用

从零学习SDK(3)如何安装和配置SDK

MobTech袤博科技

企业数字化升级迫在眉睫,瓴羊Quick BI工具应运而生

夏日星河

四种常见服务限流算法解析

做梦都在改BUG

5 大手段,打造单一可信源代码托管平台|极狐GitLab DevSecOps 助力 SLSA 落地之源代码篇

极狐GitLab

DevOps DevSecOps 源代码 安全审计 SLSA

牛客网2023Java最新面试宝典(附答案解析)正式开源

采菊东篱下

编程 java面试

Stable Diffusion:一种新型的深度学习AIGC模型

蓝海大脑GPU

阿里大佬倾情力荐:Java全线成长宝典,从P5到P8一应俱全

三十而立

Java java面试

干货分享|金融机构如何通过标签画像实现精细化客户运营?

索信达控股

开源即时通讯IM框架MobileIMSDK的微信小程序端开发快速入门

JackJiang

“信创”滚滚而来,私有化或将迎来第二春

WorkPlus

10月份最热门的机器学习开源项目TOP 5_AI&大模型_PRANAV DAR_InfoQ精选文章