阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

10 月份最热门的机器学习开源项目 TOP 5

  • 2018-11-11
  • 本文字数:2867 字

    阅读完需:约 9 分钟

“我应该使用 GitHub 吗?”


我经常被有抱负的数据科学家问到这个问题,我的回答是:“当然要用!”


对于数据科学家来说,GitHub 是他们寻求脱颖而出机会的一个宝贵的平台。它就像是一个在线简历,向招聘人员和其他专业人士展示你的代码。事实上,Google、Facebook、IBM、NVIDIA 等顶级科技巨头都在 GitHub 上托管开源项目。


如果你是数据科学新手,或者甚至是老练的专业人士,你应该拥有一个 GitHub 帐户。为了帮你省下用于寻找有用的项目的时间,我将为你们带来这个月的最佳项目。



本月收集的开源项目来自各种使用场景——计算机视觉(对象检测和分割)、Google BERT 框架的 PyTorch 实现、提取最新的研究论文及摘要,等等。


为什么我们会在本系列中包含 Reddit 讨论?我个人发现,Reddit 是一个令人难以置信的平台,原因有很多——内容丰富、顶级机器学习/深度学习专家花时间提出他们的想法、各种各样的主题、开源资源,等等。

GitHub 开源项目

PyTorch 1.0 中更快的 R-CNN 和 Mask R-CNN(项目地址


如今,计算机视觉已经变得非常流行,很多企业迫不及待地在它们的产品中实现和集成最新的算法。


当然,对象检测很容易成为这个领域中最受欢迎的技能。这是来自 Facebook 的一个非常酷的项目,旨在通过 PyTorch 1.0 框架为创建分割和检测模型提供构建块。Facebook 声称,它比 Detectron 框架快两倍,并提供了预训练模型,还有足够的资源和细节供入门参考!

腾讯 ML Images:最大的开源多标签图像数据库(项目地址


这个项目是所有深度学习爱好者的金矿。来看看有关这个数据集的一些数字:17,609,752 次训练和 88,739 次图像 URL 验证,最多有 11,166 个类别,真的难以置信!


这个项目还包括一个预训练的 Resnet-101 模型,迄今为止在 ImageNet 上实现了 80.73%的准确率。这个项目提供了大量有关入门的详细信息和代码。这个项目向社区提供高质量数据迈出了重要的一步。

Google BERT 的 PyTorch 实现(项目地址


BERT 是一种语言表示模型,Bidirectional Encoder Representations from Transformers 的缩写。它念起来有点拗口,但它在机器学习领域已经掀起了阵阵波澜。


BERT 在 11 种自然语言处理(NLP)任务中设置了各种新的基准。在各种 NLP 任务中使用的预训练语言模型对某些人来说可能有点奇怪,但 BERT 框架已经将其变为现实。在 SQuAD 问答测试中,它甚至超越了人类的表现。


这个项目提供了用于在你自己的计算机上实现 BERT 的 PyTorch 代码。正如 Google Brain 研究科学家 Thang Luong 所说的那样,这可能是 NLP 新时代的开始。


如果你对论文感兴趣,也可以在这里(https://arxiv.org/abs/1810.04805)找到。

提取最新的 Arxiv 研究论文及其摘要(项目地址


我们如何才能站在最新的机器学习研究之巅?我们似乎几乎每周都会看到突破性进展,要跟上它们的步伐简直是一项令人生畏的挑战。大多数顶级研究人员在 arxiv.org 上发表他们的论文,那么有什么方法可以找出最新的论文吗?


这个项目使用 Python(v3.x)抓取 arxiv 论文返回最新的结果。这是一个非常有用的工具,让我们接触到最新的论文,可以选择我们想要阅读的论文。如项目所述,你可以运行以下命令来搜索关键字:


$ python3 sotawhat.py "[keyword]" [number of results]
复制代码


如果没有指定结果数,默认情况下这个脚本将返回五个结果。

DeepMimic(项目地址


我总是试图在这些清单中加入至少一个强化学习库,主要是因为我觉得每个人都应该了解这个领域的最新进展。本月的的作品是基于深度强化学习的动作模拟。


这个项目是 SIGGAPH 2018“DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills”论文的一个实现。项目中写道,“这个框架使用强化学习训练模拟人类各种各样的动作技巧“。项目中提供了有关如何自行实现框架的视频和代码。

特别推荐:Google AI 的 AdaNet(项目地址


这个非常有用的项目不能被忽略。AdaNet 是一个轻量级且可扩展的基于 TensorFlow 的框架,用于自动学习高质量模型。它的最好的部分是你不需要过多介入,框架本身很智能、灵活,足以构建更好的模型。


你可以在这里获得有关 AdaNet 更多的信息。

Reddit 讨论

未来 5 年我们在机器学习方面可以期待什么样的发展?(讨论链接

autoML 会占据主导地位吗?硬件方面会有怎样的发展?最终会出台有关道德规范的官方规则和政策吗?机器学习是否会融入社会结构?强化学习最终会在行业中找到一席之地吗?


这些只是这个讨论中提出的众多想法的一部分。每个人对他们期望的东西和他们想要看到的东西有自己的预测,这个讨论将两者结合在了一起。这个讨论分为技术和非技术两个主题,你可以选择自己喜欢阅读的内容。

对于让非 ML 人士来管理 ML 研究人员这个问题有何建议?(讨论链接

这是个有趣的话题。我们之前已经看到过这种趋势——非 ML 领域的人被指派领导一支 ML 专家团队,这通常会让双方感到不适。由于各种原因,事情通常会陷入僵局。


我恳请所有项目经理、负责人、CxO 等花点时间看看这个讨论主题。有一些非常有用的想法,你可以尽快在自己的项目中实现它们。让所有技术人员和非技术人员达成共识是整个项目成功的关键,领导者需要在这方面做出良好的榜样。

机器学习项目的主题思想(讨论链接

正在寻找一个可以试验的新项目?或者需要为你的论点寻找想法?看看这个讨论就对了。这些是研究生们正在努力磨练和调整他们机器学习技能的一系列想法。其中一些比较突出的是:


  • 预测行人的轨迹;

  • 通过声学估算天气现象(使用信号处理和机器学习);

  • 利用深度学习改进助听器语音处理流程。


这就是 Reddit 的有用之处——你可以在讨论中提出你的想法,你会收到社区关于如何应对挑战的反馈。

为什么机器学习论文中会出现如此令人畏惧的数学?(讨论链接

这是一个完全技术性的讨论,一个完全主观的问题,答案取决于读者的经验水平以及研究人员对自己想法的表达。我喜欢这个讨论,因为其中有非常具体的相关研究论文的例子,所以你可以探索它们,并形成自己的观点。


这是一个众所周知(并且被接受)的事实,相当多的论文都将数学和研究结果拼凑在一起——并不是每个人都有耐心、意愿或者以清晰的方式展示他们的研究的能力。如果有可能,请尽量改进你的表达技巧。

炒作机器学习的弊端(讨论链接

对于成熟的专业人士来说,当他们所在的领域开始受到新手的关注时,他们会作何感想?这是一个有趣的问题,可能会跨越领域,但这个讨论侧重于机器学习。


这本身并不是一种技术性讨论,但顶级数据科学家和应用机器学习专业人士对最近在该领域出现的兴趣热潮的看法应该会很有趣。这个讨论有 120 多条评论,富含思想和建议。当关于如何处理非技术领导者和团队成员的话题出现时,事情变得特别有趣。

后记

今年真的看到了一些让人眼前一亮的研究项目开源。无论微软官方收购 GitHub 后发生了什么,它仍然是程序员、开发人员和数据科学家协作的主要平台。我恳请所有阅读这篇文章的人更经常使用 GitHub,即使只是为了浏览最新的项目。


英文原文:


https://www.analyticsvidhya.com/blog/2018/11/best-machine-learning-github-repositories-reddit-threads-october-2018/


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-11-11 09:001700
用户头像

发布了 731 篇内容, 共 434.0 次阅读, 收获喜欢 1997 次。

关注

评论

发布
暂无评论
发现更多内容

淘天集团联合爱橙科技开源大模型训练框架Megatron-LLaMA

阿里技术

大模型 AIGC

飞书深诺AI系列--如何写出一个好的Prompt

飞书深诺技术团队

软件测试|Python基础之面向对象(四)

霍格沃兹测试开发学社

通过UltraSync减轻主节点负担、提升业务系统性能,AntDB如何做到?

亚信AntDB数据库

AntDB 国产数据库 AntDB数据库

软件测试|App自动化之Appium工作原理

霍格沃兹测试开发学社

单元测试|Unittest setup前置初始化和teardown后置操作

霍格沃兹测试开发学社

【案例教学】华为云API图引擎服务 GES的便捷性—AI帮助快速处理图片小助手

华为云PaaS服务小智

人工智能 云计算 华为云

软件测试|Pycharm运行与调试

霍格沃兹测试开发学社

软件测试/测试开发丨利用ChatGPT自动生成测试用例思维导图

测试人

人工智能 软件测试 思维导图 测试开发 ChatGPT

LED显示屏租赁市场“价格”与“质量”的联系

Dylan

广告 LED显示屏 led显示屏厂家

WiFi7-IPQ9574 and QCN9274/QCN6274 multi-AP joint transmission amazing performance improvement

wifi6-yiyi

WiFi7 multi

软件测试|Python基础之面向对象(二)

霍格沃兹测试开发学社

软件测试|Python内置模块使用(一)

霍格沃兹测试开发学社

阿里云PAI-灵骏大模型训练工具Pai-Megatron-Patch正式开源!

小偏执o

数据研发“新人”如何快速落地?

阿里技术

数据研发

深入浅出:SPI机制在JDK与Spring Boot中的应用

华为云开发者联盟

后端 开发 华为云 华为云开发者联盟 企业号9月PK榜

Qt For OpenHarmony

OpenHarmony开发者

OpenHarmony

软件测试|Pycharm搜索替换功能

霍格沃兹测试开发学社

软件测试|Pycharm版本控制与分支管理

霍格沃兹测试开发学社

将你的接口数据一目了然,借助 Apifox 的可视化响应功能

Apifox

前端 后端 Apifox API 可视化响应

软件测试|TCP三次握手四次挥手

霍格沃兹测试开发学社

软件测试|Python基础之面向对象(三)

霍格沃兹测试开发学社

可视化的报表系统

风清扬

beaTunes5 for Mac(多功能音乐播放器) 5.2.33永久激活版

mac

windows 苹果mac beaTunes5 音乐管理和分析软件

软件测试|数据库的内连接,左连接,右链接分别是什么

霍格沃兹测试开发学社

软件测试|Python基础之包的使用和软件开发目录规范及常用内置模块

霍格沃兹测试开发学社

一文解读智能远程监考方案的技术架构与应用实景

阿里云视频云

云计算 视频云

提高效率的神器!企业级SQL审核与开发工具

NineData

数据库 团队协作 企业 SQL开发 NineData

软件测试|Python基础之模块导入和使用

霍格沃兹测试开发学社

如何用华为云ModelArts平台玩转Llama2

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号9月PK榜

10月份最热门的机器学习开源项目TOP 5_AI&大模型_PRANAV DAR_InfoQ精选文章