写点什么

10 月份最热门的机器学习开源项目 TOP 5

  • 2018-11-11
  • 本文字数:2867 字

    阅读完需:约 9 分钟

“我应该使用 GitHub 吗?”


我经常被有抱负的数据科学家问到这个问题,我的回答是:“当然要用!”


对于数据科学家来说,GitHub 是他们寻求脱颖而出机会的一个宝贵的平台。它就像是一个在线简历,向招聘人员和其他专业人士展示你的代码。事实上,Google、Facebook、IBM、NVIDIA 等顶级科技巨头都在 GitHub 上托管开源项目。


如果你是数据科学新手,或者甚至是老练的专业人士,你应该拥有一个 GitHub 帐户。为了帮你省下用于寻找有用的项目的时间,我将为你们带来这个月的最佳项目。



本月收集的开源项目来自各种使用场景——计算机视觉(对象检测和分割)、Google BERT 框架的 PyTorch 实现、提取最新的研究论文及摘要,等等。


为什么我们会在本系列中包含 Reddit 讨论?我个人发现,Reddit 是一个令人难以置信的平台,原因有很多——内容丰富、顶级机器学习/深度学习专家花时间提出他们的想法、各种各样的主题、开源资源,等等。

GitHub 开源项目

PyTorch 1.0 中更快的 R-CNN 和 Mask R-CNN(项目地址


如今,计算机视觉已经变得非常流行,很多企业迫不及待地在它们的产品中实现和集成最新的算法。


当然,对象检测很容易成为这个领域中最受欢迎的技能。这是来自 Facebook 的一个非常酷的项目,旨在通过 PyTorch 1.0 框架为创建分割和检测模型提供构建块。Facebook 声称,它比 Detectron 框架快两倍,并提供了预训练模型,还有足够的资源和细节供入门参考!

腾讯 ML Images:最大的开源多标签图像数据库(项目地址


这个项目是所有深度学习爱好者的金矿。来看看有关这个数据集的一些数字:17,609,752 次训练和 88,739 次图像 URL 验证,最多有 11,166 个类别,真的难以置信!


这个项目还包括一个预训练的 Resnet-101 模型,迄今为止在 ImageNet 上实现了 80.73%的准确率。这个项目提供了大量有关入门的详细信息和代码。这个项目向社区提供高质量数据迈出了重要的一步。

Google BERT 的 PyTorch 实现(项目地址


BERT 是一种语言表示模型,Bidirectional Encoder Representations from Transformers 的缩写。它念起来有点拗口,但它在机器学习领域已经掀起了阵阵波澜。


BERT 在 11 种自然语言处理(NLP)任务中设置了各种新的基准。在各种 NLP 任务中使用的预训练语言模型对某些人来说可能有点奇怪,但 BERT 框架已经将其变为现实。在 SQuAD 问答测试中,它甚至超越了人类的表现。


这个项目提供了用于在你自己的计算机上实现 BERT 的 PyTorch 代码。正如 Google Brain 研究科学家 Thang Luong 所说的那样,这可能是 NLP 新时代的开始。


如果你对论文感兴趣,也可以在这里(https://arxiv.org/abs/1810.04805)找到。

提取最新的 Arxiv 研究论文及其摘要(项目地址


我们如何才能站在最新的机器学习研究之巅?我们似乎几乎每周都会看到突破性进展,要跟上它们的步伐简直是一项令人生畏的挑战。大多数顶级研究人员在 arxiv.org 上发表他们的论文,那么有什么方法可以找出最新的论文吗?


这个项目使用 Python(v3.x)抓取 arxiv 论文返回最新的结果。这是一个非常有用的工具,让我们接触到最新的论文,可以选择我们想要阅读的论文。如项目所述,你可以运行以下命令来搜索关键字:


$ python3 sotawhat.py "[keyword]" [number of results]
复制代码


如果没有指定结果数,默认情况下这个脚本将返回五个结果。

DeepMimic(项目地址


我总是试图在这些清单中加入至少一个强化学习库,主要是因为我觉得每个人都应该了解这个领域的最新进展。本月的的作品是基于深度强化学习的动作模拟。


这个项目是 SIGGAPH 2018“DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills”论文的一个实现。项目中写道,“这个框架使用强化学习训练模拟人类各种各样的动作技巧“。项目中提供了有关如何自行实现框架的视频和代码。

特别推荐:Google AI 的 AdaNet(项目地址


这个非常有用的项目不能被忽略。AdaNet 是一个轻量级且可扩展的基于 TensorFlow 的框架,用于自动学习高质量模型。它的最好的部分是你不需要过多介入,框架本身很智能、灵活,足以构建更好的模型。


你可以在这里获得有关 AdaNet 更多的信息。

Reddit 讨论

未来 5 年我们在机器学习方面可以期待什么样的发展?(讨论链接

autoML 会占据主导地位吗?硬件方面会有怎样的发展?最终会出台有关道德规范的官方规则和政策吗?机器学习是否会融入社会结构?强化学习最终会在行业中找到一席之地吗?


这些只是这个讨论中提出的众多想法的一部分。每个人对他们期望的东西和他们想要看到的东西有自己的预测,这个讨论将两者结合在了一起。这个讨论分为技术和非技术两个主题,你可以选择自己喜欢阅读的内容。

对于让非 ML 人士来管理 ML 研究人员这个问题有何建议?(讨论链接

这是个有趣的话题。我们之前已经看到过这种趋势——非 ML 领域的人被指派领导一支 ML 专家团队,这通常会让双方感到不适。由于各种原因,事情通常会陷入僵局。


我恳请所有项目经理、负责人、CxO 等花点时间看看这个讨论主题。有一些非常有用的想法,你可以尽快在自己的项目中实现它们。让所有技术人员和非技术人员达成共识是整个项目成功的关键,领导者需要在这方面做出良好的榜样。

机器学习项目的主题思想(讨论链接

正在寻找一个可以试验的新项目?或者需要为你的论点寻找想法?看看这个讨论就对了。这些是研究生们正在努力磨练和调整他们机器学习技能的一系列想法。其中一些比较突出的是:


  • 预测行人的轨迹;

  • 通过声学估算天气现象(使用信号处理和机器学习);

  • 利用深度学习改进助听器语音处理流程。


这就是 Reddit 的有用之处——你可以在讨论中提出你的想法,你会收到社区关于如何应对挑战的反馈。

为什么机器学习论文中会出现如此令人畏惧的数学?(讨论链接

这是一个完全技术性的讨论,一个完全主观的问题,答案取决于读者的经验水平以及研究人员对自己想法的表达。我喜欢这个讨论,因为其中有非常具体的相关研究论文的例子,所以你可以探索它们,并形成自己的观点。


这是一个众所周知(并且被接受)的事实,相当多的论文都将数学和研究结果拼凑在一起——并不是每个人都有耐心、意愿或者以清晰的方式展示他们的研究的能力。如果有可能,请尽量改进你的表达技巧。

炒作机器学习的弊端(讨论链接

对于成熟的专业人士来说,当他们所在的领域开始受到新手的关注时,他们会作何感想?这是一个有趣的问题,可能会跨越领域,但这个讨论侧重于机器学习。


这本身并不是一种技术性讨论,但顶级数据科学家和应用机器学习专业人士对最近在该领域出现的兴趣热潮的看法应该会很有趣。这个讨论有 120 多条评论,富含思想和建议。当关于如何处理非技术领导者和团队成员的话题出现时,事情变得特别有趣。

后记

今年真的看到了一些让人眼前一亮的研究项目开源。无论微软官方收购 GitHub 后发生了什么,它仍然是程序员、开发人员和数据科学家协作的主要平台。我恳请所有阅读这篇文章的人更经常使用 GitHub,即使只是为了浏览最新的项目。


英文原文:


https://www.analyticsvidhya.com/blog/2018/11/best-machine-learning-github-repositories-reddit-threads-october-2018/


2018-11-11 09:001958
用户头像

发布了 731 篇内容, 共 466.9 次阅读, 收获喜欢 2006 次。

关注

评论

发布
暂无评论
发现更多内容

数据库顶会 VLDB 2023 论文解读 - Krypton: 字节跳动实时服务分析 SQL 引擎设计

字节跳动云原生计算

sql 大数据 云原生

ARBT阿尔比特代币合约质押挖矿系统开发

l8l259l3365

实时数仓混沌演练实践

得物技术

实时数仓 混沌演练 业务混沌 数仓稳定性

不可不知的七个Docker优秀实践

树上有只程序猿

Docker 容器 镜像

大模型时代,如何快速开发AI应用

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号9月PK榜

英特尔首席执行官帕特·基辛格会前畅谈2023年on技术创新大会

E科讯

解锁 zkSync Era:开创全新的 Layer 2 扩展时代

Footprint Analytics

以太坊 eth Layer 2

灵魂三问之稳定性摸排

阿里技术

方法论 稳定性 底盘

免费、安全、可靠!一站式构建平台 ABS 介绍及实例演示 | 龙蜥技术

OpenAnolis小助手

开源 操作系统 龙蜥社区 龙蜥大讲堂 abs

五个很实用的IDEA使用技巧

越长大越悲伤

Java Python IDEA pycharm

利用ChatGPT实现快速网站模板构建

百度开发者中心

#人工智能 ChatGPT 千帆大模型平台

数据探索神器:火山引擎DataLeap Notebook 揭秘

字节跳动数据平台

数据库 数据中台 数据治理 数据安全 企业号9月PK榜

火山引擎A/B测试在消费行业的案例实践

字节跳动数据平台

数据库 ab测试 对比实验 数字化增长 企业号9月PK榜

AI在玩一种很新的艺术,700万网友在线围观,ControlNet又立功了

Openlab_cosmoplat

AI

eBPF 仅仅是实现可观测性的一种手段

JainChen

可观测性 ebpf Kubernetes, 云原生, eBPF #监控

智能客服的新方向

百度开发者中心

智能客服 #人工智能 千帆大模型平台

引领智能对话革命的创新网络工程技术

百度开发者中心

智能对话 #人工智能 ChatGPT

22H2 中国边缘公有云服务市场 Top2,百度智能云构建让智算无处不在的分布式云

Baidu AICLOUD

边缘计算 分布式云 大模型

保持预测一致性,推动企业实现未来价值

智达方通

数据孤岛 全面预算管理系统 预测分析

CodeArts Check代码检查服务用户声音反馈集锦(4)

华为云PaaS服务小智

云计算 华为云 代码检查

CodeArts Check代码检查服务用户声音反馈集锦(5)

华为云PaaS服务小智

云计算 软件开发 华为云 代码检查

腾讯云大数据平台 TBDS全面升级,加速构建安全可控的大数据生态

腾讯云大数据

TBDS

开启全球化新篇章,数字经济推动消费出海论坛在京召开

千流出海

出海 消费品企业 出海企业

AI 编码助手 Codewhisperer 安装步骤和使用初体验

亚马逊云科技 (Amazon Web Services)

Java Python 人工智能 机器学习

10月份最热门的机器学习开源项目TOP 5_AI&大模型_PRANAV DAR_InfoQ精选文章