Teachable Machine:训练机器在浏览器中使用摄像头

  • Roland Meertens
  • 盖磊

2017 年 10 月 11 日

话题:语言 & 开发AI

Teachable Machine 是一个浏览器应用,用户可以使用它训练自己的网络摄像头识别物体或语句。

应用的演示中,用户使用网络摄像头识别三种不同类别的物体或语句。根据摄像头的输入,网站显示了不同的图片、播放预先录制的声音或播放语音。该应用不需要用户做任何编程,也不需要对超参数或网络架构做任何编程。对用户而言,来自于机器的唯一反馈是机器对每个预测类的置信度。根据被识别出的类型,机器会从三个不同图片中选择一个展示。图片分别是一只猫、一条狗和一个可爱的兔子。在 Youtube 上给出了一个如何使用 Teachable Machine 的很好教程

所有的训练都是使用deeplearn.js 软件库在浏览器中完成的。该软件库是一个使用硬件加速的 JavaScript 库,由Google Brain PAIR 团队构建并开放提供。软件库是2017 年八月在 Google 博客上发布的,在 deeplearn.js 网站上还提供了多个使用该库的应用。

用户只需要对自己想要识别的一些对象拍照。训练的加速是通过下载称为“squeezenet”的预先训练好的神经网络实现的。根据研究论文,相对于做对比的神经网络,squeezenet 减少了 50 倍的训练参数。这意味着,squeezenet 可以作为小于 0.5MB 的文件下载。虽然该神经网络具有更少的参数,但其输出不逊于大型的神经网络,完全适用于这个简单的浏览器应用。该应用使用了预先训练好的神经网络的输出,去学习网络摄像头中展示的物体。

Teachable Machine 的源代码已提供在 GitHub 上。deeplearn.js 的上手操作指令及该库的源代码也提供于 GitHub 上

查看英文原文: Teachable Machine: Teach a Machine Using Your Camera in Your Browser

语言 & 开发AI