写点什么

谷歌采用弱监督算法给大规模数据集打标签

  • 2019-05-13
  • 本文字数:835 字

    阅读完需:约 3 分钟

谷歌采用弱监督算法给大规模数据集打标签

谷歌意识到标签数据是机器学习的一个重要瓶颈,所以最近采用了开源框架Snorkel来解决这个问题。谷歌与斯坦福和布朗大学合作研究这个问题。他们在 AI 博客上记录了研究结果,并发表了一篇名为“Snorkel Drybell:在行业规模部署弱监督的案例研究”的论文。


Snorkel 通过软件算法为训练数据打标签,而不是通过手动的方式。这项技术被称为弱监督。该算法可以使用任何可用的知识,包括知识图谱、规则和统计信息。有多种算法可用来给同样的数据打标签。每种算法可以提供一个或多个标签,也可以去掉标签。然后 Snorkel 会自动基于对标签准确性的估计来分配权重。Snorkel 通过比较标签的准确性来做出估计,并基于算法权重和相关标签为每个数据点创建一个单独的概率性标签。


谷歌基于 Snorkel 构建了 Snorkel Drybell,旨在处理 Web 规模的数据。它将 Snorkel 与 TensorFlow 进行了集成,加入了共享内存计算,增强了原先的单节点设计。谷歌并没有强制用于表示训练数据的数据模型采用严格的上下文层级结构。它还移除了对使用数据库保存数据的依赖,取而代之的是分布式文件系统。最后,谷歌将标签功能作为单独的可执行文件,可以在文件系统上共享数据。这些变化让 Snorkel 可以使用大量的知识,并基于弱监督算法对数据打标签。


谷歌使用 Snorkel Drybell 分别对两组模型(一个是 12,000 个数据点,一个是 80,000 数据点)进行了测试,并与手动打标签的数据进行了比较,结果得出了相近的预测准确性。另外,基准测试结果显示,使用 Snorkel Drybell 的性能平均提升了 52%。


Snorkel 最初由斯坦福DAWN项目创建。DAWN 主页上写道:“DAWN 是一个为期 5 年的研究项目,旨在通过简化构建 AI 应用程序来展示 AI 的力量。Snorkel 是这个项目组合中的子项目之一”。与 DAWN 的愿景和在软件 2.0 中使用弱监督的信息分别可以在“一个有用的机器学习基础设施:斯坦福DAWN项目”和“多任务和弱监督在软件2.0中所扮演的角色”中找到。


查看英文原文Google Scales Weak Supervision to Overcome Labeled Dataset Problem


2019-05-13 08:0013778
用户头像

发布了 731 篇内容, 共 479.1 次阅读, 收获喜欢 2008 次。

关注

评论

发布
暂无评论
发现更多内容

MAMP PRO永久版:本地开发神器!

Rose

EndNote X9汉化安装包 及EndNote X9安装教程

Rose

车企接连入局人形机器人赛道,「小米」、「小鹏」能否维持先发优势

机器人头条

小米 人形机器人 具身智能 小鹏

哪款远程控制软件最合适日常使用?几款远控软件盘点

科技热闻

普洱市具有资质等保测评机构在哪里?电话多少?

行云管家

网络安全 等保 云南 普洱市

创意无限,绘图神器!OmniGraffle Pro,设计新高度

Rose

解锁数据洞察新境界!Tableau Desktop Pro 2020

Rose

“泡沫”催生行业“繁荣”,切入具身智能赛道正当时!!

机器人头条

机器人 强化学习 大模型 人形机器人 具身智能

即梦AI上线新功能,可一句话生成中文海报

极客天地

心理行业需要用到堡垒机的几个情形讲解

行云管家

心理 网络安全 等保 堡垒机

阿里大佬翻遍全网Java面试文章,总结出这份1658页文档,GitHub收获25K+点赞

Summer

Java 编程 程序员 面试 大厂

想在 Java 八股文面试中脱颖而出?这1000 道互联网大厂 工程师面试题必不可少

Summer

Java 程序员 面试 架构师 编程开发

macOS Developer Beta Access Utility(苹果开发者工具)

Rose

SketchUp Pro 2023:专业级3D建模,轻松实现创意构想

Rose

audirvana mac中文破解版 原生无损音乐播放器

Rose

Qt 开发 macOS 应用的技术难点

北京木奇移动技术有限公司

软件外包公司 QT外包开发 QT开发公司

ARM版CentOS Linux系统镜像文件(苹果M1专用) 及安装教程

Rose

谷歌采用弱监督算法给大规模数据集打标签_大数据_Aslan Brooke_InfoQ精选文章