写点什么

谷歌采用弱监督算法给大规模数据集打标签

  • 2019-05-13
  • 本文字数:835 字

    阅读完需:约 3 分钟

谷歌采用弱监督算法给大规模数据集打标签

谷歌意识到标签数据是机器学习的一个重要瓶颈,所以最近采用了开源框架Snorkel来解决这个问题。谷歌与斯坦福和布朗大学合作研究这个问题。他们在 AI 博客上记录了研究结果,并发表了一篇名为“Snorkel Drybell:在行业规模部署弱监督的案例研究”的论文。


Snorkel 通过软件算法为训练数据打标签,而不是通过手动的方式。这项技术被称为弱监督。该算法可以使用任何可用的知识,包括知识图谱、规则和统计信息。有多种算法可用来给同样的数据打标签。每种算法可以提供一个或多个标签,也可以去掉标签。然后 Snorkel 会自动基于对标签准确性的估计来分配权重。Snorkel 通过比较标签的准确性来做出估计,并基于算法权重和相关标签为每个数据点创建一个单独的概率性标签。


谷歌基于 Snorkel 构建了 Snorkel Drybell,旨在处理 Web 规模的数据。它将 Snorkel 与 TensorFlow 进行了集成,加入了共享内存计算,增强了原先的单节点设计。谷歌并没有强制用于表示训练数据的数据模型采用严格的上下文层级结构。它还移除了对使用数据库保存数据的依赖,取而代之的是分布式文件系统。最后,谷歌将标签功能作为单独的可执行文件,可以在文件系统上共享数据。这些变化让 Snorkel 可以使用大量的知识,并基于弱监督算法对数据打标签。


谷歌使用 Snorkel Drybell 分别对两组模型(一个是 12,000 个数据点,一个是 80,000 数据点)进行了测试,并与手动打标签的数据进行了比较,结果得出了相近的预测准确性。另外,基准测试结果显示,使用 Snorkel Drybell 的性能平均提升了 52%。


Snorkel 最初由斯坦福DAWN项目创建。DAWN 主页上写道:“DAWN 是一个为期 5 年的研究项目,旨在通过简化构建 AI 应用程序来展示 AI 的力量。Snorkel 是这个项目组合中的子项目之一”。与 DAWN 的愿景和在软件 2.0 中使用弱监督的信息分别可以在“一个有用的机器学习基础设施:斯坦福DAWN项目”和“多任务和弱监督在软件2.0中所扮演的角色”中找到。


查看英文原文Google Scales Weak Supervision to Overcome Labeled Dataset Problem


2019-05-13 08:0013642
用户头像

发布了 731 篇内容, 共 468.4 次阅读, 收获喜欢 2006 次。

关注

评论

发布
暂无评论
发现更多内容

架构师训练营 - 命题作业 - 第一周

徐时良

极客大学架构师训练营

极客大学-架构师训练营第一期-食堂就餐系统设计

Black Eyed Peter

极客大学架构师训练营

架构设计大作业二

极客李

统一建模语言(UML)

leo

架构1期第一周作业-系统设计

道长

极客大学架构师训练营

食堂就餐卡系统设计

knight

架构师训练营 - 学习笔记 - 第一周

徐时良

极客大学架构师训练营

架构师训练营2期-第一周总结

Geek_no_one

极客大学架构师训练营

架构师训练营—第一周命题作业UML

Geek_shu1988

架构师训练营第1期第1周学习总结

owl

极客大学架构师训练营

[架构师训练营第 1 期]第一周学习总结

猫切切切切切

极客大学架构师训练营

week01 总结

xxx

架构师训练营 week 1 笔记

陈春亮

极客大学架构师训练营

【第一周】架构方法

云龙

第一周 作业二:架构设计学习总结【未陌】

a d e

学习 总结 架构设计

第一周学习总结

vitaminc

第一周命题作业

架构师训练营第一周学习总结

null

架构师训练营 week 1 作业

陈春亮

极客大学架构师训练营

[架构师训练营第1期]第一周命题作业

猫切切切切切

食堂就餐卡系统设计

灰羽零

第一周课后练习

大大猫

极客大学架构师训练营

食堂就餐卡系统UML设计

leo

架构师训练营第一周作业

赵孔磊

极客大学 - 架构师训练营第一期 - 食堂就餐系统设计-学习心得

Black Eyed Peter

极客大学架构师训练营

架构师训练营第一周作业

null

架构师训练营—第一周学习总结

Geek_shu1988

架构师 UML

架构第一周学习总结

灰羽零

第一周 作业一:食堂就餐卡系统设计【未陌】

a d e

架构设计

ARTS打卡Week 13

teoking

ios

架构师训练营第一周总结

赵孔磊

食堂就餐卡系统UML设计

Meow

极客大学架构师训练营

谷歌采用弱监督算法给大规模数据集打标签_大数据_Aslan Brooke_InfoQ精选文章