把握行业变革关键节点,12 月 19 日 - 20 日,AICon北京站即将重磅启幕! 了解详情
写点什么

谷歌采用弱监督算法给大规模数据集打标签

  • 2019-05-13
  • 本文字数:835 字

    阅读完需:约 3 分钟

谷歌采用弱监督算法给大规模数据集打标签

谷歌意识到标签数据是机器学习的一个重要瓶颈,所以最近采用了开源框架Snorkel来解决这个问题。谷歌与斯坦福和布朗大学合作研究这个问题。他们在 AI 博客上记录了研究结果,并发表了一篇名为“Snorkel Drybell:在行业规模部署弱监督的案例研究”的论文。


Snorkel 通过软件算法为训练数据打标签,而不是通过手动的方式。这项技术被称为弱监督。该算法可以使用任何可用的知识,包括知识图谱、规则和统计信息。有多种算法可用来给同样的数据打标签。每种算法可以提供一个或多个标签,也可以去掉标签。然后 Snorkel 会自动基于对标签准确性的估计来分配权重。Snorkel 通过比较标签的准确性来做出估计,并基于算法权重和相关标签为每个数据点创建一个单独的概率性标签。


谷歌基于 Snorkel 构建了 Snorkel Drybell,旨在处理 Web 规模的数据。它将 Snorkel 与 TensorFlow 进行了集成,加入了共享内存计算,增强了原先的单节点设计。谷歌并没有强制用于表示训练数据的数据模型采用严格的上下文层级结构。它还移除了对使用数据库保存数据的依赖,取而代之的是分布式文件系统。最后,谷歌将标签功能作为单独的可执行文件,可以在文件系统上共享数据。这些变化让 Snorkel 可以使用大量的知识,并基于弱监督算法对数据打标签。


谷歌使用 Snorkel Drybell 分别对两组模型(一个是 12,000 个数据点,一个是 80,000 数据点)进行了测试,并与手动打标签的数据进行了比较,结果得出了相近的预测准确性。另外,基准测试结果显示,使用 Snorkel Drybell 的性能平均提升了 52%。


Snorkel 最初由斯坦福DAWN项目创建。DAWN 主页上写道:“DAWN 是一个为期 5 年的研究项目,旨在通过简化构建 AI 应用程序来展示 AI 的力量。Snorkel 是这个项目组合中的子项目之一”。与 DAWN 的愿景和在软件 2.0 中使用弱监督的信息分别可以在“一个有用的机器学习基础设施:斯坦福DAWN项目”和“多任务和弱监督在软件2.0中所扮演的角色”中找到。


查看英文原文Google Scales Weak Supervision to Overcome Labeled Dataset Problem


2019-05-13 08:0013830
用户头像

发布了 731 篇内容, 共 482.6 次阅读, 收获喜欢 2008 次。

关注

评论

发布
暂无评论
发现更多内容

加拿大程序员趣闻系列 1_N,kotlin线程锁

android 程序员 移动开发

原来面试讲究方法!终于从【小公司一面就挂,下血本买的

android 程序员 移动开发

去抖音面试被问到硬编码与软编码区别,如何选取硬编与软编?

android 程序员 移动开发

冲刺金三银四:Android即将迎来面试高峰期,掌握这四步离你理想的岗位不远了

android 程序员 移动开发

分析Android未来几年的发展前景,制定一份属于你的移动开发职业规划!

android 程序员 移动开发

初冬太冷?圣诞无处可去?那跟我一起来学Android吧,android嵌入式应用开发

android 程序员 移动开发

十年辗转4厂,百场校、社招面试后,移动端app开发框架

android 程序员 移动开发

十月的Android面试之旅,惨败在字节三面,幸斩获小米Offer

android 程序员 移动开发

原来面试讲究方法!终于从【小公司一面就挂(1),实战android应用开发百度下载

android 程序员 移动开发

宝藏级学习图谱React、Vue、Angular、Ember、Node

devpoint

Vue angular React 11月日更

02 K8S之基础知识

穿过生命散发芬芳

k8s 11月日更

凭借这938页Android面试题合集,拿下了字节,滴滴,Android架构师必备框架技能核心笔记

android 程序员 移动开发

十年未见,当初的Android大佬已经不再牛逼,生活让他承受了太多无奈

android 程序员 移动开发

冲呀!Kotlin-Jetpack-实战之Kotlin-高阶函数!,android初级面试题2018

android 程序员 移动开发

厉害了,这竟然是毕业一年萌新的Android大厂面筋,赶紧来看看

android 程序员 移动开发

最近爆火的互动播客,要解决哪些技术难题?

RTE开发者社区

RTC 互动博客

历经一年准备我终于进大厂了!(学习总结-&-BAT面试分享

android 程序员 移动开发

【并发编程技术】「技术辩证分析」在并发编程模式下进行线程安全以及活跃性问题简析

码界西柚

Java 并发编程 线程安全 11月日更

分享学妹提前谋划两年成功入职腾讯面经,Android面试吃透这套资料面试成功率直线飙升!

android 程序员 移动开发

勤勤恳恳做到30岁,3名百度 ,京东,完爆面试官

android 程序员 移动开发

十大Intellij IDEA快捷键,android开发计算器界面

android 程序员 移动开发

刚刚面试完字节跳动,华为,阿里均拿到Offer,安卓开发面试题自定义view

android 程序员 移动开发

分享一些重要的Android面试题,已拿offer附真题解析

android 程序员 移动开发

单例模式详解,flutter跳转

android 程序员 移动开发

原来一个App是这样启动起来的,一看就懂,剖析Android开发未来的出路在哪里

android 程序员 移动开发

原来Span可以这样加载网络图(下),安卓面试题

android 程序员 移动开发

原来学Flutter的人,现在后悔了吗?,我离职后面试收割小米等大厂offer

android 程序员 移动开发

模块二作业

lxz

出身最奇葩的程序员:360行,行行转IT,细节爆炸

android 程序员 移动开发

分享一个RecyclerView中定点刷新的小技巧,android音频框架

android 程序员 移动开发

利用Android Studio 上传项目到 github,三年老Android经验面经

android 程序员 移动开发

谷歌采用弱监督算法给大规模数据集打标签_大数据_Aslan Brooke_InfoQ精选文章