写点什么

谷歌采用弱监督算法给大规模数据集打标签

  • 2019-05-13
  • 本文字数:835 字

    阅读完需:约 3 分钟

谷歌采用弱监督算法给大规模数据集打标签

谷歌意识到标签数据是机器学习的一个重要瓶颈,所以最近采用了开源框架Snorkel来解决这个问题。谷歌与斯坦福和布朗大学合作研究这个问题。他们在 AI 博客上记录了研究结果,并发表了一篇名为“Snorkel Drybell:在行业规模部署弱监督的案例研究”的论文。


Snorkel 通过软件算法为训练数据打标签,而不是通过手动的方式。这项技术被称为弱监督。该算法可以使用任何可用的知识,包括知识图谱、规则和统计信息。有多种算法可用来给同样的数据打标签。每种算法可以提供一个或多个标签,也可以去掉标签。然后 Snorkel 会自动基于对标签准确性的估计来分配权重。Snorkel 通过比较标签的准确性来做出估计,并基于算法权重和相关标签为每个数据点创建一个单独的概率性标签。


谷歌基于 Snorkel 构建了 Snorkel Drybell,旨在处理 Web 规模的数据。它将 Snorkel 与 TensorFlow 进行了集成,加入了共享内存计算,增强了原先的单节点设计。谷歌并没有强制用于表示训练数据的数据模型采用严格的上下文层级结构。它还移除了对使用数据库保存数据的依赖,取而代之的是分布式文件系统。最后,谷歌将标签功能作为单独的可执行文件,可以在文件系统上共享数据。这些变化让 Snorkel 可以使用大量的知识,并基于弱监督算法对数据打标签。


谷歌使用 Snorkel Drybell 分别对两组模型(一个是 12,000 个数据点,一个是 80,000 数据点)进行了测试,并与手动打标签的数据进行了比较,结果得出了相近的预测准确性。另外,基准测试结果显示,使用 Snorkel Drybell 的性能平均提升了 52%。


Snorkel 最初由斯坦福DAWN项目创建。DAWN 主页上写道:“DAWN 是一个为期 5 年的研究项目,旨在通过简化构建 AI 应用程序来展示 AI 的力量。Snorkel 是这个项目组合中的子项目之一”。与 DAWN 的愿景和在软件 2.0 中使用弱监督的信息分别可以在“一个有用的机器学习基础设施:斯坦福DAWN项目”和“多任务和弱监督在软件2.0中所扮演的角色”中找到。


查看英文原文Google Scales Weak Supervision to Overcome Labeled Dataset Problem


2019-05-13 08:0013845
用户头像

发布了 731 篇内容, 共 484.3 次阅读, 收获喜欢 2008 次。

关注

评论

发布
暂无评论
发现更多内容

多省市出台关于区块链人才引进的计划

CECBC

新基建 区块链技术

知路,然后智行远;懂行,所以万业兴

脑极体

你为什么还在用存储过程?

架构师修行之路

数据库设计 架构设计

从数据中台到AI中台,企业到底要建什么中台?

脑极体

# spring boot自定义线程池进行异步调用

一盐难进

Java

基于 grpc,protobuf搭建 server/client模型通信

是老郭啊

JDK1.8新特性(七):默认方法,真香,开动!接口?我要升级!!

xcbeyond

接口 新特性 JDK1.8 默认方法 JDK1.8新特性

机器学习算法之——K最近邻(k-Nearest Neighbor,KNN)分类算法原理讲解

迈微AI研发社

学习 算法 KNN K聚类

区块链跃升各国创新战略

CECBC

新基建 国家战略 区块链标准

如何理解Java8 的函数式编程

Rayjun

Java 函数式编程

踩坑记 | Flutter升级影响了NestedScrollView?

哈利迪

android

真正的勇士,会跨过六道裂谷,奔向云与AI的彼端

脑极体

机器学习算法之——卷积神经网络(CNN)原理讲解

迈微AI研发社

学习 算法 卷积神经网络 CNN

Kafka处理请求的全流程解析

yes

kafka 面试 后端 消息队列 源码解析

如何设计实现一个证书加密签名工具包

三尾鱼

数据库的乐观锁和悲观锁并非真实的锁

架构师修行之路

数据库 架构 乐观锁 悲观锁 分布式锁

LeetCode题解:21. 合并两个有序链表,利用数组排序,JavaScript,详细注释

Lee Chen

大前端 LeetCode

原来你是这样的B+树

Java技术宝典

B+树

DevOps 技术栈

柴锋

Linux DevOps 运维 敏捷 Shell

区块链+收藏品,全球三种典型应用路径的差异化

CECBC

区块链 应用价值

如何对 ElasticSearch 集群进行压力测试

白宦成

elasticsearch ELK Elastic Stack

Go: 互斥锁和饥饿

陈思敏捷

mutex Go 语言

troubleshoot之:用control+break解决线程死锁问题

程序那些事

Java JVM 死锁

LeetCode题解:24. 两两交换链表中的节点,递归,JavaScript,详细注释

Lee Chen

大前端 LeetCode

List 和 Map 的排序

一盐难进

Java

2.1.2 类加载器的工作原理与自定义加载器 -《SSM深入解析与项目实战》

谙忆

ARTS Week8

丽子

服务器与普通电脑的区别?

德胜网络-阳

HTTPS证书过期导致的故障

焦振清

运维 https SRE 服务故障 证书过期

ARTS-week-2

saddamwilson

ARTS 打卡计划

2.2.1 类反射 -《SSM深入解析与项目实战》

谙忆

谷歌采用弱监督算法给大规模数据集打标签_大数据_Aslan Brooke_InfoQ精选文章