写点什么

谷歌采用弱监督算法给大规模数据集打标签

  • 2019-05-13
  • 本文字数:835 字

    阅读完需:约 3 分钟

谷歌采用弱监督算法给大规模数据集打标签

谷歌意识到标签数据是机器学习的一个重要瓶颈,所以最近采用了开源框架Snorkel来解决这个问题。谷歌与斯坦福和布朗大学合作研究这个问题。他们在 AI 博客上记录了研究结果,并发表了一篇名为“Snorkel Drybell:在行业规模部署弱监督的案例研究”的论文。


Snorkel 通过软件算法为训练数据打标签,而不是通过手动的方式。这项技术被称为弱监督。该算法可以使用任何可用的知识,包括知识图谱、规则和统计信息。有多种算法可用来给同样的数据打标签。每种算法可以提供一个或多个标签,也可以去掉标签。然后 Snorkel 会自动基于对标签准确性的估计来分配权重。Snorkel 通过比较标签的准确性来做出估计,并基于算法权重和相关标签为每个数据点创建一个单独的概率性标签。


谷歌基于 Snorkel 构建了 Snorkel Drybell,旨在处理 Web 规模的数据。它将 Snorkel 与 TensorFlow 进行了集成,加入了共享内存计算,增强了原先的单节点设计。谷歌并没有强制用于表示训练数据的数据模型采用严格的上下文层级结构。它还移除了对使用数据库保存数据的依赖,取而代之的是分布式文件系统。最后,谷歌将标签功能作为单独的可执行文件,可以在文件系统上共享数据。这些变化让 Snorkel 可以使用大量的知识,并基于弱监督算法对数据打标签。


谷歌使用 Snorkel Drybell 分别对两组模型(一个是 12,000 个数据点,一个是 80,000 数据点)进行了测试,并与手动打标签的数据进行了比较,结果得出了相近的预测准确性。另外,基准测试结果显示,使用 Snorkel Drybell 的性能平均提升了 52%。


Snorkel 最初由斯坦福DAWN项目创建。DAWN 主页上写道:“DAWN 是一个为期 5 年的研究项目,旨在通过简化构建 AI 应用程序来展示 AI 的力量。Snorkel 是这个项目组合中的子项目之一”。与 DAWN 的愿景和在软件 2.0 中使用弱监督的信息分别可以在“一个有用的机器学习基础设施:斯坦福DAWN项目”和“多任务和弱监督在软件2.0中所扮演的角色”中找到。


查看英文原文Google Scales Weak Supervision to Overcome Labeled Dataset Problem


2019-05-13 08:0013623
用户头像

发布了 731 篇内容, 共 467.0 次阅读, 收获喜欢 2006 次。

关注

评论

发布
暂无评论
发现更多内容

Python时间序列分析简介(1)

计算机与AI

Python pandas 数据处理 时间序列

架构师训练营第三周:系统架构

m

这可能是GitHub上最适合计算机专业学生看的编程教程

小Q

Java 学习 编程 面试 基础

MySQL-技术专题-主从复制原理

码界西柚

干货 | 全面解析“数字经济”

CECBC

数字经济 经济 经济建设

Nginx 整合 FastDFS 实现文件服务器

哈喽沃德先生

nginx 文件系统 分布式文件存储 fastdfs 文件服务器

JavaScript 语言通识 — 重学 JavaScript

三钻

Java 大前端

节日快乐…吗?

小天同学

个人感悟 国庆中秋 假期 节日

第三节课后作业

happy

云原生虚机应用托管-设计篇

8小时

私有云PAAS平台的思考

8小时

区块链技术最重要价值所在

CECBC

区块链 数字经济 经济

第三周总结

Geek_ac4080

关于代码审查的一点体会

KJ Meng

敏捷开发 研发管理 代码审查 Code Review

开源的意义与价值

Braisdom

Java 开源 ORM

看动画学算法之:linkedList

程序那些事

数据结构和算法 看动画学算法 看动画学数据结构 算法和数据结构

2N方定点算法

武夷梅占

php 数据库 分布式 算法 后端

线上服务平均响应时间太长,怎么排查?

小Q

Java 程序员 测试 Jmeter 性能调优

「剑指offer」27道Mybatis面试题含解析

Java架构师迁哥

第三周作业

Geek_ac4080

第四周

Geek_fabd84

如果朋友圈没有点赞功能,你还会发朋友圈吗

彭宏豪95

微信 产品 互联网 写作

~~寒露节记~~

wo是一棵草

【第三周】课后作业

云龙

基于区块链技术实现“资产通证化”

CECBC

资产证券化 流动性

架构师训练营 第三周作业

haha

极客大学架构师训练营

手把手教你锤面试官 03——Spring怎么那么简单

慵懒的土拨鼠

各角色如何从DevOps中受益?

禅道项目管理

DevOps 产品经理 测试 开发 运维工程师

架构师训练营第一期 - 第四周课后 - 作业一

极客大学架构师训练营

【第三周】代码重构

云龙

如何使用 dotTrace 来诊断 netcore 应用的性能问题

newbe36524

微服务 .net core netcore ASP.NET Core

谷歌采用弱监督算法给大规模数据集打标签_大数据_Aslan Brooke_InfoQ精选文章