2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

谷歌采用弱监督算法给大规模数据集打标签

  • 2019-05-13
  • 本文字数:835 字

    阅读完需:约 3 分钟

谷歌采用弱监督算法给大规模数据集打标签

谷歌意识到标签数据是机器学习的一个重要瓶颈,所以最近采用了开源框架Snorkel来解决这个问题。谷歌与斯坦福和布朗大学合作研究这个问题。他们在 AI 博客上记录了研究结果,并发表了一篇名为“Snorkel Drybell:在行业规模部署弱监督的案例研究”的论文。


Snorkel 通过软件算法为训练数据打标签,而不是通过手动的方式。这项技术被称为弱监督。该算法可以使用任何可用的知识,包括知识图谱、规则和统计信息。有多种算法可用来给同样的数据打标签。每种算法可以提供一个或多个标签,也可以去掉标签。然后 Snorkel 会自动基于对标签准确性的估计来分配权重。Snorkel 通过比较标签的准确性来做出估计,并基于算法权重和相关标签为每个数据点创建一个单独的概率性标签。


谷歌基于 Snorkel 构建了 Snorkel Drybell,旨在处理 Web 规模的数据。它将 Snorkel 与 TensorFlow 进行了集成,加入了共享内存计算,增强了原先的单节点设计。谷歌并没有强制用于表示训练数据的数据模型采用严格的上下文层级结构。它还移除了对使用数据库保存数据的依赖,取而代之的是分布式文件系统。最后,谷歌将标签功能作为单独的可执行文件,可以在文件系统上共享数据。这些变化让 Snorkel 可以使用大量的知识,并基于弱监督算法对数据打标签。


谷歌使用 Snorkel Drybell 分别对两组模型(一个是 12,000 个数据点,一个是 80,000 数据点)进行了测试,并与手动打标签的数据进行了比较,结果得出了相近的预测准确性。另外,基准测试结果显示,使用 Snorkel Drybell 的性能平均提升了 52%。


Snorkel 最初由斯坦福DAWN项目创建。DAWN 主页上写道:“DAWN 是一个为期 5 年的研究项目,旨在通过简化构建 AI 应用程序来展示 AI 的力量。Snorkel 是这个项目组合中的子项目之一”。与 DAWN 的愿景和在软件 2.0 中使用弱监督的信息分别可以在“一个有用的机器学习基础设施:斯坦福DAWN项目”和“多任务和弱监督在软件2.0中所扮演的角色”中找到。


查看英文原文Google Scales Weak Supervision to Overcome Labeled Dataset Problem


2019-05-13 08:0013793
用户头像

发布了 731 篇内容, 共 480.0 次阅读, 收获喜欢 2008 次。

关注

评论

发布
暂无评论
发现更多内容

本地生活小程序(源码+文档+部署+讲解)

深圳亥时科技

品牌线下连锁商城(源码+文档+部署+讲解)

深圳亥时科技

网上纪念馆(源码+文档+部署+讲解)

深圳亥时科技

软件测试学习笔记丨Pytest的使用

测试人

软件测试

狂欢来袭!解锁西部数据“双十一”选购宝典,满足你的多样存储需求

极客天地

小鹅通面经详解,冲!

王中阳Go

Go 后端 面经

鸿蒙网络编程系列2-UDP回声服务器的实现

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

ITIL运维管理体系是什么?怎样选择合适的方案?

ServiceDesk_Plus

ITIL

研发都应该了解的如何在vite中接入现代化css工程化方案

京东科技开发者

鸿蒙网络编程系列3-TCP客户端通讯示例

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

项目管理全流程平台(源码+文档+部署+讲解)

深圳亥时科技

巡检任务管理系统(源码+文档+部署+讲解)

深圳亥时科技

Etcd 可观测最佳实践

观测云

etcd

鸿蒙网络编程系列6-TCP数据粘包表现及原因分析

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

鸿蒙网络编程系列7-TLS安全数据传输单向认证示例

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

电子病历系统(源码+文档+部署+讲解)

深圳亥时科技

售票系统(源码+文档+部署+讲解)

深圳亥时科技

园区维护管理(源码+文档+部署+讲解)

深圳亥时科技

万界星空科技造纸行业MES系统功能介绍及解决方案

万界星空科技

mes 万界星空科技 制造业工厂 造纸行业 造纸mes

鸿蒙网络编程系列4-实现Smtp邮件发送客户端

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

1.4亿元融资背后,媒体融合进程被按下“加速键”

Alter

Taro 鸿蒙技术内幕系列(一):如何将 React 代码跑在 ArkUI 上

京东科技开发者

鸿蒙网络编程系列1-UDP通讯示例

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

鸿蒙网络编程系列5-TCP连接超时分析

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

拍立淘API返回值算法深度解析:智能化按图搜索的奥秘

代码忍者

pinduoduo API API 性能测试

万界星空科技装配式建筑材料行业mes

万界星空科技

mes 万界星空科技mes 装配式建筑材料 建筑材料 建筑mes

海南自贸港成功举办第二届世界医疗旅游与全球健康(博鳌)大会1300中外嘉宾出席

极客天地

探索Playwright:前端自动化测试的新纪元

京东科技开发者

谷歌采用弱监督算法给大规模数据集打标签_大数据_Aslan Brooke_InfoQ精选文章