写点什么

谷歌采用弱监督算法给大规模数据集打标签

  • 2019-05-13
  • 本文字数:835 字

    阅读完需:约 3 分钟

谷歌采用弱监督算法给大规模数据集打标签

谷歌意识到标签数据是机器学习的一个重要瓶颈,所以最近采用了开源框架Snorkel来解决这个问题。谷歌与斯坦福和布朗大学合作研究这个问题。他们在 AI 博客上记录了研究结果,并发表了一篇名为“Snorkel Drybell:在行业规模部署弱监督的案例研究”的论文。


Snorkel 通过软件算法为训练数据打标签,而不是通过手动的方式。这项技术被称为弱监督。该算法可以使用任何可用的知识,包括知识图谱、规则和统计信息。有多种算法可用来给同样的数据打标签。每种算法可以提供一个或多个标签,也可以去掉标签。然后 Snorkel 会自动基于对标签准确性的估计来分配权重。Snorkel 通过比较标签的准确性来做出估计,并基于算法权重和相关标签为每个数据点创建一个单独的概率性标签。


谷歌基于 Snorkel 构建了 Snorkel Drybell,旨在处理 Web 规模的数据。它将 Snorkel 与 TensorFlow 进行了集成,加入了共享内存计算,增强了原先的单节点设计。谷歌并没有强制用于表示训练数据的数据模型采用严格的上下文层级结构。它还移除了对使用数据库保存数据的依赖,取而代之的是分布式文件系统。最后,谷歌将标签功能作为单独的可执行文件,可以在文件系统上共享数据。这些变化让 Snorkel 可以使用大量的知识,并基于弱监督算法对数据打标签。


谷歌使用 Snorkel Drybell 分别对两组模型(一个是 12,000 个数据点,一个是 80,000 数据点)进行了测试,并与手动打标签的数据进行了比较,结果得出了相近的预测准确性。另外,基准测试结果显示,使用 Snorkel Drybell 的性能平均提升了 52%。


Snorkel 最初由斯坦福DAWN项目创建。DAWN 主页上写道:“DAWN 是一个为期 5 年的研究项目,旨在通过简化构建 AI 应用程序来展示 AI 的力量。Snorkel 是这个项目组合中的子项目之一”。与 DAWN 的愿景和在软件 2.0 中使用弱监督的信息分别可以在“一个有用的机器学习基础设施:斯坦福DAWN项目”和“多任务和弱监督在软件2.0中所扮演的角色”中找到。


查看英文原文Google Scales Weak Supervision to Overcome Labeled Dataset Problem


2019-05-13 08:0013736
用户头像

发布了 731 篇内容, 共 475.4 次阅读, 收获喜欢 2008 次。

关注

评论

发布
暂无评论
发现更多内容

线上问题定位神器:Arthas

量贩潮汐·WholesaleTide

Python

超强组合!Dify+Milvus构建生产级RAG系统的终极指南

阿里云大数据AI技术

人工智能 云计算 大数据 Milvus dify

10分钟无痛部署!字节Coze开源版喂饭教程

测试人

2025可信数据库发展大会召开,天翼云TeleDB领航核心系统创新实践!

天翼云开发者社区

数据库

Vidar Stealer:隐藏在Steam游戏中的信息窃取恶意软件分析

qife122

恶意软件 威胁分析

社区新贡献:X2SeaTunnel 助你无缝迁移到 SeaTunnel!

白鲸开源

开源 数据同步 Apache SeaTunnel 数据迁移工具 X2SeaTunnel

一图读懂网易灵动“灵掘”与“机械智心”

网易伏羲

智慧矿山 网易灵动 无人挖掘机 无人装载机 装载机器人

智能化测试基础架构

测吧(北京)科技有限公司

人工智能 软件测试 测试开发 agent

跟复旦硕士聊了1小时,没想到这些基础题他居然也栽了

王中阳Go

Go 后端 模拟面试

全球首发!网易灵动推出“灵掘”具身智能模型,展示中国工程机械智能化硬核实力

网易伏羲

智慧矿山 网易伏羲 网易灵动 工程机械智能化 工程机器人

新手教程:用外部 PostgreSQL 和 Zookeeper 启动 Dolphinscheduler

白鲸开源

数据库 postgresql zookeeper 开源 Apache DolphinScheduler

ManageEngine卓豪如何助你轻松应对GMP/FDA审计?

ServiceDesk_Plus

ManageEngine卓豪

全球AI大模型综合排名(Top 20)

测吧(北京)科技有限公司

人工智能 软件测试 测试开发

每日经济新闻专访:押注具身智能模型、不做硬件做“大脑”,网易能否啃下比智驾更复杂的“硬骨头”?

网易伏羲

智慧矿山 网易灵动 工程机械智能化 挖掘机器人 装载机器人

数据治理之数据质量评估维度及方法

天翼云开发者社区

数据治理

社交媒体上舆情监测的“微爆点”:如何识别和干预?

沃观Wovision

舆情监测 海外舆情监控 沃观Wovision 舆情监测系统

AI Gateway 分析:OpenRouter vs Higress

阿里巴巴云原生

阿里云 云原生 Higress

多分支注意力机制提升表格数据建模效果

qife122

机器学习 表格数据

昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题

极客天地

圆满闭幕|WAIC2025规模创历史新高,“灵掘”具身智能模型全球首发引全网关注

网易伏羲

智慧矿山 工程机械智能化 工程机器人 挖掘机器人 装载机器人

汽车线束行业AI智能化MES解决方案:推动智能制造与质量升级

万界星空科技

mes 汽车线束行业 汽车线束mes 制造业转型 智能化MES

每日经济新闻专访:押注具身智能模型、不做硬件做“大脑”,网易能否啃下比智驾更复杂的“硬骨头”?

网易伏羲

智慧矿山 网易灵动 工程机械智能化 挖掘机器人 装载机器人

守护金融核心业务 | 博睿数据《金融业务全景与全链路智能可观测体系建设白皮书》发布!

博睿数据

AI 赋能的故障排除:技术趋势与实践

不在线第一只蜗牛

人工智能

中烟创新自研【烟草专卖执法案卷评查系统】入选“北京市人工智能赋能行业发展典型案例”

中烟创新

【直播预约】天翼云如何通过 DolphinScheduler 实现大数据自动化与全链路血缘,探索实践亮点!

白鲸开源

大数据 技术分享 Apache DolphinScheduler 天翼云 血缘关系

一文教会你基于 Rainbond 部署 DolphinScheduler 高可用集群

白鲸开源

大数据 开源 部署 Apache DolphinScheduler rainbond

Django模型关系:从一对多到多对多全解析

电子尖叫食人鱼

数据库 django

稳居第一,实至名归!

天翼云开发者社区

云服务

暑期高效出行用鸿蒙5,华为钱包畅行无忧卡一碰就过闸、小艺问答智能规划行程

最新动态

e签宝CEO金宏洲受邀出席WAIC世界人工智能大会

科技汇

谷歌采用弱监督算法给大规模数据集打标签_大数据_Aslan Brooke_InfoQ精选文章