InfoQ Geekathon 大模型技术应用创新大赛 了解详情
写点什么

每天审核淘宝性感图的工程师,竟然还做了这个

  • 2019-12-18
  • 本文字数:1271 字

    阅读完需:约 4 分钟

每天审核淘宝性感图的工程师,竟然还做了这个


导读:获取高置信标注的大规模数据集是有监督学习算法的一个难点问题,训练集中的噪声标签会严重降低模型的精度。通过所提出的噪声标签自动识别算法,无需人工干涉就可获取高质量的干净数据集,可以充分发挥海量弱标签数据的潜力,并提升模型的精度。


本文相关工作收录于 ICCV2019(IEEE International Conference on Computer Vision,CV 领域三大顶会之首),详细介绍了淘系技术部算法团队提出的一种简单、高效的噪声标签识别算法,只需调节训练时的学习率,就可以让 90% 的噪声标签原形毕露。


背景


训练数据的规模及其标注质量对有监督学习算法的性能影响重大。互联网上虽然有海量的可爬取的数据,但这些按照标签语义收集来的数据往往带有大量噪声。因此,要在这些弱标签数据上训练出高性能的深度神经网络模型,研究人员往往面临着从噪声中提取足够多有用信息的挑战。本文将介绍一种简单高效的噪声标签自动识别算法 ,只需设置学习率的变更策略就能识别出 90% 的噪声样本,进一步提高训练模型的精度和收敛速度。


通常基于 human-supervision 的标签净化方法中,为保障训练数据的质量往往需要投入高昂的成本。著名的图像数据集 ImageNet 有 120 万带标数据,标注过程中李飞飞实施多轮多人带验证题的复杂标注策略,才确保了数据集的质量。


但在实际业务中我们不可能投入如此巨大的成本,外包标注的数据往往是单次打标,许多因素会导致我们拿到的训练集存在不同程度的噪声,例如下图是外包对性感图任务打标结果的截图,对类似的图片标注结果完全相反,用这批带噪数据进行训练得到的模型精度无法达到上线要求。因此,对高质量数据的需求与低效率的人工标注,构成了广大算法攻城狮们在模型开发的初级阶段所要解决的主要矛盾。


外包标注结果中仍有噪声


针对噪声问题,一味地调整模型和算法治标不治本。我们在淘宝内容库类目分类识别的业务问题中发现,如果训练数据的精度不到 80% ,那么训练出来的模型精度是 72% 左右,无论模型怎么调整,精度只有 2%~3% 的提高,无法达到上线要求,因此还是需要从数据源头上解决问题。依赖 human supervision 的方式净化数据集需要耗费大量的时间,让多个外包统一打标的边界也需要付出很大的沟通成本。


为提高业务效率,我们沉淀出一套简单高效易移植的噪声样本识别算法,自动找出可能是噪声的样本,并通过剔除可疑噪声数据在干净训练集上训练以提高模型精度。在解决业务问题中,噪声样本识别算法给我们带来了以下两方面显著的好处:


1、提高标注效率。通过算法找出最可疑的样本,只需要对筛选出来的最可疑的样本进行二次审核,减少标注人员的工作量,也能大幅提高迭代速率。


2、提高模型精度。如果我们的噪声样本识别精度足够高,甚至识别精度达到 95%以上,我们甚至不需要对可疑的噪声样本做人工复审,直接剔除掉训练模型以提高精度。


接下来,我们将详细介绍噪声样本标签识别算法,相关工作已被计算机视觉领域的顶会 ICCV2019 接收《O2U-Net: A Simple Noisy Label Detection Approach for Deep Neural Networks》。


本文转载自淘系技术公众号。


原文链接:https://mp.weixin.qq.com/s/JnLo8C8cIGW1Fbyf3af5bg


活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2019-12-18 16:05423

评论

发布
暂无评论
发现更多内容

App Store上架流程/苹果app发布流程

雪奈椰子

Matlab实现神经网络

袁袁袁袁满

三周年连更

3月底JAVA面试太难,吃透这份JAVA架构面试笔记后,成功涨到30K

程序知音

Java java面试 java架构 后端技术 Java面试八股文

智能公厕设备升级方案@光明源智慧公厕

光明源智慧厕所

智慧城市

如何评价此次“前端已死”言论引起的轩然大波?

这我可不懂

前端 低代码 JNPF

多云管理的六大价值

穿过生命散发芬芳

多云管理 三周年连更

龙蜥社区 4 月度运营大事件回顾

OpenAnolis小助手

开源 运营 龙蜥社区 sig 月度回顾

服务百万商家的系统,发布风险如何规避?微盟全链路灰度实践

TakinTalks稳定性社区

SBOM喊话医疗器械网络安全:别慌,我罩你!Part Ⅱ

安势信息

网络安全 SBOM 开源组件 医疗器械 医疗网安

Confidential Containers发布0.5.0版本,龙蜥将基于八大特性构建开箱即用的机密容器解决方案

OpenAnolis小助手

开源 云原生 龙蜥社区 机密计算 机密容器

连ChatGPT都不懂的五一调休,到底怎么来的?

禅道项目管理

程序员 GPT 调休

ShareSDK 抖音平台注册指南

MobTech袤博科技

好玩的策略游戏:群星Stellaris+DLC

真大的脸盆

Mac mac游戏 科幻策略游戏 游戏推荐 游戏安利

编程界的新星 — Rust 凭什么被业界青睐(内附学习资源)

Greptime

rust 云原生 时序数据库 分布式时序数据库

程序员真的要失业了?新技术潮如何改变我们的职业生涯? | 社区征文

拾数崽

职业成长 ChatGPT 三周年征文

如何进行带有透明压缩技术的SSD基准测试?

ScaleFlux

扩容 存储技术 压缩数据 固态硬盘 企业数据

开启云上高效开发新时代,华为云开发者日东莞站成功举办

华为云开发者联盟

云计算 华为云 华为云开发者联盟 企业号 4 月 PK 榜

云服务规划技术

阿泽🧸

云服务 三周年连更

从五一的旅游热潮看,该如何实现数字文旅的转型升级?

加入高科技仿生人

低代码 旅游业 数字赋能

GitHub下载已过百万!阿里这份Java虚拟机源码剖析手册真的绝了

做梦都在改BUG

Java JVM 虚拟机

大型水利投资集团,打造数智财资管理新范式

用友BIP

软件测试/测试开发丨Python装饰器常见报错信息、原因和解决方案

测试人

Python 软件测试 自动化测试 装饰器 测试开发

【民生证券】敏捷转型大步迈进!民生证券敏捷实践培训圆满结束!

嘉为蓝鲸

敏捷转型 民生证券

浅谈复杂业务系统的架构设计 | 京东云技术团队

京东科技开发者

架构 DDD 架构设计 企业号 4 月 PK 榜 复杂系统

5月7日【飞天Club × 云原生技术实践营—飞天免费计划实践专场】开启报名

阿里巴巴云原生

阿里云 云原生 飞天Club

软件测试/测试开发丨利用ChatGPT自动生成测试用例思维导图

测试人

软件测试 自动化测试 测试开发 测试用例 ChatGPT

软件测试/测试开发丨面试题之软素质与反问面试官篇(附答案)

测试人

软件测试 自动化测试 测试开发 测试用例 ChatGPT

GitHub经典教材!阿里P8的这份SpringBoot精髓到底厉害在哪里?

做梦都在改BUG

Java spring 微服务 Spring Boot 框架

Matlab实现PCA算法

Shine

三周年连更

通过“群战”实现全民普惠,e签宝带来哪些思考?

ToB行业头条

人脸识别:现代科技与隐私保护的博弈

来自四九城儿

  • 扫码添加小助手
    领取最新资料包
每天审核淘宝性感图的工程师,竟然还做了这个_语言 & 开发_淘系技术_InfoQ精选文章