写点什么

雅虎开源色情图片检测神经网络

  • 2016-10-16
  • 本文字数:1064 字

    阅读完需:约 3 分钟

近期,雅虎刚刚开源了他们自己构建的一套深度学习神经网络,它专门用于自动检测图片是否含有色情内容。

NSFW(Not Suitable For Work)用于标记不适合上班时间浏览的网络内容,它的界定其实是很主观的,有的人反感的东西可能其他人并不觉得如何。雅虎的这个深度学习神经网络的定位是专注于 NSFW 中的色情图片。所以,该模型不适用于处理素描、文字、动画、暴力图片等内容。

对色情图片的鉴定并不容易,所以除了技术手段之外往往都离不开人工,于是就催生了鉴黄师这样的岗位。因为对于机器来说,图片都是些 RGB 的像素罢了,不论是花草树木,还是香车美女,摆在无欲无求的机器面前并无差异。而人,却对它有天生识别能力。美国前大法官波特·斯图尔特就有这样一句名言:“ 我看到它,才知道它是不是”。因此,机器是得向人来学习如何判定色情图片的。

该神经网络使用了 CaffeOnSpark ,这是一个基于 Hadoop/Spark 的分布式深度学习框架。雅虎已经基于已有的数据对模型进行了训练,这些数据既包括 NSFW 的,也包括 SFW(suitable for work,适合上班时间浏览)的,每张图片已明确标记好。在通过学习之后,它会为每张待鉴定的图片打出一个 NSFW 得分,表示属于 NSFW 的可能性。该值范围从 0 至 1,小于 0.2 表示很有可能是安全的,大于 0.8 表示有很大可能是 NSFW 的。如下图所示,花丛中的少女衣着保守,得分 0.001,而运动中的女孩和海边的男子虽暴露了部分肢体,但得分也仅为 0.116 和 0.074,都未达到 NSFW 的标准。想了解该模型生成和训练的更多详情,请戳这里

雅虎建议大家在使用时选择自己的阈值,因为应用场景和对 NSFW 标准的理解可能会有差异,所以开发人员最好根据自己应用对 NSFW 的定义来设定评估值。

在 Reddit 上,大家就该模型对评估的有效性展开了讨论。有人认为:

“不知道它的评估是否准确,如果能允许大家上传图片,它打出分来让大家评价一下效果就好了”

而有人就此回应说:

“我不知道你会怎么看,但我肯定不会让人把最 NSFW 的图片上传到我的服务器上的”

出于某些原因,在公共网络上放置各类 NSFW 图片的确不太合适。好在雅虎已经将此模型开源,如果各位感兴趣的话,可以自己动手实践一下,看它给出的评估是否符合你的标准。你可以通过 雅虎的文章 了解更多详细内容,模型可以在 GitHub 上下载。如果你想要搭建自己的色情图片识别系统,必须要自己提供数据,这可能对大家来说不算什么难事。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-10-16 19:006070

评论

发布
暂无评论
发现更多内容

首个锚定BTC Mining算力的HAG证券通证,或成传统投资者的另一选择

股市老人

开放源代码平台Flynn的架构与实现原理

穿过生命散发芬芳

Flynn 6 月 优质更文活动

【Python金融-002】快速计算收益,批量做T必备!

程序员晚枫

Python 数据分析 金融 股票 做T

ESP8266获取天气预报信息,并使用CJSON解析天气预报数据

DS小龙哥

6 月 优质更文活动

ChatGPT赋能产品管理

俞凡

人工智能 产品管理 ChatGPT

2023-06-07:Redis 持久化方式有哪些?以及有什么区别?

福大大架构师每日一题

redis 福大大

Flink实例:Flink流处理程序编程模型

TiAmo

scala 数据流 Flink 平台 6 月 优质更文活动

架构模块一作业

sandywrh

红杉中国独立,艰难时期“美元基金”投资路径浮出水面

B Impact

搞定大模型,AI 大底座系列云智公开课 6 月 20 日开始上线

Baidu AICLOUD

大模型 AI 大底座

能力,责任心和危机感(67/100)

hackstoic

管理

Java 8升级Java 17过程记录

程序员架构进阶

jdk8 升级 java17 6月月更 6 月 优质更文活动

开源赋能 工业铸魂 | 2023开放原子全球开源峰会开源工业软件分论坛即将启幕

开放原子开源基金会

开源 开放原子全球开源峰会 开源工业软件

GitOps 最佳实践(上)| 基于 Amazon EKS 构建 CI/CD 流水线

亚马逊云科技 (Amazon Web Services)

微服务

Unlimiformer:用搜索的思路来处理注意力机制长度限制

Zilliz

Transformer

LeetCode:2695. 包装数组,详细解释

Lee Chen

JavaScript LeetCode

首款搭载OpenHarmony 3.2的智能POS终端通过“开源鸿蒙”兼容性测评

科技热闻

阿里P8现身说法,解密“架构”原理与实战笔记:从分布式到微服务

Java 架构 分布式 微服务

深度学习应用篇-计算机视觉-图像分类[3]:ResNeXt、Res2Net、Swin Transformer、Vision Transformer等模型结构、实现、模型特点详细介绍

汀丶人工智能

人工智能 深度学习 计算机视觉 图像分类 6 月 优质更文活动

文心一言 VS 讯飞星火 VS chatgpt (34)-- 算法导论5.3 1题

福大大架构师每日一题

福大大 ChatGPT

C语言编程—预处理器

芯动大师

C语言 预处理器 6 月 优质更文活动

聊聊那些奇葩的代码规范 —— 滥用 lombok

HoneyMoose

Web 界面开发指南,持续更新

南城FE

CSS 前端 交互设计

如何设计一组会出现死锁(Deadlock)的 ABAP 程序

汪子熙

Java 死锁 SAP abap 6 月 优质更文活动

CoinList打新以太坊虚拟机Neon

币离海

以太坊虚拟机 neon Coinlist Solana

瓴羊Quick BI报表分析工具,大幅提升企业经营效率

夜雨微澜

程序员如何成长

光毅

成长 程序员‘

【Netty】「NIO」(四)消息边界与可写事件

sidiot

Java 后端 Netty 6 月 优质更文活动

JMeter笔记10 | JMeter检查点

测试 Jmeter 性能测试 自动化测试 接口测试

来自大佬的洗礼!全网独家的SpringBoot核心文档,讲的太清晰了

Java Spring Boot

雅虎开源色情图片检测神经网络_语言 & 开发_冬雨_InfoQ精选文章