9 月 13 日,2025 Inclusion・外滩大会「开源嘉年华」正在限量报名中! 了解详情
写点什么

雅虎开源色情图片检测神经网络

  • 2016-10-16
  • 本文字数:1064 字

    阅读完需:约 3 分钟

近期,雅虎刚刚开源了他们自己构建的一套深度学习神经网络,它专门用于自动检测图片是否含有色情内容。

NSFW(Not Suitable For Work)用于标记不适合上班时间浏览的网络内容,它的界定其实是很主观的,有的人反感的东西可能其他人并不觉得如何。雅虎的这个深度学习神经网络的定位是专注于 NSFW 中的色情图片。所以,该模型不适用于处理素描、文字、动画、暴力图片等内容。

对色情图片的鉴定并不容易,所以除了技术手段之外往往都离不开人工,于是就催生了鉴黄师这样的岗位。因为对于机器来说,图片都是些 RGB 的像素罢了,不论是花草树木,还是香车美女,摆在无欲无求的机器面前并无差异。而人,却对它有天生识别能力。美国前大法官波特·斯图尔特就有这样一句名言:“ 我看到它,才知道它是不是”。因此,机器是得向人来学习如何判定色情图片的。

该神经网络使用了 CaffeOnSpark ,这是一个基于 Hadoop/Spark 的分布式深度学习框架。雅虎已经基于已有的数据对模型进行了训练,这些数据既包括 NSFW 的,也包括 SFW(suitable for work,适合上班时间浏览)的,每张图片已明确标记好。在通过学习之后,它会为每张待鉴定的图片打出一个 NSFW 得分,表示属于 NSFW 的可能性。该值范围从 0 至 1,小于 0.2 表示很有可能是安全的,大于 0.8 表示有很大可能是 NSFW 的。如下图所示,花丛中的少女衣着保守,得分 0.001,而运动中的女孩和海边的男子虽暴露了部分肢体,但得分也仅为 0.116 和 0.074,都未达到 NSFW 的标准。想了解该模型生成和训练的更多详情,请戳这里

雅虎建议大家在使用时选择自己的阈值,因为应用场景和对 NSFW 标准的理解可能会有差异,所以开发人员最好根据自己应用对 NSFW 的定义来设定评估值。

在 Reddit 上,大家就该模型对评估的有效性展开了讨论。有人认为:

“不知道它的评估是否准确,如果能允许大家上传图片,它打出分来让大家评价一下效果就好了”

而有人就此回应说:

“我不知道你会怎么看,但我肯定不会让人把最 NSFW 的图片上传到我的服务器上的”

出于某些原因,在公共网络上放置各类 NSFW 图片的确不太合适。好在雅虎已经将此模型开源,如果各位感兴趣的话,可以自己动手实践一下,看它给出的评估是否符合你的标准。你可以通过 雅虎的文章 了解更多详细内容,模型可以在 GitHub 上下载。如果你想要搭建自己的色情图片识别系统,必须要自己提供数据,这可能对大家来说不算什么难事。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-10-16 19:006056

评论

发布
暂无评论
发现更多内容

一文搞定 Flink Job 的运行过程

shengjk1

flink flink源码 flink源码分析

博睿数据携数据链DNA创新理念,闪耀金融科技应用发展研讨会四川站

博睿数据

重磅来袭:Spring之RequestBody的使用姿势小结

学Java关注我

Java 编程 架构 技术 程序人生

Redis的适用场景简单剖析

大数据技术指南

redis 4月日更

家务活中的python协程

行者AI

协程 python学习

前端规范之路

白玉兰开源

大前端 开发规范

前端⼤规模构建演进实践

白玉兰开源

架构 大前端

GitHub惊现!JVM G1GC的算法+实现,90张图+33段代码,你的面试专属!

Java架构师迁哥

什么是Selenium?使用Selenium进行自动化测试

码语者

DevOps selenium

2020年12月的面试经历:美团4面+字节4面(均已拿offer),面试真题分享

Java架构师迁哥

Redis为什么是单线程?高并发响应快?

Linux服务器开发

redis Linux服务器开发 网络io C++后端开发 单线程

一个诡异的MySQL查询超时问题,居然隐藏着存在了两年的BUG

CoderW

Java MySQL 数据库 程序员 互联网

从源码分析 MySQL 死锁问题入门

比伯

Java 编程 程序员 架构 计算机

华云大咖说 | 华云数据与数科网维携手共建国产云生态

华云数据

聪明人的训练(二十二)

Changing Lin

4月日更

肝了15000字性能调优系列专题(JVM、MySQL、Nginx and Tomcat),看不完先收藏

北游学Java

Java MySQL nginx tomcat JVM

打造创新模型,博睿数据首倡服务可达的数据链DNA

博睿数据

一入爬虫深似海,从此早睡是路人

Thrash

智汇华云 | ArSDN打通软件定义数据中心的“任督二脉”

华云数据

软件测试——教育机构课程顾问常见黑话大全

程序员阿沐

程序员 软件测试 教育 机构 教育培训

混搭的美感|靠谱点评

无量靠谱

2021年3月券商App行情刷新及交易体验评测报告

博睿数据

百度C++工程师的那些极限优化(内存篇)

百度Geek说

c++ C# 内存访问

0门槛成为“技术牛人”!星环科技线上分享课“星课堂”开播,快来报名,一探究竟

星环科技

人工智能 数据库 云计算 大数据 直播技术

如何深入的学习C语言

cdhqyj

编程 C语言 计算机 嵌入式

前端DDD总结与思考

白玉兰开源

大前端 DDD

【转载】图形化系统开发组件X-Series(一)——XrossUnit介绍

赫杰辉

知识分享:SQL注入的流程和步骤

Thrash

sql

简简单单才是真,初试 Svelte

LeanCloud

彻底搞懂ThreadLocal

千珏

Java 源码分析 多线程 ThreadLocal

Golang 对象池

escray

学习 极客时间 Go 语言 4月日更

雅虎开源色情图片检测神经网络_语言 & 开发_冬雨_InfoQ精选文章