【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

雅虎开源色情图片检测神经网络

  • 2016-10-16
  • 本文字数:1064 字

    阅读完需:约 3 分钟

近期,雅虎刚刚开源了他们自己构建的一套深度学习神经网络,它专门用于自动检测图片是否含有色情内容。

NSFW(Not Suitable For Work)用于标记不适合上班时间浏览的网络内容,它的界定其实是很主观的,有的人反感的东西可能其他人并不觉得如何。雅虎的这个深度学习神经网络的定位是专注于 NSFW 中的色情图片。所以,该模型不适用于处理素描、文字、动画、暴力图片等内容。

对色情图片的鉴定并不容易,所以除了技术手段之外往往都离不开人工,于是就催生了鉴黄师这样的岗位。因为对于机器来说,图片都是些 RGB 的像素罢了,不论是花草树木,还是香车美女,摆在无欲无求的机器面前并无差异。而人,却对它有天生识别能力。美国前大法官波特·斯图尔特就有这样一句名言:“ 我看到它,才知道它是不是”。因此,机器是得向人来学习如何判定色情图片的。

该神经网络使用了 CaffeOnSpark ,这是一个基于 Hadoop/Spark 的分布式深度学习框架。雅虎已经基于已有的数据对模型进行了训练,这些数据既包括 NSFW 的,也包括 SFW(suitable for work,适合上班时间浏览)的,每张图片已明确标记好。在通过学习之后,它会为每张待鉴定的图片打出一个 NSFW 得分,表示属于 NSFW 的可能性。该值范围从 0 至 1,小于 0.2 表示很有可能是安全的,大于 0.8 表示有很大可能是 NSFW 的。如下图所示,花丛中的少女衣着保守,得分 0.001,而运动中的女孩和海边的男子虽暴露了部分肢体,但得分也仅为 0.116 和 0.074,都未达到 NSFW 的标准。想了解该模型生成和训练的更多详情,请戳这里

雅虎建议大家在使用时选择自己的阈值,因为应用场景和对 NSFW 标准的理解可能会有差异,所以开发人员最好根据自己应用对 NSFW 的定义来设定评估值。

在 Reddit 上,大家就该模型对评估的有效性展开了讨论。有人认为:

“不知道它的评估是否准确,如果能允许大家上传图片,它打出分来让大家评价一下效果就好了”

而有人就此回应说:

“我不知道你会怎么看,但我肯定不会让人把最 NSFW 的图片上传到我的服务器上的”

出于某些原因,在公共网络上放置各类 NSFW 图片的确不太合适。好在雅虎已经将此模型开源,如果各位感兴趣的话,可以自己动手实践一下,看它给出的评估是否符合你的标准。你可以通过 雅虎的文章 了解更多详细内容,模型可以在 GitHub 上下载。如果你想要搭建自己的色情图片识别系统,必须要自己提供数据,这可能对大家来说不算什么难事。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-10-16 19:005518

评论

发布
暂无评论
发现更多内容

互联网出海风大雨大,融云助力 App 守护用户「被遗忘权」

融云 RongCloud

互联网 安全 融云 泛娱乐

百度研发效能从度量到数字化蜕变之路

百度Geek说

百度 研发效能 企业号 4 月 PK 榜 效能数字化

AutoCAD(CAD2024)中文特别版Mac/win

Rose

CAD绘图 cad2024激活版

Visual Studio Code for Mac(好用的微软代码编辑器)中文版

Rose

4种办法获得测试BNB,你一定需要知道

加密先生

互联网工程师最新Java面试题及答案汇总( 2023最新版,持续更新)

采菊东篱下

Java 编程

昇思MindSpore:人工智能的创新之源

Geek_2d6073

精彩回顾 | 2023工赋Meetup—上海站

工赋开发者社区

一文吃透信息化、数字化、智能化三者不同的概念

这我可不懂

低代码 数字化 信息化 JNPF

为什么ChatGPT不是中国搞出来的?

慕枫技术笔记

人工智能 后端 4月月更

如何实现对 Oracle 的实时数据捕获和性能调优|Flink CDC 专题

Apache Flink

大数据 flink 实时计算

对谈阿里云祝顺民:经济复苏,云网络如何加速企业效率提升?

云布道师

云网络

开发板如何适配OpenHarmony 3.2

OpenHarmony开发者

Open Harmony

英特尔宋继强:面向半导体“万亿时代”,以全栈创新推动算力发展

科技热闻

基于 LowCodeEngine 的低代码组件体系建设和实践

阿里技术

前端 低代码

Themis Pro版将正式推出,3次迭代到底在酝酿什么?

威廉META

经验分享|如何用ChatGPT开发一个安卓应用

Onegun

人工智能 移动开发 ChatGPT

提高API采用率的关键:快速创建有效的API监控任务

云智慧AIOps社区

API api 网关 监控宝 API Gateway 监控产品

Bigasoft Video Downloader Pro :视频网站下载和转换视频器

Rose

免费广告效果监测服务,实现全链路营销效果跟踪

HMS Core

HMS Core

对于处理高并发用户请求的一些思考

做梦都在改BUG

Java 架构 分布式 高并发

World Clock Deluxe for Mac(世界时钟豪华版)

Rose

PCB拼板,不得不注意的10个问题!

华秋PCB

电路 PCB PCB设计 拼版 邮票孔

GaussDB(DWS)网络调度与隔离管控能力

华为云开发者联盟

数据库 大数据 华为云 华为云开发者联盟 企业号 4 月 PK 榜

AI推理服务平台升级,阿里云机器学习PAI推出新规格

阿里云大数据AI技术

人工智能 机器学习 模型 在线服务

软件测试/测试开发丨ChatGPT在软件测试领域的应用

测试人

软件测试 自动化测试 测试开发 ChatGPT

IT采购,不再默默扛下“背刺”

脑极体

AI ChatGPT

以技术赋能智慧酒店,思岚科技亮相上海酒店展

科技热闻

一文读懂华为云云原生产品及开源实践

华为云开发者联盟

开源 云原生 华为云 华为云开发者联盟 企业号 4 月 PK 榜

4 种办法获得测试 BNB,你一定需要知道

加密先生

区块链、 bnb

毕业设计 - 电商秒杀系统

架构实战营 「架构实战营」

雅虎开源色情图片检测神经网络_语言 & 开发_冬雨_InfoQ精选文章