在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

雅虎开源色情图片检测神经网络

  • 2016-10-16
  • 本文字数:1064 字

    阅读完需:约 3 分钟

近期,雅虎刚刚开源了他们自己构建的一套深度学习神经网络,它专门用于自动检测图片是否含有色情内容。

NSFW(Not Suitable For Work)用于标记不适合上班时间浏览的网络内容,它的界定其实是很主观的,有的人反感的东西可能其他人并不觉得如何。雅虎的这个深度学习神经网络的定位是专注于 NSFW 中的色情图片。所以,该模型不适用于处理素描、文字、动画、暴力图片等内容。

对色情图片的鉴定并不容易,所以除了技术手段之外往往都离不开人工,于是就催生了鉴黄师这样的岗位。因为对于机器来说,图片都是些 RGB 的像素罢了,不论是花草树木,还是香车美女,摆在无欲无求的机器面前并无差异。而人,却对它有天生识别能力。美国前大法官波特·斯图尔特就有这样一句名言:“ 我看到它,才知道它是不是”。因此,机器是得向人来学习如何判定色情图片的。

该神经网络使用了 CaffeOnSpark ,这是一个基于 Hadoop/Spark 的分布式深度学习框架。雅虎已经基于已有的数据对模型进行了训练,这些数据既包括 NSFW 的,也包括 SFW(suitable for work,适合上班时间浏览)的,每张图片已明确标记好。在通过学习之后,它会为每张待鉴定的图片打出一个 NSFW 得分,表示属于 NSFW 的可能性。该值范围从 0 至 1,小于 0.2 表示很有可能是安全的,大于 0.8 表示有很大可能是 NSFW 的。如下图所示,花丛中的少女衣着保守,得分 0.001,而运动中的女孩和海边的男子虽暴露了部分肢体,但得分也仅为 0.116 和 0.074,都未达到 NSFW 的标准。想了解该模型生成和训练的更多详情,请戳这里

雅虎建议大家在使用时选择自己的阈值,因为应用场景和对 NSFW 标准的理解可能会有差异,所以开发人员最好根据自己应用对 NSFW 的定义来设定评估值。

在 Reddit 上,大家就该模型对评估的有效性展开了讨论。有人认为:

“不知道它的评估是否准确,如果能允许大家上传图片,它打出分来让大家评价一下效果就好了”

而有人就此回应说:

“我不知道你会怎么看,但我肯定不会让人把最 NSFW 的图片上传到我的服务器上的”

出于某些原因,在公共网络上放置各类 NSFW 图片的确不太合适。好在雅虎已经将此模型开源,如果各位感兴趣的话,可以自己动手实践一下,看它给出的评估是否符合你的标准。你可以通过 雅虎的文章 了解更多详细内容,模型可以在 GitHub 上下载。如果你想要搭建自己的色情图片识别系统,必须要自己提供数据,这可能对大家来说不算什么难事。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-10-16 19:006305

评论

发布
暂无评论
发现更多内容

如何实现RAG与MCP集成

电子尖叫食人鱼

rag

Redis主从复制详解

不在线第一只蜗牛

redis

BeeWorks:私有化即时通讯,筑牢企业信息安全防线

BeeWorks

即时通讯 IM 私有化部署

【拥抱鸿蒙】HarmonyOS NEXT实现双路预览并识别文字

郑知鱼

华为 鸿蒙 OCR 移动端开发 HarmonyOS NEXT

再赴苍穹!神舟二十号发射取得圆满成功,开启中国航天新篇章

DevOps和数字孪生

航空航天

HarmonyOS运动开发:精准估算室内运动的距离、速度与步幅

王二蛋和他的张大花

鸿蒙

产品叫好又叫座的关键:管理者别再困在「研发工程师依赖症」里

IPD产品研发管理

产品 产品经理 产品设计 产品架构

AI技术实现英语口语陪练APP

北京木奇移动技术有限公司

软件外包公司 APP外包公司 AI英语学习

企业即时通讯平台,助力企业数字化转型的即时通讯工具

BeeWorks

即时通讯 IM 私有化部署

人工智能产品测试 | 模型:特征与权重的数据库

测试人

人工智能

图片组件|纯血鸿蒙组件库AUI

华哥的全栈次元舱

鸿蒙开发 鸿蒙app开发 AI极客 纯血鸿蒙组件库 免费的低代码平台

全国首发!数造科技发布大数据产品,助力广州政务服务与营商环境升级

数造万象

人工智能 数据资产 科技 政务 热点

人工智能产品测试 | 特征的概念:离散与连续

测试人

人工智能

潜入深蓝:SkyEye与中国深海探测技术共振

DevOps和数字孪生

低代码与传统开发大揭秘,教你快人一步

伤感汤姆布利柏

VMmark 4.0.3 - 虚拟化平台基准测试

sysin

VMmark

游戏公司如何同时管好上百个游戏项目?

禅道项目管理

项目管理 游戏开发 看板 项目管理软件 游戏行业

CST软件对粒子枪仿真和Track Solver追踪求解

思茂信息

cst电磁仿真 CST软件 CST Studio Suite

【FAQ】HarmonyOS SDK 闭源开放能力 —Account Kit(5)

HarmonyOS SDK

harmoyos

Vantage荣膺"最佳赛车运动赞助商"殊荣 携手Scuderia Ferrari HP共创辉煌

财见

从概念表达到安全验证:智能驾驶功能迎来系统性规范

DevOps和数字孪生

智能驾驶

雅虎开源色情图片检测神经网络_语言 & 开发_冬雨_InfoQ精选文章