如何 0 成本启动全员 AI 技能提升?戳> 了解详情
写点什么

雅虎开源色情图片检测神经网络

  • 2016-10-16
  • 本文字数:1064 字

    阅读完需:约 3 分钟

近期,雅虎刚刚开源了他们自己构建的一套深度学习神经网络,它专门用于自动检测图片是否含有色情内容。

NSFW(Not Suitable For Work)用于标记不适合上班时间浏览的网络内容,它的界定其实是很主观的,有的人反感的东西可能其他人并不觉得如何。雅虎的这个深度学习神经网络的定位是专注于 NSFW 中的色情图片。所以,该模型不适用于处理素描、文字、动画、暴力图片等内容。

对色情图片的鉴定并不容易,所以除了技术手段之外往往都离不开人工,于是就催生了鉴黄师这样的岗位。因为对于机器来说,图片都是些 RGB 的像素罢了,不论是花草树木,还是香车美女,摆在无欲无求的机器面前并无差异。而人,却对它有天生识别能力。美国前大法官波特·斯图尔特就有这样一句名言:“ 我看到它,才知道它是不是”。因此,机器是得向人来学习如何判定色情图片的。

该神经网络使用了 CaffeOnSpark ,这是一个基于 Hadoop/Spark 的分布式深度学习框架。雅虎已经基于已有的数据对模型进行了训练,这些数据既包括 NSFW 的,也包括 SFW(suitable for work,适合上班时间浏览)的,每张图片已明确标记好。在通过学习之后,它会为每张待鉴定的图片打出一个 NSFW 得分,表示属于 NSFW 的可能性。该值范围从 0 至 1,小于 0.2 表示很有可能是安全的,大于 0.8 表示有很大可能是 NSFW 的。如下图所示,花丛中的少女衣着保守,得分 0.001,而运动中的女孩和海边的男子虽暴露了部分肢体,但得分也仅为 0.116 和 0.074,都未达到 NSFW 的标准。想了解该模型生成和训练的更多详情,请戳这里

雅虎建议大家在使用时选择自己的阈值,因为应用场景和对 NSFW 标准的理解可能会有差异,所以开发人员最好根据自己应用对 NSFW 的定义来设定评估值。

在 Reddit 上,大家就该模型对评估的有效性展开了讨论。有人认为:

“不知道它的评估是否准确,如果能允许大家上传图片,它打出分来让大家评价一下效果就好了”

而有人就此回应说:

“我不知道你会怎么看,但我肯定不会让人把最 NSFW 的图片上传到我的服务器上的”

出于某些原因,在公共网络上放置各类 NSFW 图片的确不太合适。好在雅虎已经将此模型开源,如果各位感兴趣的话,可以自己动手实践一下,看它给出的评估是否符合你的标准。你可以通过 雅虎的文章 了解更多详细内容,模型可以在 GitHub 上下载。如果你想要搭建自己的色情图片识别系统,必须要自己提供数据,这可能对大家来说不算什么难事。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-10-16 19:006149

评论

发布
暂无评论
发现更多内容

《Operating System Concepts》阅读笔记:p228-p257

codists

操作系统

团队协作的痛点:如何破解项目中任务责任不明确的困局

axe

项目管理 项目管理软件 项目协作 项目协作工具 办公工具

DeepSeek的开源之路:一文读懂从V1-R1的技术发展,见证从开源新秀到推理革命的领跑者

京东科技开发者

首次覆盖超 11 类真实编程场景!豆包大模型团队开源代码大模型全新基准

火山引擎开发者社区

编程 大模型 豆包

主流远控软件横评:画质、性能、功能全覆盖,带你找出最靠谱的一款!

科技热闻

见证时刻!智元发布首个通用具身基座模型——智元启元大模型(GO-1)

科技热闻

CAD怎么偏移图形对象?详细教程来了!

在路上

cad cad看图 CAD看图王

从政府工作报告看北斗应用发展方向

江湖老铁

特斯拉、宇树、Figure AI核心供应链企业梳理与商业化壁垒,「汇丰银行」人形机器人研报解读

机器人头条

机器人 科技 人形机器人 具身智能

IPv6改造:翻译技术的原理和优缺点分析

防火墙后吃泡面

培训讲师管理系统(源码+文档+讲解+演示)

深圳亥时科技

"打通设计与研发效率最后一公里”-云事业部前端团队 D2C/C2D落地经验分享

京东科技开发者

AI测试实战:从代码扫描到缺陷预测,如何实现90%覆盖率跃升?

测试人

人工智能 软件测试

当代企业财务规划新方式:从风险管理转向长期可持续发展

智达方通

企业管理 全面预算管理 财务转型 财务规划 财务预测

面试官:在项目中用过责任链模式吗?

Geek_e3e86e

编程 计算机

如何保障 MySQL 和 Redis 的数据一致性?4种缓存同步策略+真实业务场景详解,建议收藏

Fox666

MySQL redis 面试 美团 大厂面试

AI 驱动的智能化单元测试生成:字节跳动的实践与创新

火山引擎开发者社区

Easydict for mac(简洁的翻译工具)v2.12.0激活版

Rose

DeepSeek们,会让文科无用吗?

脑极体

AI

数字水印系统(源码+文档+讲解+演示)

深圳亥时科技

何必舍近求远 计算工厂帮你一键部署DeepSeek云主机

京东科技开发者

初步探索SQL Server 2025 AI相关能力

伤感汤姆布利柏

商品管理中的“DeepSeek” AI赋能零售品牌释放利润空间

第七在线

雅虎开源色情图片检测神经网络_语言 & 开发_冬雨_InfoQ精选文章