【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

雅虎开源色情图片检测神经网络

  • 2016-10-16
  • 本文字数:1064 字

    阅读完需:约 3 分钟

近期,雅虎刚刚开源了他们自己构建的一套深度学习神经网络,它专门用于自动检测图片是否含有色情内容。

NSFW(Not Suitable For Work)用于标记不适合上班时间浏览的网络内容,它的界定其实是很主观的,有的人反感的东西可能其他人并不觉得如何。雅虎的这个深度学习神经网络的定位是专注于 NSFW 中的色情图片。所以,该模型不适用于处理素描、文字、动画、暴力图片等内容。

对色情图片的鉴定并不容易,所以除了技术手段之外往往都离不开人工,于是就催生了鉴黄师这样的岗位。因为对于机器来说,图片都是些 RGB 的像素罢了,不论是花草树木,还是香车美女,摆在无欲无求的机器面前并无差异。而人,却对它有天生识别能力。美国前大法官波特·斯图尔特就有这样一句名言:“ 我看到它,才知道它是不是”。因此,机器是得向人来学习如何判定色情图片的。

该神经网络使用了 CaffeOnSpark ,这是一个基于 Hadoop/Spark 的分布式深度学习框架。雅虎已经基于已有的数据对模型进行了训练,这些数据既包括 NSFW 的,也包括 SFW(suitable for work,适合上班时间浏览)的,每张图片已明确标记好。在通过学习之后,它会为每张待鉴定的图片打出一个 NSFW 得分,表示属于 NSFW 的可能性。该值范围从 0 至 1,小于 0.2 表示很有可能是安全的,大于 0.8 表示有很大可能是 NSFW 的。如下图所示,花丛中的少女衣着保守,得分 0.001,而运动中的女孩和海边的男子虽暴露了部分肢体,但得分也仅为 0.116 和 0.074,都未达到 NSFW 的标准。想了解该模型生成和训练的更多详情,请戳这里

雅虎建议大家在使用时选择自己的阈值,因为应用场景和对 NSFW 标准的理解可能会有差异,所以开发人员最好根据自己应用对 NSFW 的定义来设定评估值。

在 Reddit 上,大家就该模型对评估的有效性展开了讨论。有人认为:

“不知道它的评估是否准确,如果能允许大家上传图片,它打出分来让大家评价一下效果就好了”

而有人就此回应说:

“我不知道你会怎么看,但我肯定不会让人把最 NSFW 的图片上传到我的服务器上的”

出于某些原因,在公共网络上放置各类 NSFW 图片的确不太合适。好在雅虎已经将此模型开源,如果各位感兴趣的话,可以自己动手实践一下,看它给出的评估是否符合你的标准。你可以通过 雅虎的文章 了解更多详细内容,模型可以在 GitHub 上下载。如果你想要搭建自己的色情图片识别系统,必须要自己提供数据,这可能对大家来说不算什么难事。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-10-16 19:005511

评论

发布
暂无评论
发现更多内容

毫末DriveGPT再获证明!斩获nuSecnces自动驾驶公开数据集NDS最佳成绩

Geek_2d6073

Java & Go泛型对比

FunTester

Acrobat Pro DC 2023 for mac(专业PDF编辑软件)

iMac小白

EndNote 21 for Mac(文献管理软件) v21.2激活版

iMac小白

度小满与哈工大共同推出SmartTrim,自适应剪枝技术提升多模态大模型效率

科技热闻

敏捷开发最佳实践:学习与改进维度实践案例之会诊式培养敏捷教练

PingCode

敏捷开发 敏捷实践

EMQX ECP + NeuronEX 产品发布会:从边到云的实时工业互联数据平台

EMQ映云科技

mqtt mqtt broker

OmniReader Pro for mac(专业电子书阅读器) v2.8.1激活版

iMac小白

Snagit for mac(最强大的屏幕截图软件) v2024.2.2中文版

iMac小白

Lightroom Classic 2024 for Mac(LRC2024) v13.1.0中文激活版

iMac小白

敏捷开发最佳实践:客户价值实践案例——用户画像的应用

PingCode

敏捷开发 敏捷实践

After Effects 2024 for Mac(AE2024视频特效) v24.2.1中文激活版

iMac小白

数字人应用场景:数字人成为电商主播!

青否数字人

Mistral AI vs. Meta:两大 Top 开源模型的对比

Baihai IDP

程序员 AI LLM 白海科技 Baihai IDP

敏捷开发最佳实践:质量维度实践案例之接口级自动化测试

PingCode

敏捷开发 敏捷实践

深入理解Sora技术原理

得物技术

AIGC sora

亮点功能: 私有节点&组织内节点

都广科技

DevOps

挖掘M2 Pro 32G UMA内存潜力:在Mac上本地运行清华大模型ChatGLM2-6B

百度开发者中心

人工智能 自然语言处理 LLM 语言生成

Partisia区块链推出MOCCA方案,让资产管理更加可信化且可编程

威廉META

深度解读:商品计划管理系统为鞋服企业带来的卓越价值

第七在线

Termius for Mac(多协议远程管理软件) 8.4.0激活版

iMac小白

一文读懂Partisia区块链的MOCCA 方案:让资产管理可信且可编程

西柚子

Redis集群模式和常用数据结构

EquatorCoco

数据库 redis 集群

Ollama:打造本地开源大模型聊天应用的实践

百度开发者中心

人工智能 大模型 openai

利用RAG技术打破大模型幻觉

百度开发者中心

人工智能 图谱 大模型

Photoshop 2024 for mac(ps 2024) v25.5.1中文激活版

iMac小白

微信多开 WechatTweak for Mac(微信多开、消息防撤回工具) v3.8.7(28245)中文集成版

iMac小白

Downie 4 for Mac(视频下载工具)兼容14系统 v4.7.6中文版

iMac小白

软通咨询杨念农:数智赋能物流行业高速发展,开启数智化物流新时代

软通咨询

人工智能 数字化转型 #物流 数字化咨询 数智化物流

2024内蒙古等保备案办理流程指引

行云管家

网络安全 等保备案 内蒙古

作为程序员需要配蓝光眼镜吗?

小魏写代码

雅虎开源色情图片检测神经网络_语言 & 开发_冬雨_InfoQ精选文章