写点什么

Roblox 开源 AI 系统,用于检测可能对儿童有害的对话

  • 2025-08-18
    北京
  • 本文字数:977 字

    阅读完需:约 3 分钟

大小:464.63K时长:02:38
Roblox开源AI系统,用于检测可能对儿童有害的对话

Roblox Sentinel是一个旨在检测潜在儿童危害早期迹象的人工智能系统,以便进行进一步的分析和调查。作为一个Python库实现,Sentinel 使用对比学习来处理传统分类器常常面临的高度不平衡的数据集,并且可以应用于广泛的用例。

 

由于样本的稀缺,传统分类器很难检测出稀有类别的内容,比如试图梳理儿童的情况,无害的对话远远超过了这种情况。例如,Roblox 表示,其生产系统只包含 1.3 万个有害样本对话,而无害样本可能有数百万个。

 

同样重要的是要理解,单个信息(例如,“你来自哪里?”)本身可能看起来无害,但在周围信息及其进展的上下文下,可能会暴露出有害的意图。

 

Roblox 工程师设计了一种特定的方法来克服这些挑战。

 

通过优先考虑召回率而不是精确度,Sentinel 作为一个高召回率的候选生成器,用于更彻底的调查。这种方法特别适用于需要识别罕见模式的应用。Sentinel 不是孤立地处理每条消息,而是分析消息之间的模式以识别相关的行为。

 

为了实现这一点,Sentinel 分析用户最近的消息,并根据嵌入相似性对它们进行评分。分数是通过测量每条消息与罕见类别和常见类别样本的接近程度,然后取罕见类别相似度与常见类别相似度的比率来计算的。

 

然后,Sentinel 聚合从同一来源计算出的最近消息的分数,以计算偏度,作为可疑模式存在的衡量标准。

 

正偏度表示一种模式,其中大多数内容都是常见的,但有足够的罕见类别相似性,以创建一个右偏分布。

 

Roblox 表示,这种方法的一个关键优势是它对观测次数的变化具有弹性,这使得它非常适用于不同活动水平的来源。

 

根据 Roblox 的说法,Sentinel 提高了平台的安全性,并在部署的头几个月里向当局提交了 1000 多份官方报告。由于系统优先考虑召回率而不是精度度,所有可疑案例都需要人类专家进行筛查和调查。

 

这些分析师所做的决策创建了一个反馈循环,使我们能够不断提炼和更新示例、索引和训练集。这种人工参与的过程对于帮助 Sentinel 适应并跟上新的和不断演变的模式和方法至关重要,这些模式和方法是由那些试图逃避我们检测的不良行为者所采用的。

 

虽然 Sentinel AI 是针对 Roblox 的特定用例设计的,但其创造者表示,它可以应用于任何目标类别示例稀缺的分类问题,特别是当多个观测的上下文都很重要,并且需要高召回率的情况下。Sentinel 的另一个优势是它能够大规模的近实时操作。

 

原文链接:

https://www.infoq.com/news/2025/08/roblox-sentinel-classifier/

2025-08-18 17:003995

评论

发布
暂无评论

四方合力推进菁彩Vivid技术应用,引领电影产业视听体验革新

极客天地

工业数字化 信息化经验总结(8)

万里无云万里天

数字化转型 信息化 工业 工厂运维

YashanDB云原生部署策略及效果分析

数据库砖家

YashanDB在公共部门的潜力与应用

数据库砖家

从一个例子引发的模型设计的思考

丛风

模型设计

“你还活着吗?” “我没死,只是网卡了!”——来自分布式世界的“生死契约”

poemyang

分布式 分布式协议

转型技术Leader不能错过的几点建议

丛风

Leader

你到底是不是个高级程序员

丛风

倒计时3天| 9月12日矩阵起源产品发布会重磅演讲嘉宾抢先看!

MatrixOrigin

数据库 AI 发布会 GenAI

【开发者体验活动】OpenTiny NEXT 前端智能化解决方案应用实践,快来体验吧~

OpenTiny社区

开源 AI 前端 OpenTiny

MCP vs. Agent:定义 | 区别 | 主流Agent智能体工具盘点

职场工具箱

人工智能 AI 在线白板 agent MCP

编程神作《人月神话》

丛风

政府与军事网络安全的Bash内核级脚本编程实战

qife122

Bash脚本 蓝队防御

用 PJMan 模板导入,3 分钟搞定专业甘特图,项目规划效率翻倍

Tecjt_锦图科技

白血病细胞检测系统(YOLOv8+PyQt5)源码分享

申公豹

人工智能

6 个最佳无代码 IT 资产管理工具推荐

NocoBase

开源 低代码 无代码 IT资产管理 itam

关于敏捷开发的干货

丛风

敏捷开发

怎么选适合企业的RPA财务机器人?

Techinsight

AI 到底能不能替代人类编程

丛风

编程

具身智能助力医疗普惠,智源清华联合研发全自主颈动脉超声机器人登刊 Nature Communications

智源研究院

BOE(京东方)“照亮成长路”公益项目走进富平县 科技赋能教育树立可持续发展新标杆

爱极客侠

HarmonyOS实现快递APP自动识别地址

程序员潘Sir

鸿蒙 HarmonyOS HarmonyOS NEXT

保护身份安全:FIDO2认证在钓鱼攻击中的应用

运维有小邓

自控学习历程系列 自控维护经验总结(19)

万里无云万里天

工厂运维

YashanDB与主流开发框架的集成方法介绍

数据库砖家

Go语言是不是当今最好的语言

丛风

Go

flywa报错Migration checksum mismatch for migration version 1.1 -> Applied to database : 1332862643 ->

刘大猫

人工智能 算法 智慧城市 智慧交通 大模型

矩阵起源助力金盘科技开启智能新征程,CEO王龙出席武汉AI Factory大会

MatrixOrigin

智能制造 AI智能应用 转型升级

基于YOLOv8的打架斗殴暴力行为智能识别项目源码(目标检测)

申公豹

人工智能

毕业设计、课题要用微信小程序,HTTPS域名、服务器如何一步到位?

贝锐

微信小程序 https 域名

您的数据,正在“喂饱”还是“饿死”你的大模型?

MatrixOrigin

AI 数据 大模型

Roblox开源AI系统,用于检测可能对儿童有害的对话_AI&大模型_Sergio De Simone_InfoQ精选文章