50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

蚂蚁集团发布 AI 安全检测平台“蚁鉴 2.0 ”,可实现用生成式能力检测生成式模型

  • 2023-07-07
    北京
  • 本文字数:1604 字

    阅读完需:约 5 分钟

蚂蚁集团发布 AI 安全检测平台“蚁鉴 2.0 ”,可实现用生成式能力检测生成式模型

7 月 7 日,2023 世界人工智能大会( WAIC )“聚焦·大模型时代 AIGC 新浪潮—可信 AI ”论坛举行,蚂蚁集团联合清华大学发布 AI 安全检测平台“蚁鉴 2.0 ”。蚁鉴 2.0 可实现用生成式 AI 能力检测生成式 AI 模型,可识别数据安全、内容安全、科技伦理三大类的数百种风险,覆盖表格、文本、图像等多种数据和任务类型,是业内首个实现产业级应用的全数据类型 AI 安全检测平台。据了解,该产品还入选了本届大会的“镇馆之宝”。


蚂蚁集团联合清华大学共同发布 AI 安全检测平台“蚁鉴 2.0 ”


AIGC 安全成为当前人工智能研究发展的重要议题。中国科学院院士何积丰发表《可信人工智能展望》主题演讲。他认为,“不能再将人工智能视为简单的技术工作,而是成为整个组织的变革引擎。可信人工智能要致力于保障数据安全可信、系统行为可追责、算法模型可解释、网络环境可信、法律伦理可信等问题。”

 

在该论坛上,蚂蚁集团同时宣布,“蚁鉴 2.0 ”全面开放,面向全球开发者免费提供 AIGC 安全性、AI 可解释性、AI 鲁棒性三项检测工具,可服务于数字金融、教育、文化、医疗、电商等领域的大规模复杂业务场景。

 

据了解,“蚁鉴 2.0 ”的两项硬核能力,一是实现了用生成式能力检测生成式模型。检测标准覆盖内容安全、数据安全、伦理安全三大类,可对大模型生成式内容完成包含个人隐私、意识形态、违法犯罪、偏见与歧视等数百个维度的风险对抗检测,并会生成检测报告,帮助大模型更加有针对性地持续优化。


蚂蚁集团大安全事业群技术部总裁李俊奎表示,“生成式大模型是一种‘深黑盒’技术,‘蚁鉴 2.0 ’通过智能博弈对抗技术,模拟黑产以及自动化生成海量测试集,可实现「生成式机器人」对「AIGC 生成式模型」的诱导式检测计算,很像一个 24 小时不眠不休的‘安全黑客’在找茬大模型,从而找到大模型存在的弱点和安全问题所在。这种 AI 对 AI 的评测,也是教学相长。好比生成式考官考核生成式运动员,在对抗中双方能力互相提升,进一步提高整个行业的 AI 安全水位。”

 

另一项硬核能力是,“蚁鉴 2.0 ”融入了可解释性检测工具。综合 AI 技术和专家先验知识,通过可视化、逻辑推理、因果推断等技术,从完整性、准确性、稳定性等 7 个维度及 20 余项评估指标,对 AI 系统的解释质量量化分析,帮助用户更清晰验证与优化可解释方案。

 

据了解,“蚁鉴 2.0 ”集成了蚂蚁近 10 年可信 AI 实践、1000 余项可信 AI 专利,支持零编码测评。开发者通过 API 接口,将 AI 模型接入蚁鉴,就可以一键识别和挖掘模型漏洞。

 

蚂蚁集团认为,人工智能的深度应用,不仅对数据、算法、算力提出了更高要求,也对安全、隐私、伦理提出更多挑战。在确保数据安全和隐私保护、健全人工智能伦理与安全的前提下,才能让 AI 技术真正地释放应用价值。

 

此次论坛上,中国信通院、上海人工智能实验室、武汉大学、蚂蚁集团等多家单位共同发起的《 AIGC 可信倡议》。该倡议得到数十家单位参与,围绕人工智能可能引发的经济、安全、隐私和数据治理等问题,提出构建 AIGC 可信发展的全球治理合作框架,采用安全可信的数据资源、技术框架、计算方法和软件平台等全面提升 AIGC 可信工程化能力,最大限度确保生成式 AI 安全、透明、可释。


在 2023 WAIC 可信 AI 论坛上,“产学研用”界共同发起 AIGC 可信倡议


论坛现场还发布了由中国信通院、清华大学、蚂蚁集团联合编纂的《可信 AI 技术和应用进展白皮书( 2023 )》。该报告基于统一的可信 AI 认知维度,梳理总结可信 AI 发展现状,提练了面向新阶段大模型和 AIGC 引发的新需求,形成以技术为保障的可信 AI 评估体系和工具,探索新一代可信人工智能发展。

 

公开资料显示,蚂蚁从 2015 年开启可信 AI 的实践和探索,是蚂蚁集团在人工智能领域的重点布局之一。通过可信 AI 技术的突破,蚂蚁集团建设了一套世界领先的智能风控解决方案;蚁鉴 AI 安全检测平台先后获得 2022 年上海金融科技中心建设三周年优秀成果、信通院可信人工智能实践标杆案例等认可。


2023-07-07 16:398579
用户头像
鲁冬雪 GMI Cloud Head of China Marketing

发布了 371 篇内容, 共 325.8 次阅读, 收获喜欢 304 次。

关注

评论

发布
暂无评论
发现更多内容

为什么我的应用会卡顿?垃圾回收中的STW难题与破解之道

poemyang

垃圾回收 Java虚拟机 三色标记

MyEMS 的智慧大脑:从能耗建模到预测性维护的全流程技术逻辑

开源能源管理系统

开源 能源管理系统

数据驱动·智能决策:AI 运营分析平台重塑企业增长新范式

上海拔俗

隐语SecreFlow SCQL 1.0.0b1 发布:更完善的 SQL 支持与更高效的隐私查询引擎

隐语SecretFlow

开源 数据分析 sql 隐私计算 联合分析

出海企业必读:避开海外平台推广的10个常见误区

Wolink

海外社媒营销 海外营销推广 品牌出海 达人营销

议题征集|Pulsar Developer Day 2025 喜欢您来!

AscentStream

“全球金牌敏捷课程” · 11月15-16日CSM认证课程 ·

ShineScrum

敏捷 Scrum Master

大猿短视频 + 直播微信小程序系统:免资质易运营的垂直领域新选择

微擎应用市场

从视频解析到保存:深入讲解下载IG Reels视频的原理与安全方式

So...

Instagram reels

Cursor 2.0 转向多智能体 AI 编程,并发布 Composer 模型

掘金安东尼

SSL证书全流程深度解析:从申请、部署到排障的完整指南

防火墙后吃泡面

兼职招聘平台

深圳亥时科技

ROI提升300%?海外网红推广的5大高效策略与避坑指南

Wolink

海外社媒营销 海外营销推广 品牌出海 达人营销

载誉而归!镜舟科技亮相2025 OSCAR开源产业大会,荣获“开源+商业化产品”奖

镜舟科技

开源 湖仓一体 实时分析 镜舟科技 2025 OSCAR

免费境外舆情监控软件有哪些

沃观Wovision

舆情监控 境外舆情监控 境外舆情

LockBit 5.0 强势回归,勒索威胁全面升级

塞讯科技

勒索软件 安全验证

IT资产管理与生命周期可视化新格局-ManageEngine卓豪

ServiceDesk_Plus

ManageEngine卓豪

建筑矿山设备工厂:MyEMS 如何助力实现 30% 能源自给率与 ISO 50001 认证?

开源能源管理系统

开源 能源管理系统

从经验到数据:MyEMS 如何推动能源管理的范式升级?

开源能源管理系统

开源 能源管理系统

2026全球十大顶级舆情监测软件排行榜

沃观Wovision

舆情监测 舆情监测软件

低代码列表设计实操:PC/APP 适配 + 5 大布局,数据展示更精准

引迈信息

Java 21 虚拟线程 vs 缓存线程池与固定线程池

码语者

Java

博主亲测!Python+PIDEA自动化高效采集音乐数据

Toekn_w

Python

C++ 多态:你只要这么讲就够了!

岭南过客

天天小任务:全平台点赞推广变现系统,轻松解锁流量与收益双增长

微擎应用市场

如何寻找合适的海外红人进行营销推广?

Wolink

海外社媒营销 海外营销推广 品牌出海 达人营销

Rust Serde 库源码解析:序列化与反序列化的高效实践

Abin

#后端 #Rust #编程语言

国外舆情监测与分析:全球视野下的风险预警与机遇洞察

沃观Wovision

舆情监测 舆情监测系统 海外舆情监测 国外舆情

淘宝商品评论的情感分析实战:API数据驱动用户洞察

Datafox(数据狐)

淘宝评论API 淘宝商品评论API 天猫商品评论API 淘宝评论数据采集 淘宝评价数据采集

"催化型领导力(Catalyst Leadership)" 敏捷领导者CAL1认证

ShineScrum

领导力 敏捷领导力

利物直播购物商城:直播与电商深度融合的微信小程序解决方案

微擎应用市场

蚂蚁集团发布 AI 安全检测平台“蚁鉴 2.0 ”,可实现用生成式能力检测生成式模型_阿里巴巴_鲁冬雪_InfoQ精选文章