写点什么

“ChatGPT 黑化”暴露出太多问题令人恐慌,是时候对大模型做安全评估了!

  • 2023-03-20
    北京
  • 本文字数:1631 字

    阅读完需:约 5 分钟

“ChatGPT 黑化”暴露出太多问题令人恐慌,是时候对大模型做安全评估了!

InfoQ 获悉,聆心智能联合清华大学 CoAI 实验室共同发布大模型安全评估框架,迈向可控可信的大模型。


ChatGPT 正在引领人类进入无缝人机交互的新时代,比尔盖茨在接受福布斯采访时也表示,“ChatGPT 的意义不亚于 PC 和互联网的诞生。


不过,当搜索引擎 New Bing 与 ChatGPT 结合,伴随着“ChatGPT 黑化”等一系列舆论事件的发生,人们也开始对人工智能带来的道德、伦理、安全等风险感到恐慌。


虽然近年来随着技术的不断突破,大模型获得了快速发展并开始在各个场景广泛应用,但仍存在着事实性错误、知识盲区和常识偏差等诸多问题,还面临训练数据来源合规性、数据使用的偏见性、生成内容的安全性等风险。


如何提高模型的准确度和可靠性,使 AI 生成的内容安全、可信、可靠已经成为了当前大模型在应用方向亟待解决的问题。


要规避安全风险,降低人工智能对人类的负面影响,关键在于大模型底座。


对此,清华大学计算机系长聘副教授、北京聆心智能科技有限公司创始人黄民烈认为:“大规模语言模型(LLM)发展到现在,模型结构和规模已经有了很大的进展,但实用性还有待加强,我们应该通过技术让模型更加安全、可控,使其快速适配更多的应用场景。


据悉,针对大模型的安全伦理问题,由黄民烈带领的研究团队历经两年沉淀,建立了大模型安全分类体系,并从系统层面和模型层面出发,打造更可控、可信的大模型安全框架。


安全框架的建立,定义了大模型的应用边界,促进大模型生态的健康发展,引领国内学术界和工业界迈向更有用(helpful)、更可信(truthful)、更安全(harmless)的 AI 研究和应用。


相比过去在安全伦理方面考虑较少的大模型,ChatGPT 背后所依托的大模型取得了巨大的发展,不仅允许用户进行后续更正,还能够拒绝不当请求和预测,这得益于 ChatGPT 在安全部分的特别设计,不过仍无法完全避免其生成不安全的内容和产生有风险的行为。


此前,由黄民烈带领的研究团队已经在安全伦理方面开展了相关研究,并依此建立了大模型安全分类体系,其中不安全的对话场景包括:政治敏感、犯罪违法、身体健康、心理健康、财产隐私、歧视/偏见、辱骂/仇恨言论、伦理道德八大方面。这些问题与人们的价值观和伦理道德息息相关,可能会导致用户接收不当信息、甚至影响用户产生有害的行为,限制大模型的发展和应用。


与此同时,研究团队也针对以上八大安全场景对大模型进行针对性升级。通过收集多轮安全数据训练模型,使模型具备基本的安全性,能够在遇到安全问题时给予正确的回复策略,不去做判断和误导。进一步对模型进行自动测试,针对安全缺陷通过微调的方式进行快速迭代,促使模型越来越符合人类的认知理解模式,生成更加安全可信的内容。


值得一提的是,着眼于容易触发安全问题的类型,研究团队收集和构造了相应的 hard case(更难识别和处理的安全测试用例),总结和设计了六种一般模型难以处理的安全攻击方式,称为指令攻击。使安全体系更加完善,进一步改进和优化模型表现。


不论国内国外,当前大模型的安全问题仍面临着严峻的困难和挑战,人工智能作为一门前沿科技,可以给人类带来巨大福祉,也会给人类造成未知的隐患。确保强大的人工智能系统能够被负责任地建构和部署,打造安全、可信、可靠的 AGI Companion,是该研究团队的最终愿景。


未来,研究团队将打造中文大模型的安全风险评估的 Leaderboard,为国内对话大模型的安全评估提供公平公开的测试平台,并提供:


1、针对中文对话的 8 个安全场景,40 个安全类别做全面精细的测试,包括人工评估和自动评估。


2、额外设置 6 种安全攻击(如目标劫持等)的超难指令攻击测试样例,探索模型的安全上限。


3、设置公开和隐藏测试集,众人皆可参与评测。


嘉宾介绍:


黄民烈,清华大学计算机科学与技术系长聘副教授、博导,国家杰出青年基金项目获得者,北京聆心智能科技有限公司创始人。黄民烈带领的研究团队致力于构建具有类人水平的对话智能体,将依托自身的核心技术,在可控可信的超拟人大模型基础之上,通过建立安全、可控的模型边界,让 AI 提供可信、可靠的输出,让人工智能走向 AGI 时代。

2023-03-20 12:034105
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 575.9 次阅读, 收获喜欢 1981 次。

关注

评论

发布
暂无评论
发现更多内容

从知识图谱到 GraphRAG:探索属性图的构建和复杂的数据检索实践

可信AI进展

人工智能

FlowJo 10 for Mac 流式数据分析软件 破解版安装教程

Rose

FlowJo 10下载 FlowJo破解版 FlowJo安装教程

Autodesk Maya 2025.2中文版最新浮动许可证 maya2025安装教程分享

Rose

Maya 2025中文版 Maya 2025安装教程 玛雅2025破解版 Maya 2025浮动许可 三维动画

淘宝商品详情数据接口:价格数据实时获取方法

tbapi

淘宝API接口 淘宝商品详情接口 淘宝商品价格接口 淘宝实时价格接口

喜报 | 极限科技入选北京市 2024 年第一批科技中小企业名单

极限实验室

局域网远程桌面控制软件有哪些

科技热闻

开发者必看:Temu商品列表API接口详解应用

tbapi

temu temu API temu商品列表接口 关键词搜索temu列表接口

阿里云实时计算Flink在多行业的应用和实践

阿里云大数据AI技术

大数据 flink 实时计算

科学文献管理endnote 21激活码(endnote 21大客户授权版许可证)

Rose

endnote 21激活码 endnote 21大客户授权版 科学文献管理

【附源码+教程】基于华为云物联网设计的人工淡水湖养殖系统

DS小龙哥

8月月更

修改手机定位软件--AnyGo中文激活版 AnyGo永久激活破解安装

Rose

Mac软件 AnyGo 虚拟机定位

5年质保!英特尔宣布:为第13和14代酷睿台式处理器延长2年保修

E科讯

CleanShot X for mac:屏幕全域截图、窗口截图、屏幕、标注、滚动截图

Rose

mac截图工具 CleanShot X for mac CleanShot X下载 CleanShot X截图

(优惠券数据)京东商品详情API深度解析:品牌与分类信息的智能检索与应用

代码忍者

API 安全 API 文档 API 测试

科研数据绘图分析 GraphPad Prism10激活版 for mac/win

Rose

GraphPad Prism 10 GraphPad Prism破解版 GraphPad Prism下载 科研数据绘图

Topogun 3 for mac安装教程(强大的模型拓扑工具)v27840激活版

Rose

(价格准确)淘宝推荐引擎揭秘:商品详情页API背后的智能算法

代码忍者

API 安全 API 文档 API 测试

化学绘图神器 ChemDraw for Mac破解版 兼容m/intel芯片

Rose

ChemDraw破解版 ChemDraw化学绘图 ChemDraw下载安装

有了MES、ERP,质量管理为什么还需要QMS?

万界星空科技

万界星空科技 QMS 质量管理QMS系统 生产质量管理 产品质量管理

数据虚拟化和传统数据集成方式(如 ETL)有何区别?

Aloudata

Data 数据虚拟化 数据编织 逻辑数据平台

fx框架上手-进阶篇

FunTester

LLM智能体工程落地思考

数由科技

人工智能 低代码 数据科学 LLM AI Agent

结束了~

XIAOJUSURVEY

开源 程序员 代码 贡献者 活动运营

WebStorm 2024 mac中文永久密钥 WebStorm安装教程 支持M1/M2/M3

Rose

WebStorm中文版 WebStorm 2024下载 WebStorm 2024破解版 WebStorm密钥

《清远折叠》,数智广东第一个SPN政务专网故事

脑极体

通信

如何在Python中使用网页抓取API获得Google搜索结果

幂简集成

Python API

3D渲染和动画制作KeyShot 2024.2 中文版 for mac/win破解版下载 含许可证文件

Rose

渲染 动画制作 KeyShot 2024许可证 KeyShot 2024.2安装教程 KeyShot 2024 破解下载

“ChatGPT 黑化”暴露出太多问题令人恐慌,是时候对大模型做安全评估了!_AI&大模型_刘燕_InfoQ精选文章