阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

“ChatGPT 黑化”暴露出太多问题令人恐慌,是时候对大模型做安全评估了!

  • 2023-03-20
    北京
  • 本文字数:1631 字

    阅读完需:约 5 分钟

“ChatGPT 黑化”暴露出太多问题令人恐慌,是时候对大模型做安全评估了!

InfoQ 获悉,聆心智能联合清华大学 CoAI 实验室共同发布大模型安全评估框架,迈向可控可信的大模型。


ChatGPT 正在引领人类进入无缝人机交互的新时代,比尔盖茨在接受福布斯采访时也表示,“ChatGPT 的意义不亚于 PC 和互联网的诞生。


不过,当搜索引擎 New Bing 与 ChatGPT 结合,伴随着“ChatGPT 黑化”等一系列舆论事件的发生,人们也开始对人工智能带来的道德、伦理、安全等风险感到恐慌。


虽然近年来随着技术的不断突破,大模型获得了快速发展并开始在各个场景广泛应用,但仍存在着事实性错误、知识盲区和常识偏差等诸多问题,还面临训练数据来源合规性、数据使用的偏见性、生成内容的安全性等风险。


如何提高模型的准确度和可靠性,使 AI 生成的内容安全、可信、可靠已经成为了当前大模型在应用方向亟待解决的问题。


要规避安全风险,降低人工智能对人类的负面影响,关键在于大模型底座。


对此,清华大学计算机系长聘副教授、北京聆心智能科技有限公司创始人黄民烈认为:“大规模语言模型(LLM)发展到现在,模型结构和规模已经有了很大的进展,但实用性还有待加强,我们应该通过技术让模型更加安全、可控,使其快速适配更多的应用场景。


据悉,针对大模型的安全伦理问题,由黄民烈带领的研究团队历经两年沉淀,建立了大模型安全分类体系,并从系统层面和模型层面出发,打造更可控、可信的大模型安全框架。


安全框架的建立,定义了大模型的应用边界,促进大模型生态的健康发展,引领国内学术界和工业界迈向更有用(helpful)、更可信(truthful)、更安全(harmless)的 AI 研究和应用。


相比过去在安全伦理方面考虑较少的大模型,ChatGPT 背后所依托的大模型取得了巨大的发展,不仅允许用户进行后续更正,还能够拒绝不当请求和预测,这得益于 ChatGPT 在安全部分的特别设计,不过仍无法完全避免其生成不安全的内容和产生有风险的行为。


此前,由黄民烈带领的研究团队已经在安全伦理方面开展了相关研究,并依此建立了大模型安全分类体系,其中不安全的对话场景包括:政治敏感、犯罪违法、身体健康、心理健康、财产隐私、歧视/偏见、辱骂/仇恨言论、伦理道德八大方面。这些问题与人们的价值观和伦理道德息息相关,可能会导致用户接收不当信息、甚至影响用户产生有害的行为,限制大模型的发展和应用。


与此同时,研究团队也针对以上八大安全场景对大模型进行针对性升级。通过收集多轮安全数据训练模型,使模型具备基本的安全性,能够在遇到安全问题时给予正确的回复策略,不去做判断和误导。进一步对模型进行自动测试,针对安全缺陷通过微调的方式进行快速迭代,促使模型越来越符合人类的认知理解模式,生成更加安全可信的内容。


值得一提的是,着眼于容易触发安全问题的类型,研究团队收集和构造了相应的 hard case(更难识别和处理的安全测试用例),总结和设计了六种一般模型难以处理的安全攻击方式,称为指令攻击。使安全体系更加完善,进一步改进和优化模型表现。


不论国内国外,当前大模型的安全问题仍面临着严峻的困难和挑战,人工智能作为一门前沿科技,可以给人类带来巨大福祉,也会给人类造成未知的隐患。确保强大的人工智能系统能够被负责任地建构和部署,打造安全、可信、可靠的 AGI Companion,是该研究团队的最终愿景。


未来,研究团队将打造中文大模型的安全风险评估的 Leaderboard,为国内对话大模型的安全评估提供公平公开的测试平台,并提供:


1、针对中文对话的 8 个安全场景,40 个安全类别做全面精细的测试,包括人工评估和自动评估。


2、额外设置 6 种安全攻击(如目标劫持等)的超难指令攻击测试样例,探索模型的安全上限。


3、设置公开和隐藏测试集,众人皆可参与评测。


嘉宾介绍:


黄民烈,清华大学计算机科学与技术系长聘副教授、博导,国家杰出青年基金项目获得者,北京聆心智能科技有限公司创始人。黄民烈带领的研究团队致力于构建具有类人水平的对话智能体,将依托自身的核心技术,在可控可信的超拟人大模型基础之上,通过建立安全、可控的模型边界,让 AI 提供可信、可靠的输出,让人工智能走向 AGI 时代。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-03-20 12:033672
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 493.5 次阅读, 收获喜欢 1967 次。

关注

评论

发布
暂无评论
发现更多内容

一路同行:开发者与华为云的2022

脑极体

10月月更获奖名单出炉啦!快来看看你上榜没有!

InfoQ写作社区官方

热门活动

MASA MAUI Plugin (六)集成个推,实现本地消息推送[Android] 篇

MASA技术团队

blazor MASA MAUI Xamarin MASA Blazor

直播CDN调度技术关键挑战与架构设计

京东科技开发者

架构 系统架构 直播 CDN加速 CDN技术

【Go电商实战05】结合项目解答使用Go中间件遇到的问题:中间件的概念和应用

王中阳Go

golang 学习方法 中间件 11月月更 电商实战

用javascript分类刷leetcode3.动态规划(图文视频讲解)

js2030code

JavaScript LeetCode

【Redis】Redis AOF持久化

石臻臻的杂货铺

redis 11月月更

大咖说·先临三维|高精度3D视觉技术商业应用与实践

大咖说

科技 高精度3D视觉

Wallys/Introduction of DR9074 series network card/qcn9074/qcn9072/qcn9024/industrial M.2 card

wallysSK

QCN9074 QCN9024 QCN9072

Python进阶(三十七)Windows7使用nginx+apache部署django项目

No Silver Bullet

Python Apache nginx django 11月月更

前端leetcde算法面试套路之二叉树

js2030code

JavaScript LeetCode

Python进阶(三十八)利用matplotlib 进行折线图,直方图和饼图的绘制

No Silver Bullet

Python matplotlib 11月月更

js函数式编程讲解

hellocoder2029

JavaScript

Python进阶(三十九)使用matplotlib进行绘图分析数据

No Silver Bullet

Python 绘图 matplotlib 11月月更

挖到宝了!2022阿里大佬手写“精品”Sping Boot学习笔记

小小怪下士

Java 程序员 阿里 springboot

JavaScript刷LeetCode拿offer-二叉树层序遍历篇

Geek_07a724

JavaScript LeetCode

java Apache poi 对word doc文件进行读写操作

@下一站

编程 原创 word Java core 11月月更

首批!腾讯云通过金融开源技术服务能力评估

腾源会

开源

js异步编程的三种模式

hellocoder2029

JavaScript

js对象和原型、原型链的关系

hellocoder2029

JavaScript

JavaScript刷LeetCode拿offer-js版字典

Geek_07a724

JavaScript LeetCode

还在为数据库事务一致性检测而苦恼?让Elle帮帮你,以TDSQL为例我们测测 | DB·洞见#7

腾讯云数据库

数据库 腾讯云 数据一致性 tdsql 腾讯云数据库

vue和react的区别有哪些,哪个好

千锋IT教育

Redis6.0新特性、剖析线程模型(单线程和多线程)

C++后台开发

redis 多线程 后端开发 单线程 C++开发

2 分钟,教你用 Serverless 每天给女朋友自动发土味情话

阿里巴巴云原生

阿里云 Serverless 云原生

java企业级开发中常见的注入方式

千锋IT教育

分享一招应对BOM表的检查方法,摆脱被BOM支配的“恐惧”

华秋PCB

检查 PCB PCB设计

JavaScript刷LeetCode拿offer-树的遍历

js2030code

JavaScript LeetCode

聚焦年轻消费人群 百草味入围最受“Z世代”喜爱品牌TOP10

E科讯

大数据 Hadoop 的五大优势

千锋IT教育

扒去Spring事件监听机制的外衣,竟然是观察者模式

程序知音

Java spring ssm Java后端 后端技术

“ChatGPT 黑化”暴露出太多问题令人恐慌,是时候对大模型做安全评估了!_AI&大模型_刘燕_InfoQ精选文章