“ChatGPT 黑化”暴露出太多问题令人恐慌，是时候对大模型做安全评估了！_AI&大模型_刘燕

阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见，现购票可享受 9 折优惠｜AICon 了解详情 



 写点什么

InfoQ 获悉，聆心智能联合清华大学 CoAI 实验室共同发布大模型安全评估框架，迈向可控可信的大模型。

ChatGPT 正在引领人类进入无缝人机交互的新时代，比尔盖茨在接受福布斯采访时也表示，“ChatGPT 的意义不亚于 PC 和互联网的诞生。”

不过，当搜索引擎 New Bing 与 ChatGPT 结合，伴随着“ChatGPT 黑化”等一系列舆论事件的发生，人们也开始对人工智能带来的道德、伦理、安全等风险感到恐慌。

虽然近年来随着技术的不断突破，大模型获得了快速发展并开始在各个场景广泛应用，但仍存在着事实性错误、知识盲区和常识偏差等诸多问题，还面临训练数据来源合规性、数据使用的偏见性、生成内容的安全性等风险。

如何提高模型的准确度和可靠性，使 AI 生成的内容安全、可信、可靠已经成为了当前大模型在应用方向亟待解决的问题。

要规避安全风险，降低人工智能对人类的负面影响，关键在于大模型底座。

对此，清华大学计算机系长聘副教授、北京聆心智能科技有限公司创始人黄民烈认为：“大规模语言模型（LLM）发展到现在，模型结构和规模已经有了很大的进展，但实用性还有待加强，我们应该通过技术让模型更加安全、可控，使其快速适配更多的应用场景。”

据悉，针对大模型的安全伦理问题，由黄民烈带领的研究团队历经两年沉淀，建立了大模型安全分类体系，并从系统层面和模型层面出发，打造更可控、可信的大模型安全框架。

安全框架的建立，定义了大模型的应用边界，促进大模型生态的健康发展，引领国内学术界和工业界迈向更有用（helpful）、更可信（truthful）、更安全（harmless）的 AI 研究和应用。

相比过去在安全伦理方面考虑较少的大模型，ChatGPT 背后所依托的大模型取得了巨大的发展，不仅允许用户进行后续更正，还能够拒绝不当请求和预测，这得益于 ChatGPT 在安全部分的特别设计，不过仍无法完全避免其生成不安全的内容和产生有风险的行为。

此前，由黄民烈带领的研究团队已经在安全伦理方面开展了相关研究，并依此建立了大模型安全分类体系，其中不安全的对话场景包括：政治敏感、犯罪违法、身体健康、心理健康、财产隐私、歧视/偏见、辱骂/仇恨言论、伦理道德八大方面。这些问题与人们的价值观和伦理道德息息相关，可能会导致用户接收不当信息、甚至影响用户产生有害的行为，限制大模型的发展和应用。

与此同时，研究团队也针对以上八大安全场景对大模型进行针对性升级。通过收集多轮安全数据训练模型，使模型具备基本的安全性，能够在遇到安全问题时给予正确的回复策略，不去做判断和误导。进一步对模型进行自动测试，针对安全缺陷通过微调的方式进行快速迭代，促使模型越来越符合人类的认知理解模式，生成更加安全可信的内容。

值得一提的是，着眼于容易触发安全问题的类型，研究团队收集和构造了相应的 hard case（更难识别和处理的安全测试用例），总结和设计了六种一般模型难以处理的安全攻击方式，称为指令攻击。使安全体系更加完善，进一步改进和优化模型表现。

不论国内国外，当前大模型的安全问题仍面临着严峻的困难和挑战，人工智能作为一门前沿科技，可以给人类带来巨大福祉，也会给人类造成未知的隐患。确保强大的人工智能系统能够被负责任地建构和部署，打造安全、可信、可靠的 AGI Companion，是该研究团队的最终愿景。

未来，研究团队将打造中文大模型的安全风险评估的 Leaderboard，为国内对话大模型的安全评估提供公平公开的测试平台，并提供：

1、针对中文对话的 8 个安全场景，40 个安全类别做全面精细的测试，包括人工评估和自动评估。

2、额外设置 6 种安全攻击（如目标劫持等）的超难指令攻击测试样例，探索模型的安全上限。

3、设置公开和隐藏测试集，众人皆可参与评测。

嘉宾介绍：

黄民烈，清华大学计算机科学与技术系长聘副教授、博导，国家杰出青年基金项目获得者，北京聆心智能科技有限公司创始人。黄民烈带领的研究团队致力于构建具有类人水平的对话智能体，将依托自身的核心技术，在可控可信的超拟人大模型基础之上，通过建立安全、可控的模型边界，让 AI 提供可信、可靠的输出，让人工智能走向 AGI 时代。

公众号推荐：

2024 年 1 月，InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》，揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步，预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」，回复「大模型报告」免费获取电子版研究报告。

发布

暂无评论

创作场景

“ChatGPT 黑化”暴露出太多问题令人恐慌，是时候对大模型做安全评估了！

公众号推荐：

评论

架构师训练营 1 期 - 第八周总结（vaik）

训练营第4周作业

Java集合（1）-- 俯瞰Java集合源码以及分类

Java 集合（7）-- List 接口源码解析

Java 集合（6）-- Collection源码解析

ARTS打卡第24周

JDBC【1】-- 初级入门之增删改查

每个程序员都应该知道的数字

flink-sql流计算可视化UI平台

【薪火计划】02 - 一将功成万骨枯

过滤Spark数据集的四种方法

在历史的天空重逢！大话鲲鹏上海记

Mac 安装Homebrew慢的问题解决

架构师训练营第 1 期第 8 周作业

Java集合（2）-- Iterator接口超级详细解读

Java集合（3）-- iterable接口超级详细解读

Java 集合（4）-- iterable和iterator异同分析

SpringBoot系列（5）- 自定义配置

Java 集合（6.1）-- Collection 和Collections什么关系？

Java 集合（8）-- ArrayList 源码解析

训练营第四周学习总结

面试官：Redis 主从复制时网络开小差了怎么整？

第 4 周作业

限流、熔断与降级

ARTS打卡第23周

我画着图，FluentAPI 她自己就生成了

适合初学者的Web Components教程[2019](译)

高性能-Nginx多进程高并发、低时延、高可靠机制在百万级缓存(redis、memcache)代理中间件中的应用

Java 集合（9）-- Vector超级详细源码解析

机器学习的产业化变革中，华为云ModelArts的新成绩单

Java 集合（5）-- Collections源码解析

创作场景

“ChatGPT 黑化”暴露出太多问题令人恐慌，是时候对大模型做安全评估了！

公众号推荐：

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载