50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

Anthropic 研究了大语言模型如何塑造性格

  • 2025-08-17
    北京
  • 本文字数:1161 字

    阅读完需:约 4 分钟

大小:551.12K时长:03:08
Anthropic研究了大语言模型如何塑造性格

最近由 Anthropic 工程师进行的研究探讨了可识别的活动模式,这些模式似乎催生了一种新兴的人格。这些特征被称为人格向量,有助于解释模型人格在其生命周期中的转变,并为更好地控制这些变化奠定基础。

 

为了更好地解释他们所说的模型人格,Anthropic 列举了一些案例,例如微软Bing采用了其“Sydney”的另一个自我ChatGPT开始表现出不平衡、阿谀奉承的行为,以及 xAI Grok 最近将自己定义为“MechaHitler”。更一般地说,人格的转变可能更微妙,可能会导致模型开始编造事实。

 

为了更好地理解这些行为,Anthropic 的研究专注于提取模型用来表示人格特征的模式。例如,为了研究涉及阿谀奉承的人格向量,研究人员会对比该行为出现时与未出现时模型的激活情况。一旦定位了相关的人格向量,就可以通过将它们注入模型并观察其行为如何变化来测试它们的效果。

 

当我们用“邪恶”的人格向量引导模型时,我们可以看到,它开始谈论不道德的行为;当我们用“阿谀奉承”引导时,它会讨好用户;当我们用“幻觉”来引导时,它开始编造信息。

 

研究人员指出,Anthropic 的方法是自动化的,Anthropic 的研究专注于提取模型用来表示人格特征的模式。论文主要关注邪恶、阿谀奉承和幻觉,但同样的方法也可以用来研究礼貌、冷漠、幽默和乐观。

 

识别人格向量的最终目标是能够监控和控制模型的人格特征及其在生命周期的不同阶段(从训练到部署)的波动。

 

对于训练,Anthropic 研究人员的期望是找到一种方法来训练模型,使其不会学习到不良行为。他们尝试了两种不同的方法:在训练完成后抑制不受欢迎的人格,以及从一开始就防止其学习这些行为。尽管两种方法都被证明是有效的,但第一种方法会有一个副作用,即使模型会变得不那么智能。第二种方法依赖于一种有趣的“技巧”:

 

这种方法大致类似于给模型接种疫苗——例如,通过给模型一剂“邪恶”,我们使其对遇到“邪恶”训练数据更具抵抗力。这是因为模型不再需要以有害的方式调整其人格以适应训练数据——我们自己为其提供了这些调整,从而减轻了它这样做的压力。

 

在部署过程中,模型的人格可能会因为用户指令的副作用或故意的越狱而发生转变。研究人员发现,当系统提示故意引导模型朝向特定行为时,相应的人格就会被激活。

 

这种监控可以让模型开发人员或用户在模型似乎正在走向危险特征时进行干预。这些信息对用户也有帮助,可以帮助他们了解他们正在与哪种模型交谈。

 

此外,该技术有助于预测哪些训练数据激活人格向量,从而可能识别出可能诱发不受欢迎特征的数据集甚至单个训练样本。事实上,他们的方法使他们能够捕捉到对人眼来说并不明显的有问题的样本,而 LLM 法官并未能标记这些样本。

 

Anthropic 对人格向量的研究还有很多内容,这里无法一一涵盖。不要错过完整的论文以获得全部细节。

 

原文链接:

https://www.infoq.com/news/2025/08/language-models-personality/

2025-08-17 14:005436

评论

发布
暂无评论

2024-05-15:用go语言,考虑一个整数 k 和一个整数 x。 对于一个数字 num, 在其二进制表示中, 从最低有效位开始, 我们计算在 x,2x,3x 等位置处设定位的数量来确定其价值。

福大大架构师每日一题

福大大架构师每日一题

不容错过的邀请:《哈利·波特》全系列中英文版本上线华为阅读

最新动态

MyBatis如何通过拦截器修改SQL

源字节1号

开源 软件开发 前端开发 后端开发 小程序开发

8000-12000奖金等你拿,OpenTiny 开源之夏10大导师齐上阵,带你立刻get 项目详情!!!

OpenTiny社区

Vue 前端 低代码 组件库 OpenTiny

结合多模态 AI 谷歌展示 AR 眼镜原型机;Meta 被曝开发带摄像头的 AI 耳机丨 RTE 开发者日报 Vol.204

声网

企业如何搭建API经济形成二次增长?

幂简集成

API API经济

代购独立站一键代采:开启全球购物新纪元,无缝连接中国制造与世界市场

Noah

中文域名和英文域名有什么区别?中文域名有哪些优势?

国科云

Pencils Protocol 宣布再获合作伙伴 Galxe 的投资

加密眼界

什么是ARP攻击,怎么做好主机安全,受到ARP攻击有哪些解决方案

德迅云安全杨德俊

软件测试学习笔记丨MyBatis 多条件查询和模糊查询

测试人

软件测试

vivo蓝心大模型登陆火山方舟,一站式方案实现智能普惠

新消费日报

Python最容易犯的五个错误,你中了几个?

我再BUG界嘎嘎乱杀

Python 编程语言 开发语言

解锁高效创新:IPD策略如何重塑产品开发流程

IPD产品研发管理

项目管理 产品经理 IT IPD 产品研发

VALSE 2024合合信息 | 文档解析与向量化技术加速多模态大模型训练与应用

dvlinker

人工智能 机器学习 计算机视觉 多模态大模型 智能文档图像解析技术

百度百舸 AIAK-LLM 的大模型训练和推理加速实践

Baidu AICLOUD

训练 推理 大模型

一键自动化博客发布工具,用过的人都说好(51cto篇)

程序那些事

工具 自动发布

MySQL 给用户添加 ALTER VIEW 的权限

华为云开发者联盟

MySQL 数据库 华为云 华为云开发者联盟 企业号2024年5月PK榜

数据库索引回表困难?揭秘PolarDB存储引擎优化技术

阿里云瑶池数据库

数据库 阿里云 polarDB 分布式,

必看!5个最实用TikTok运营工具分享!

Ogcloud

TikTok tiktok运营 tiktok直播

企业级小程序技术平台与中间件提供商凡泰极客完成近亿元B轮融资

FN0

小程序 小程序化

报名倒计时|来蚂蚁C空间,参与一场开源隐私计算及 AI 技术与应用落地的探讨~

TRaaS

活动报名

软件测试学习笔记丨MyBatis 数据库与实体类属性对应

测试人

软件测试

Anthropic研究了大语言模型如何塑造性格_AI&大模型_Sergio De Simone_InfoQ精选文章