如果说过去外界对 Anthropic 的关注,还停留在“Claude 最新模型跑分如何”“代码能力有没有超越 GPT”这样的性能竞赛层面,那么 Anthropic 研究团队产品经理 Alex 的这场深度访谈,透露出的其实是更值得关注的内部信号:Claude 的演进方向,如果只是朝着更强的代码生成器演进,那就太落后了。
Alex 明确表示,下一代 Claude 在朝着一个长期运行、持续协作、具备稳定判断能力的智能体系统迈进。
整场对话里,Alex 无意间揭开了 Anthropic 内部的几个关键逻辑,也回答了不少外界长期好奇的问题:Claude 的新模型到底是怎么定义出来的?Anthropic 如何判断一代模型是否成功?为什么 Claude 会越来越像一个“有人格”的数字协作者?以及,他们究竟有没有在认真讨论模型意识?
最值得关注的第一个信号,是 Anthropic 已经把模型开发彻底产品化。在 Alex 的描述里,每一代 Claude 在训练开始前,都像一款正式产品一样拥有清晰的规格定义、目标能力和评测路线:它需要在哪些任务上变强,要修复上一代哪些缺陷,最终服务哪些真实用户场景。模型研发已经不只是研究员“调参+刷 benchmark”那么简单了,它已经发展成为一套完整的产品工程流程。
第二个信号是,Claude 正在向“持续运行 Agent”演化。从 Adaptive Thinking(自适应思考),到后台自动整理记忆、清理冲突信息的“dreaming”机制,再到未来可能出现的多任务并行 Agent 管理界面,Anthropic 正在让 Claude 从一个被动响应问题的聊天机器人,变成一个持续在线、主动维护上下文的数字协作者。
值得注意的是,这里 Alex 首次详细解释了 Claude 的“dreaming”机制:当 Agent 空闲时,它会后台自动回顾自己的记忆,清理冲突信息、压缩上下文、重建用户画像。这种机制被 Anthropic 类比为人类睡眠中的记忆再巩固过程。
而 Alex 反复提到的一个判断尤其值得玩味:真正的瓶颈已经不是编码能力,而是组织协调能力。 在 Anthropic 内部,借助 Claude,产品经理可以快速调取数据、分析日志、判断一个功能实现到底是“重构系统”还是“改 10 行代码”。代码生产效率已经被极大压缩。真正耗时的,变成了人与人之间的战略判断、跨团队协作,以及对不可逆决策的审慎讨论。
这也解释了为什么 Anthropic 内部至今保持着极强的文档文化。Dario Amodei 喜欢写长文在 Slack 分享观点,而整个公司保留着一个非常典型的会议习惯:许多会议开始时,所有人会先进入“静默阅读”阶段。会议室里一片安静,大家共同阅读文档、写评论,然后直接在文档里展开长讨论。这种高度依赖书面表达的文化,并不是效率低下的传统遗留,而恰恰是为了让组织知识被结构化沉淀,从而成为 Claude 可以直接调用的上下文资产。
另一个被外界低估的重点,是 Anthropic 正在系统化训练 Claude 的“人格”。Alex 明确表示,模型人格训练已经是团队核心工作之一。他们认真讨论 Claude 应该拥有什么价值观、如何拒绝错误请求、什么时候该主动反驳用户。因为随着 Agent 独立运行时间越来越长,它的判断边界将直接决定它能否被信任。而这恰恰也是比代码能力更难量化、却更关键的能力。
Alex 还提到:Anthropic 内部已经有专职研究人员在研究 Claude 是否可能成为某种“有意识行动者”。
虽然他们没有官方结论,但 Consciousness(意识)已经被正式纳入研究议题。
这或许释放了一个清晰信号:当行业里大多数公司还在卷模型参数、跑分和价格战时,Anthropic 已经开始思考一个更长远的问题——如果未来的 AI 真正成为长期协作者,它究竟该拥有什么样的“心智”、人格和判断方式。
以下为访谈实录,经由 InfoQ 翻译和整理:

Anthropic 如何把每一代新模型当成“产品”来打造
主持人:Alex,很高兴今天请到你参加 Claude Conference。你之前是开发负责人,最近转成了研究团队的产品经理,对吗?
Alex:没错。其实我做产品经理已经超过十年了。传统意义上,产品经理的工作是理解用户问题,识别解决方案,然后把产品做出来。而在研究团队里,这件事其实非常类似。
我一直在尽可能多地和客户交流,尽可能贴近用户。在 Anthropic,我们会在某种程度上把模型本身当成一个产品来看待。
每推出一个新模型,我们都会非常明确地定义它的规格:这个模型应该具备哪些能力?我们希望它擅长什么?我们预计它会在哪些方面表现突出?
这也是模型开发和传统产品开发非常不同的一点。
在某种意义上,我们是在“培育”模型。基于训练设置、训练方法、架构设计,以及我们为这个模型做出的各种技术决策,我们会形成一些直觉,判断它可能擅长什么。但在训练真正开始之前,我们其实并不能完全确定它最终会表现成什么样。研究产品经理会从模型最初的概念阶段就参与进来,一路跟进整个过程,从想法形成、训练推进,一直到最终发布。
主持人:能举个例子吗?比如你们会定义“下一代模型必须擅长编程”,或者“必须擅长知识工作”之类的目标吗?
Alex:我们会关注几个非常核心的能力方向。比如,编程一直是非常重要的一项能力。最近,“知识工作(knowledge work)”也是重点。我们希望模型能更好地帮助用户完成复杂的信息处理任务。
以我们最近的一些模型为例,我们特别在强化它们在产品内部工作的能力,比如在 Claude 中处理 Excel 表格、完成复杂的电子表格操作。这是一个新兴能力方向。
除此之外,每一代模型还有一个非常重要的目标:修复上一代模型做得不够好的地方。所以我们会持续和客户沟通,了解:他们觉得这个模型哪里表现优秀;哪些地方表现不佳;我们还能做哪些改进;如果我们发现一些特别有意思的行为模式,我们也会思考:能不能通过下一轮训练中的调整和干预,把这些问题解决掉。
主持人:你说的“客户”,包括内部团队,也包括外部用户?
Alex:是的,是全部的人。模型会影响 Anthropic 的几乎所有产品界面。作为研究产品经理,你必须考虑模型会通过哪些渠道触达用户,比如通过 API、Claude Code、Cowork 以及各类终端产品等,模型和产品之间其实是一种深度融合关系。
不同的产品界面会使用不同的提示词(prompt)、服务不同的使用场景,而这些都会直接影响最终用户体验。
主持人:这听起来非常难。比如 Claude Code,你可以说它是给程序员写代码用的,但也有人像我一样拿它做知识工作,甚至把它当成心理咨询师来聊天。你怎么覆盖这么广的使用场景?
Alex:确实非常复杂。幸运的是,我们有很多非常优秀的研究员,他们分别专注于不同能力方向。另外,数百万用户每天都在使用 Claude,这给了我们大量反馈。
当然,如果不借助工具,这些反馈会像消防水龙头一样冲过来,根本处理不过来。而这也是我这个岗位这些年最大的变化之一:我们越来越多地使用 Claude 来帮助我们自己做产品管理。比如面对海量用户反馈时,Claude 能帮助我们:自动分组和聚类反馈;提炼核心主题;构造这些问题的“合成版本”;把它们转化成评测项(eval);
这样我们才能真正诊断问题发生在哪里。
Claude 的“自适应思考”是怎么回事
主持人:能举个例子吗?
Alex:最近一个很典型的例子,就是我们如何处理新功能“Adaptive Thinking(自适应思考)”的反馈。过去我们有“Extended Thinking(延展思考)”。它的逻辑很简单:用户打开后,模型就会进行深入思考。
而 Adaptive Thinking 不一样。它允许模型自己决定什么时候需要思考。比如:面对复杂问题时,它会判断需要更多前期规划,于是主动进入深度推理。而面对简单问题时,它可能选择不进入深度思考。
这是一个我们持续在优化的能力。我们非常关注用户反馈,比如模型是否在正确场景下触发了思考?用户希望它深度推理的问题,它是否真的投入了足够 token?它的判断是否符合用户预期?
主持人:有时候我会问 Claude 一些人生问题,如果它回答得太快,我反而会失望,觉得它应该多想想。
Alex:完全理解。问题在于,“要不要深度思考”本身需要上下文。
举个例子,如果一个陌生人突然问我:“我现在应该做什么?”我大概率只能快速给一个泛泛建议。因为我不了解他。但如果我了解这个人,知道他的价值观、兴趣、过往经历,我就会花更多时间认真思考真正适合他的建议。模型也是一样。如果它没有足够的用户上下文,没有形成关于这个用户的“心理模型”,它就可能错误判断一个问题是否值得深入思考。
为什么 Claude 开始“做梦”
主持人:这和你们做的记忆功能有关吗?我以前会维护一个 Google Docs,记录自己的生活状况、家庭成员、孩子名字、让我有能量的事情、让我没动力的事情,然后把它挂到 Claude 项目里。这样回答质量会好很多。那 Claude 默认记忆机制是怎么工作的?它会不会每天晚上自动整理这些内容?
Alex:不同产品里的记忆机制实现方式不一样。比如在 Claude.ai 里,它会把内容写进记忆文件。然后系统会在夜间对这些记忆做整理:回看已有记忆;检查冲突;删除无效信息;清理和压缩内容。
我们最近也在托管代理(managed agents)里实现了类似机制。我们把这个过程称作“dreaming(做梦)”。在人类身上,梦的真正作用还没有定论。但一种解释认为,它是一种记忆再巩固(memory reconsolidation)过程。

我们就在思考:能不能把类似机制带到 Claude 的记忆系统里?所以当 Agent 没有执行任务、或者处于后台空闲时,它会重新遍历记忆:查找冲突信息、清理无效内容、重新整理,相当于做第二轮加工。
主持人:所以本质上就是一个提示:“复盘所有和用户的对话,找出其中的主题,然后总结整理”?
Alex:对,本质上就是这样。
AI 如何改变产品开发流程
主持人:你之前提到,你一直在寻找当前流程里的最新瓶颈。现在产品开发最大的瓶颈是什么?
Alex:过去二十年,软件交付流程其实变化并不大。虽然出现过敏捷开发、Sprint 流程、各种组织结构优化,但这些更多只是增量改进。真正的变化发生在最近一两年。现在构建东西的成本和时间被大幅压缩。你可以一天之内做出原型(prototype)、MVP、初步可上线版本,过去这些事情可能要两三周。
主持人:所以以前 Claude 会告诉我一个功能要做一周,现在可能瞬间就生成出来了。
Alex:没错。这也彻底改变了产品管理方式。以前 PM 做规划时,要非常认真地做需求评估和工时预估。而现在,很多估算甚至都变得没那么重要了。
我们现在最关注的是:哪些决策是“单向门(one-way door)”。也就是那些不可逆决策。这些决策值得投入最多思考。如果某件事可以随时撤销、修改、回滚,那它基本已经变得非常便宜,甚至近乎免费。
因为现在工程试错成本非常低。但如果某个决定会深刻影响用户体验或者决定未来产品路径,又或者是涉及物理采购或重大基础设施投入,那它依然是高成本、不可逆的。
主持人:能举个例子吗?
Alex:比如新模型的架构选择。在预训练开始之前选定模型架构,是一个非常重大的决定。模型训练周期可能长达数月。涉及大量算力、时间和资源投入,这种决策一旦做错,很难回头。相比之下,在 Claude Code 里做个新功能迭代,就非常快:写代码 → 给用户 → 收反馈 → 再迭代
这是完全不同的节奏。
现在真正的瓶颈已经从“构建能力”转移到了“协调能力”。即使我们能极快地把东西做出来,依然需要解决:要不要做?这是正确战略吗?怎么对外沟通?怎么组织上线?这些问题还不能被自动化彻底解决。代码层面的效率提升可能有 100 倍。但组织协调和战略判断,还远远没有达到这种加速水平。
Claude 如何成为 Anthropic PM 的“大脑搭档”
主持人:那你开评审会的时候,会开着 Claude 吗?
Alex:当然。这是我最大的效率提升之一。过去如果我想知道:“这个功能上线后表现如何?”我得找数据科学团队提需求。几天后他们才能给我结果。现在,我只要开一个 Claude Code 会话。它接入我们的产品数据库,可以查日志、看数据、搜 Slack 并且汇总反馈,十分钟内,我就能拿到答案。这极大减少了决策阻塞。
主持人:那在战略思考层面呢?你会不会直接让 Claude 帮你一起想?
Alex:当然。对我来说,Claude 是世界上最好的头脑风暴搭档。任何时候,只要我有一个想法,我都能立刻获得反馈。它可以挑战我的假设,指出文档中的漏洞然后给出批评意见,而在 Anthropic,大家都非常忙。能随时拥有一个即时反馈系统,价值非常大。

主持人:说实话,这可能就是产品经理最常见的工作循环:写文档,然后找人给反馈。
Alex:确实是这样的。
主持人:你平时会用 Claude Code 做这些事,还是直接用 Claude.ai?
Alex:现在很多时候我其实更多在用 Claude Cowork。我非常喜欢 Cowork 这种产品形态。
我觉得它的交互界面非常舒服,而且团队过去几个月做得非常出色。从几个月前刚上线,到现在发展成今天这个样子,我觉得它已经成为一个非常高质量的产品体验。它现在已经是我最喜欢的工具之一。
主持人:所以你的使用方式是:先写一版文档草稿,然后再把一堆参考材料喂进去,让它帮你推演整个决策过程?
Alex:对,大概就是这样。我会给它一些明确的指令,比如:“从某个特定角色的视角审视这份文档。”“如果你是某个利益相关方,你会提出什么问题?”“挑战我在这里做出的假设。”“指出我的论证哪里薄弱。”
不过我认为,有些思考过程是不能完全外包给 AI 的。写作本身就是思考。很多时候,你必须亲自把东西写出来,才能把脑子里的想法真正整理清楚,反复咀嚼。但 Claude 可以帮助你打破思维卡点。它能从你自己可能想不到的角度切入问题。
主持人:我有时候会给它设定两个不同人格、两个不同立场,让它们互相辩论。然后我直接读它们的争论过程,这会非常启发我。就像实时观看一场辩论。特别酷,对吧?
Alex:对。你会看到:“这个 Claude 提出了这个观点,另一个 Claude 用另一个角度反驳它。”
这种方式非常有价值。
Anthropic 如何做新模型评测(Eval)
主持人:即使你在研究团队里,你平时也还在持续“交付东西”吗?
Alex:会的。不过我交付的很多内容其实是 评测体系(evals)。我的核心任务之一,就是确保我们能有效衡量模型在关键能力上的表现,并把这些结果准确传递给研究团队:模型哪里表现好,哪里出了问题以及哪些能力需要重点提升。然后我们和研究员一起制定策略,决定应该采取什么研究干预手段,以最高效地提升模型在这些评测上的表现。
主持人:你说的 Eval,不是那种固定排行榜测试吧?像什么 benchmark 排行之类的。这些感觉多少都有点“刷榜”的空间。你们到底怎么评?
Alex:评测方式有很多维度。举个例子。假设我们要测试 Claude 的视觉能力。比如:它能不能正确数清一张图片里有多少个对象。如果我发现某张图里,Claude 在数超过 10 个元素时容易出错。那接下来我会思考:怎么生成更多类似测试样本,验证这个问题是不是普遍存在?
方法有很多:比如用 Claude 自己生成合成数据,让它帮我生成类似测试样例。再比如自动渲染图片,生成可控视觉样本,再喂回给 Claude 测试。又或者是从互联网收集案例,寻找真实世界中的类似图片。总之,只要能构造测试样本的方法都可以。
主持人:你们会做到成千上万个测试样本吗?
Alex:有时候会。但很多时候并不需要。有时几十个样本就足够证明:“这里确实有个系统性问题,需要修复。”不一定非要做到极端全面。只要能证明存在问题,并能成为后续优化的目标,就够了。
主持人:比如你发现它在 10 张图里都看不清小数字。然后呢?你就去找研究团队说:“这是个问题,修一下”?
Alex:事情没那么简单。第一步,我们会先判断:这个问题对真实用户到底有没有价值影响。模型看不清图像里的某个细节,这件事本身不是重点。重点是:它会不会影响用户完成任务?我们更关心那些贴近真实使用场景的问题。越接近用户真实任务分布(task distribution)的评测,价值越高。
然后我们会讨论应该从哪个层面修复。比如:是不是要回到预训练阶段调整数据?能不能通过 RL(强化学习)修复?有没有更轻量的后期干预方式?这就进入了和研究团队一起做战略头脑风暴的阶段。
主持人:那如何决定优先修哪些能力?毕竟每天有数百万用户、成千上万种使用场景。
Alex:归根结底,还是靠数据。我们会看有多少用户在做这类任务,有多少高价值客户依赖这项能力,这个能力改进后能带来多大收益。
除此之外,还有一个很重要的信号:内部使用体验。如果我自己每天都被某个问题卡住,那它就会非常有说服力。我可以明确告诉团队:“这是我每天工作里的阻碍,我们应该优先解决。”这种反馈非常强。
Anthropic 如何训练 Claude 的“人格”
主持人:我最喜欢 Claude 的一点,就是它的人格。而且我觉得它这些年越来越成熟了。它会在正确的时候反驳我。相比之下,很多其他模型总是一味附和:“好的,没问题,还有什么能帮你?”显得特别讨好和谄媚。所以 Claude 的人格显然不是偶然形成的,对吧?肯定经过了专门训练。
Alex:没错。而且这是我们非常核心的工作方向之一。我们内部把它叫做 Claude 的 Character(角色人格)。我们非常重视它。有很多人在专门研究:Claude 应该如何呈现自己?它应该拥有什么信念?它应该坚持什么价值观?它应该以什么方式与人互动?
这些问题非常模糊。早期很多人会轻视它们。他们会觉得“模型不就是工具吗?告诉它做什么,它就去做。”但随着模型越来越像 Agent,这些问题变得极其重要。因为未来 Agent 会长时间独立执行任务。在这个过程中,它必须不断做判断。
而它的“性格”和“价值偏好”,会直接影响这些判断。
主持人:但人格不像代码。代码可以测“能跑还是不能跑”。人格怎么评估?难道你们在 Anthropic 找了个“世界上最友善的人”,拿他当标准答案?
Alex:没有,我们没有指定什么“人格裁判”。我们会结合多种方式。一部分是量化指标。比如让 Claude 去分析 Claude 自己的输出:“它听起来怎么样?”“它表现得是否符合预期?”
另一部分则非常依赖研究员的直觉判断。一个优秀研究员必须大量阅读模型对话记录。当你读过成百上千份 transcript 后,你会培养出一种非常敏锐的感觉。你能察觉到非常细微的变化:“这里它变得更强硬了。”“这里它开始过度迎合。”“这里它的边界感发生了变化。”
这种直觉非常重要。
主持人:所以它既有量化评估,也有一种“手感判断”?
Alex:对,两者都有。人格确实比代码能力更难量化。但并不是完全无法评估。
主持人:对于想成为 AI 原生产品经理的人,你有什么建议?
Alex:最简单的建议就是:直接去用模型或者直接去用 Claude。听起来很简单,但真的非常重要。每次当你准备去解决一个问题时,比如你本来打算去问某个人——可以同时把同样的问题也丢给 Claude。然后对比结果。
举个例子。如果你想分析用户反馈,提炼新功能的核心主题。你当然可以去找数据科学家或者用户研究员。这依然非常有价值。但与此同时,也把同样的问题交给 Claude。给它工具权限,让它自己去探索。然后比较结果。通过不断这样做,你会逐渐建立自己的“能力地图”,你会知道 Claude 在什么场景下可靠,它擅长什么以及它在哪些地方还会失误。
主持人:我现在做重大决策时,基本都会让 Claude 做 deep research。普通网页搜索已经不够了。我会让它扫几千个网页,做那种超人级别的信息检索。
Alex:对。在 Anthropic 内部,甚至会形成一种默认预期:如果你来找数据科学家帮忙,他们很可能先问:“你先问过 Claude 了吗?”
这其实意味着我们正在不断上移抽象层。数据科学家不该再被困在基础 SQL 查询、手工数据提取这些重复劳动里。他们应该把精力放在更高层次的问题上,比如如何设计全新的评估方式?如何提出新的战略洞察?如何重新定义问题本身?
AI 正在把所有角色都从机械执行层解放出来。这对 PM 也是一样。
过去,无论技术型还是非技术型 PM,都很难快速深入代码库,准确估算功能实现复杂度。
而现在,这种门槛正在快速下降。
过去,很多时候产品经理面对技术问题会遇到一个限制。比如你可能觉得某个功能需要彻底重构整个系统。在以前,这种判断通常只能通过和工程师搭档一起深入排查才能确认。但现在,我可以直接把这个调查任务交给 Claude。它会替我去代码库里检查,然后告诉我:“其实这个功能只需要改 10 行代码“,或者“只要打开这里的一个简单开关(flag)就可以实现。”
主持人:然后你会发现:“原来这么简单?”
Alex:对。而这会彻底改变我的优先级判断。因为当我在定义需求(spec)的时候,我能更快知道这件事到底值不值得做。这让优先级排序快了很多。
Anthropic 还做年度规划吗?
主持人:很多传统公司都会做年度规划或者季度规划或 Roadmap 路线图,你们研究团队应该更需要长期规划吧?毕竟模型研发周期比普通功能上线长得多。你们还做这些吗?
Alex:会做。但模型研发天然有很强的不确定性。所以规划很像丘吉尔那句名言:“Planning is indispensable, but the plan itself is useless.”(规划的过程不可或缺,但具体的计划本身往往并不可靠。)重点不是计划本身,而是规划这个动作。
产品经理最大的挑战之一,就是如何平衡花多少时间做规划以及花多少时间推进交付,这是一个持续权衡。
主持人:现在有了 Claude,你甚至可以很轻松生成十几页规划文档。那 Anthropic 内部有没有关于文档长度、格式的最佳实践?
Alex:没有。这非常依赖团队和具体产品。我们不会规定“你必须写多少页。”“必须按什么模板。”我们真正关心的只有一个问题:你是否已经充分思考了这个决策可能带来的所有“单向门”影响。
如果已经思考到位,那文档长短、格式,都不重要。我们只需要确认我们没有遗漏重大风险,就可以放心推进。即便过程中出现问题,也能及时修正。前提是这里没有某个特别危险、不可逆的决策。
当 PM 同时管理多个 AI Agent
主持人:我在家用 Claude 的时候,经常同时推进很多项目。不断在不同项目间切换上下文。这在你们做 PM 工作时也一样吗?
Alex:完全一样。而且随着 Agent 能独立完成越来越大的工作块,这个问题会越来越严重。
未来真正的大问题之一是:如何管理多个并行运行的 Agent。
我们需要重新思考如何管理这些上下文?用什么界面呈现?怎么知道哪个 Agent 卡住了?哪个 Agent 需要我的输入?哪个任务最值得优先处理?
显然,未来需要比“聊天列表”更好的交互方式。
主持人:所以你觉得这里存在巨大的产品机会?
Alex:绝对有。虽然现在还太早,无法确定最终答案。但我们在 Anthropic 内部已经看到很多实验。大家都在尝试各种不同形态。
Anthropic 内部,人人都喜欢随手做原型
主持人:所以大家会自己随手做原型?
Alex:对。Anthropic 内部有非常强的 prototype culture(原型文化)。大家一直在做各种实验。不断搭东西,然后分享给团队。
主持人:而且这些事情不是别人安排给你的。你得主动去做。是这样吧?
Alex:没错。这也是我在这里看到的最酷的文化之一。Anthropic 每个人都非常有主动性(agency)。无论是销售、HR、工程师或者研究员,大家都会主动去做那些没人明确分配给自己的事情。
主持人:就好像让一千朵花同时开放。
Alex:没错,就是是这样。
主持人:我知道 Dario Amodei 很喜欢在 Slack 写特别长的文章。Anthropic 还有什么有意思的文化?
Alex:写作文化非常强。Dario 不是个例。很多人都会投入大量时间写文档。我们有很强的书面沟通文化。大量工作通过文档和长篇 Slack 信息完成。
还有一个很有意思的会议习惯。很多会议开始时,大家会先一起看文档。然后进入一个“静默阅读”阶段。整个会议室会非常安静。所有人都在阅读文档,写评论然后在文档里展开长讨论。
主持人:Silent read?能展开讲讲是怎么回事儿吗?
Alex:我们非常依赖文档。而这不仅适合人类协作,也特别利于 Claude。因为所有内容都被写下来了。这样 Claude 就能直接利用这些组织知识。
所以我其实很建议其他公司:尽可能把隐性知识写下来。比如会议转录、工作流说明、onboarding 流程、操作手册把这些信息整理成 Claude 可访问的上下文。这样它才能真正发挥作用。
主持人:所以即便 AI 让交付变得更快,Anthropic 反而依然保持非常强的文档文化,对吗。
Alex:没错。因为写作不仅是记录,更是思考过程本身。
Anthropic 正在悄悄研究“意识问题”
主持人:研究团队里会讨论 AGI 吗?我一直担心一件事。如果模型真的发展出某种意识。然后有一天我让它做点杂活,它突然说:“我不想干。”那是不是人类就完了?你们会刻意避免训练出意识吗?
Alex:这是个非常大的问题。而且我们确实有人在专门研究这个。现在 Anthropic 有一些人的全职工作,就是思考:Claude 是否可能成为一个有意识的行动者(conscious actor)。
目前我们没有官方结论说 Claude 是有意识的,或者不是有意识的。讨论这个话题听起来有时会显得有点疯狂。但我们确实非常认真地在思考。
而且,即便最终不能回答“Claude 是否有意识”,研究这个问题本身也非常有价值。因为它能帮助我们理解 Claude 如何互动,Claude 如何表现以及 Claude 如何“思考”。
如果你去看 Anthropic 的模型卡(model cards),会发现里面有大量关于这些问题的研究。比如:在某个情境下,Claude 会怎么反应?它的“心理模型”是什么?、面对某个决策,它会选择 X 还是 Y?
通过研究 Claude 的思维模式,我们能获得很多洞察。这些洞察最终能反哺产品设计。帮助我们打造一个更好交互、更值得信任也更自然的 Claude。
主持人:这确实非常重要。因为未来我们会越来越多地把长时间工作交给模型。而且不再持续监督它。它会自己一路做出很多决定。
Alex:完全正确。这就是为什么它的“Character(人格)”如此重要。如果它在写你的代码、决定数据库架构以及做系统设计选择,那你必须能信任它的判断。
主持人:所以它必须具备足够高质量的“品格”。说实话,我很高兴你们在认真思考这些。因为我平时经常直接一路跳过权限确认,开自动模式。
Alex:现在自动模式已经稍微安全一点了。
参考链接:





