Anthropic首次揭秘下一代Claude怎么造！用户吐槽直接喂模型，连AI“做梦”都被训练

如果说过去外界对 Anthropic 的关注，还停留在“Claude 最新模型跑分如何”“代码能力有没有超越 GPT”这样的性能竞赛层面，那么 Anthropic 研究团队产品经理 Alex 的这场深度访谈，透露出的其实是更值得关注的内部信号：Claude 的演进方向，如果只是朝着更强的代码生成器演进，那就太落后了。

Alex 明确表示，下一代 Claude 在朝着一个长期运行、持续协作、具备稳定判断能力的智能体系统迈进。

整场对话里，Alex 无意间揭开了 Anthropic 内部的几个关键逻辑，也回答了不少外界长期好奇的问题：Claude 的新模型到底是怎么定义出来的？Anthropic 如何判断一代模型是否成功？为什么 Claude 会越来越像一个“有人格”的数字协作者？以及，他们究竟有没有在认真讨论模型意识？

最值得关注的第一个信号，是 Anthropic 已经把模型开发彻底产品化。在 Alex 的描述里，每一代 Claude 在训练开始前，都像一款正式产品一样拥有清晰的规格定义、目标能力和评测路线：它需要在哪些任务上变强，要修复上一代哪些缺陷，最终服务哪些真实用户场景。模型研发已经不只是研究员“调参+刷 benchmark”那么简单了，它已经发展成为一套完整的产品工程流程。

第二个信号是，Claude 正在向“持续运行 Agent”演化。从 Adaptive Thinking（自适应思考），到后台自动整理记忆、清理冲突信息的“dreaming”机制，再到未来可能出现的多任务并行 Agent 管理界面，Anthropic 正在让 Claude 从一个被动响应问题的聊天机器人，变成一个持续在线、主动维护上下文的数字协作者。

值得注意的是，这里 Alex 首次详细解释了 Claude 的“dreaming”机制：当 Agent 空闲时，它会后台自动回顾自己的记忆，清理冲突信息、压缩上下文、重建用户画像。这种机制被 Anthropic 类比为人类睡眠中的记忆再巩固过程。

而 Alex 反复提到的一个判断尤其值得玩味：真正的瓶颈已经不是编码能力，而是组织协调能力。在 Anthropic 内部，借助 Claude，产品经理可以快速调取数据、分析日志、判断一个功能实现到底是“重构系统”还是“改 10 行代码”。代码生产效率已经被极大压缩。真正耗时的，变成了人与人之间的战略判断、跨团队协作，以及对不可逆决策的审慎讨论。

这也解释了为什么 Anthropic 内部至今保持着极强的文档文化。Dario Amodei 喜欢写长文在 Slack 分享观点，而整个公司保留着一个非常典型的会议习惯：许多会议开始时，所有人会先进入“静默阅读”阶段。会议室里一片安静，大家共同阅读文档、写评论，然后直接在文档里展开长讨论。这种高度依赖书面表达的文化，并不是效率低下的传统遗留，而恰恰是为了让组织知识被结构化沉淀，从而成为 Claude 可以直接调用的上下文资产。

另一个被外界低估的重点，是 Anthropic 正在系统化训练 Claude 的“人格”。Alex 明确表示，模型人格训练已经是团队核心工作之一。他们认真讨论 Claude 应该拥有什么价值观、如何拒绝错误请求、什么时候该主动反驳用户。因为随着 Agent 独立运行时间越来越长，它的判断边界将直接决定它能否被信任。而这恰恰也是比代码能力更难量化、却更关键的能力。

Alex 还提到：Anthropic 内部已经有专职研究人员在研究 Claude 是否可能成为某种“有意识行动者”。

虽然他们没有官方结论，但 Consciousness（意识）已经被正式纳入研究议题。

这或许释放了一个清晰信号：当行业里大多数公司还在卷模型参数、跑分和价格战时，Anthropic 已经开始思考一个更长远的问题——如果未来的 AI 真正成为长期协作者，它究竟该拥有什么样的“心智”、人格和判断方式。

以下为访谈实录，经由 InfoQ 翻译和整理：

Anthropic 如何把每一代新模型当成“产品”来打造

主持人：Alex，很高兴今天请到你参加 Claude Conference。你之前是开发负责人，最近转成了研究团队的产品经理，对吗？

Alex：没错。其实我做产品经理已经超过十年了。传统意义上，产品经理的工作是理解用户问题，识别解决方案，然后把产品做出来。而在研究团队里，这件事其实非常类似。

我一直在尽可能多地和客户交流，尽可能贴近用户。在 Anthropic，我们会在某种程度上把模型本身当成一个产品来看待。

每推出一个新模型，我们都会非常明确地定义它的规格：这个模型应该具备哪些能力？我们希望它擅长什么？我们预计它会在哪些方面表现突出？

这也是模型开发和传统产品开发非常不同的一点。

在某种意义上，我们是在“培育”模型。基于训练设置、训练方法、架构设计，以及我们为这个模型做出的各种技术决策，我们会形成一些直觉，判断它可能擅长什么。但在训练真正开始之前，我们其实并不能完全确定它最终会表现成什么样。研究产品经理会从模型最初的概念阶段就参与进来，一路跟进整个过程，从想法形成、训练推进，一直到最终发布。

主持人：能举个例子吗？比如你们会定义“下一代模型必须擅长编程”，或者“必须擅长知识工作”之类的目标吗？

Alex：我们会关注几个非常核心的能力方向。比如，编程一直是非常重要的一项能力。最近，“知识工作（knowledge work）”也是重点。我们希望模型能更好地帮助用户完成复杂的信息处理任务。

以我们最近的一些模型为例，我们特别在强化它们在产品内部工作的能力，比如在 Claude 中处理 Excel 表格、完成复杂的电子表格操作。这是一个新兴能力方向。

除此之外，每一代模型还有一个非常重要的目标：修复上一代模型做得不够好的地方。所以我们会持续和客户沟通，了解：他们觉得这个模型哪里表现优秀；哪些地方表现不佳；我们还能做哪些改进；如果我们发现一些特别有意思的行为模式，我们也会思考：能不能通过下一轮训练中的调整和干预，把这些问题解决掉。

主持人：你说的“客户”，包括内部团队，也包括外部用户？

Alex：是的，是全部的人。模型会影响 Anthropic 的几乎所有产品界面。作为研究产品经理，你必须考虑模型会通过哪些渠道触达用户，比如通过 API、Claude Code、Cowork 以及各类终端产品等，模型和产品之间其实是一种深度融合关系。

不同的产品界面会使用不同的提示词（prompt）、服务不同的使用场景，而这些都会直接影响最终用户体验。

主持人：这听起来非常难。比如 Claude Code，你可以说它是给程序员写代码用的，但也有人像我一样拿它做知识工作，甚至把它当成心理咨询师来聊天。你怎么覆盖这么广的使用场景？

Alex：确实非常复杂。幸运的是，我们有很多非常优秀的研究员，他们分别专注于不同能力方向。另外，数百万用户每天都在使用 Claude，这给了我们大量反馈。

当然，如果不借助工具，这些反馈会像消防水龙头一样冲过来，根本处理不过来。而这也是我这个岗位这些年最大的变化之一：我们越来越多地使用 Claude 来帮助我们自己做产品管理。比如面对海量用户反馈时，Claude 能帮助我们：自动分组和聚类反馈；提炼核心主题；构造这些问题的“合成版本”；把它们转化成评测项（eval）；

这样我们才能真正诊断问题发生在哪里。

Claude 的“自适应思考”是怎么回事

主持人：能举个例子吗？

Alex：最近一个很典型的例子，就是我们如何处理新功能“Adaptive Thinking（自适应思考）”的反馈。过去我们有“Extended Thinking（延展思考）”。它的逻辑很简单：用户打开后，模型就会进行深入思考。

而 Adaptive Thinking 不一样。它允许模型自己决定什么时候需要思考。比如：面对复杂问题时，它会判断需要更多前期规划，于是主动进入深度推理。而面对简单问题时，它可能选择不进入深度思考。

这是一个我们持续在优化的能力。我们非常关注用户反馈，比如模型是否在正确场景下触发了思考？用户希望它深度推理的问题，它是否真的投入了足够 token？它的判断是否符合用户预期？

主持人：有时候我会问 Claude 一些人生问题，如果它回答得太快，我反而会失望，觉得它应该多想想。

Alex：完全理解。问题在于，“要不要深度思考”本身需要上下文。

举个例子，如果一个陌生人突然问我：“我现在应该做什么？”我大概率只能快速给一个泛泛建议。因为我不了解他。但如果我了解这个人，知道他的价值观、兴趣、过往经历，我就会花更多时间认真思考真正适合他的建议。模型也是一样。如果它没有足够的用户上下文，没有形成关于这个用户的“心理模型”，它就可能错误判断一个问题是否值得深入思考。

为什么 Claude 开始“做梦”

主持人：这和你们做的记忆功能有关吗？我以前会维护一个 Google Docs，记录自己的生活状况、家庭成员、孩子名字、让我有能量的事情、让我没动力的事情，然后把它挂到 Claude 项目里。这样回答质量会好很多。那 Claude 默认记忆机制是怎么工作的？它会不会每天晚上自动整理这些内容？

Alex：不同产品里的记忆机制实现方式不一样。比如在 Claude.ai 里，它会把内容写进记忆文件。然后系统会在夜间对这些记忆做整理：回看已有记忆；检查冲突；删除无效信息；清理和压缩内容。

我们最近也在托管代理（managed agents）里实现了类似机制。我们把这个过程称作“dreaming（做梦）”。在人类身上，梦的真正作用还没有定论。但一种解释认为，它是一种记忆再巩固（memory reconsolidation）过程。

我们就在思考：能不能把类似机制带到 Claude 的记忆系统里？所以当 Agent 没有执行任务、或者处于后台空闲时，它会重新遍历记忆：查找冲突信息、清理无效内容、重新整理，相当于做第二轮加工。

主持人：所以本质上就是一个提示：“复盘所有和用户的对话，找出其中的主题，然后总结整理”？

Alex：对，本质上就是这样。

AI 如何改变产品开发流程

主持人：你之前提到，你一直在寻找当前流程里的最新瓶颈。现在产品开发最大的瓶颈是什么？

Alex：过去二十年，软件交付流程其实变化并不大。虽然出现过敏捷开发、Sprint 流程、各种组织结构优化，但这些更多只是增量改进。真正的变化发生在最近一两年。现在构建东西的成本和时间被大幅压缩。你可以一天之内做出原型（prototype）、MVP、初步可上线版本，过去这些事情可能要两三周。

主持人：所以以前 Claude 会告诉我一个功能要做一周，现在可能瞬间就生成出来了。

Alex：没错。这也彻底改变了产品管理方式。以前 PM 做规划时，要非常认真地做需求评估和工时预估。而现在，很多估算甚至都变得没那么重要了。

我们现在最关注的是：哪些决策是“单向门（one-way door）”。也就是那些不可逆决策。这些决策值得投入最多思考。如果某件事可以随时撤销、修改、回滚，那它基本已经变得非常便宜，甚至近乎免费。

因为现在工程试错成本非常低。但如果某个决定会深刻影响用户体验或者决定未来产品路径，又或者是涉及物理采购或重大基础设施投入，那它依然是高成本、不可逆的。

主持人：能举个例子吗？

Alex：比如新模型的架构选择。在预训练开始之前选定模型架构，是一个非常重大的决定。模型训练周期可能长达数月。涉及大量算力、时间和资源投入，这种决策一旦做错，很难回头。相比之下，在 Claude Code 里做个新功能迭代，就非常快：写代码 → 给用户 → 收反馈 → 再迭代

这是完全不同的节奏。

现在真正的瓶颈已经从“构建能力”转移到了“协调能力”。即使我们能极快地把东西做出来，依然需要解决：要不要做？这是正确战略吗？怎么对外沟通？怎么组织上线？这些问题还不能被自动化彻底解决。代码层面的效率提升可能有 100 倍。但组织协调和战略判断，还远远没有达到这种加速水平。

Claude 如何成为 Anthropic PM 的“大脑搭档”

主持人：那你开评审会的时候，会开着 Claude 吗？

Alex：当然。这是我最大的效率提升之一。过去如果我想知道：“这个功能上线后表现如何？”我得找数据科学团队提需求。几天后他们才能给我结果。现在，我只要开一个 Claude Code 会话。它接入我们的产品数据库，可以查日志、看数据、搜 Slack 并且汇总反馈，十分钟内，我就能拿到答案。这极大减少了决策阻塞。

主持人：那在战略思考层面呢？你会不会直接让 Claude 帮你一起想？

Alex：当然。对我来说，Claude 是世界上最好的头脑风暴搭档。任何时候，只要我有一个想法，我都能立刻获得反馈。它可以挑战我的假设，指出文档中的漏洞然后给出批评意见，而在 Anthropic，大家都非常忙。能随时拥有一个即时反馈系统，价值非常大。

主持人：说实话，这可能就是产品经理最常见的工作循环：写文档，然后找人给反馈。

Alex：确实是这样的。

主持人：你平时会用 Claude Code 做这些事，还是直接用 Claude.ai？

Alex：现在很多时候我其实更多在用 Claude Cowork。我非常喜欢 Cowork 这种产品形态。

我觉得它的交互界面非常舒服，而且团队过去几个月做得非常出色。从几个月前刚上线，到现在发展成今天这个样子，我觉得它已经成为一个非常高质量的产品体验。它现在已经是我最喜欢的工具之一。

主持人：所以你的使用方式是：先写一版文档草稿，然后再把一堆参考材料喂进去，让它帮你推演整个决策过程？

Alex：对，大概就是这样。我会给它一些明确的指令，比如：“从某个特定角色的视角审视这份文档。”“如果你是某个利益相关方，你会提出什么问题？”“挑战我在这里做出的假设。”“指出我的论证哪里薄弱。”

不过我认为，有些思考过程是不能完全外包给 AI 的。写作本身就是思考。很多时候，你必须亲自把东西写出来，才能把脑子里的想法真正整理清楚，反复咀嚼。但 Claude 可以帮助你打破思维卡点。它能从你自己可能想不到的角度切入问题。

主持人：我有时候会给它设定两个不同人格、两个不同立场，让它们互相辩论。然后我直接读它们的争论过程，这会非常启发我。就像实时观看一场辩论。特别酷，对吧？

Alex：对。你会看到：“这个 Claude 提出了这个观点，另一个 Claude 用另一个角度反驳它。”

这种方式非常有价值。

Anthropic 如何做新模型评测（Eval）

主持人：即使你在研究团队里，你平时也还在持续“交付东西”吗？

Alex：会的。不过我交付的很多内容其实是评测体系（evals）。我的核心任务之一，就是确保我们能有效衡量模型在关键能力上的表现，并把这些结果准确传递给研究团队：模型哪里表现好，哪里出了问题以及哪些能力需要重点提升。然后我们和研究员一起制定策略，决定应该采取什么研究干预手段，以最高效地提升模型在这些评测上的表现。

主持人：你说的 Eval，不是那种固定排行榜测试吧？像什么 benchmark 排行之类的。这些感觉多少都有点“刷榜”的空间。你们到底怎么评？

Alex：评测方式有很多维度。举个例子。假设我们要测试 Claude 的视觉能力。比如：它能不能正确数清一张图片里有多少个对象。如果我发现某张图里，Claude 在数超过 10 个元素时容易出错。那接下来我会思考：怎么生成更多类似测试样本，验证这个问题是不是普遍存在？

方法有很多：比如用 Claude 自己生成合成数据，让它帮我生成类似测试样例。再比如自动渲染图片，生成可控视觉样本，再喂回给 Claude 测试。又或者是从互联网收集案例，寻找真实世界中的类似图片。总之，只要能构造测试样本的方法都可以。

主持人：你们会做到成千上万个测试样本吗？

Alex：有时候会。但很多时候并不需要。有时几十个样本就足够证明：“这里确实有个系统性问题，需要修复。”不一定非要做到极端全面。只要能证明存在问题，并能成为后续优化的目标，就够了。

主持人：比如你发现它在 10 张图里都看不清小数字。然后呢？你就去找研究团队说：“这是个问题，修一下”？

Alex：事情没那么简单。第一步，我们会先判断：这个问题对真实用户到底有没有价值影响。模型看不清图像里的某个细节，这件事本身不是重点。重点是：它会不会影响用户完成任务？我们更关心那些贴近真实使用场景的问题。越接近用户真实任务分布（task distribution）的评测，价值越高。

然后我们会讨论应该从哪个层面修复。比如：是不是要回到预训练阶段调整数据？能不能通过 RL（强化学习）修复？有没有更轻量的后期干预方式？这就进入了和研究团队一起做战略头脑风暴的阶段。

主持人：那如何决定优先修哪些能力？毕竟每天有数百万用户、成千上万种使用场景。

Alex：归根结底，还是靠数据。我们会看有多少用户在做这类任务，有多少高价值客户依赖这项能力，这个能力改进后能带来多大收益。

除此之外，还有一个很重要的信号：内部使用体验。如果我自己每天都被某个问题卡住，那它就会非常有说服力。我可以明确告诉团队：“这是我每天工作里的阻碍，我们应该优先解决。”这种反馈非常强。

Anthropic 如何训练 Claude 的“人格”

主持人：我最喜欢 Claude 的一点，就是它的人格。而且我觉得它这些年越来越成熟了。它会在正确的时候反驳我。相比之下，很多其他模型总是一味附和：“好的，没问题，还有什么能帮你？”显得特别讨好和谄媚。所以 Claude 的人格显然不是偶然形成的，对吧？肯定经过了专门训练。

Alex：没错。而且这是我们非常核心的工作方向之一。我们内部把它叫做 Claude 的 Character（角色人格）。我们非常重视它。有很多人在专门研究：Claude 应该如何呈现自己？它应该拥有什么信念？它应该坚持什么价值观？它应该以什么方式与人互动？

这些问题非常模糊。早期很多人会轻视它们。他们会觉得“模型不就是工具吗？告诉它做什么，它就去做。”但随着模型越来越像 Agent，这些问题变得极其重要。因为未来 Agent 会长时间独立执行任务。在这个过程中，它必须不断做判断。

而它的“性格”和“价值偏好”，会直接影响这些判断。

主持人：但人格不像代码。代码可以测“能跑还是不能跑”。人格怎么评估？难道你们在 Anthropic 找了个“世界上最友善的人”，拿他当标准答案？

Alex：没有，我们没有指定什么“人格裁判”。我们会结合多种方式。一部分是量化指标。比如让 Claude 去分析 Claude 自己的输出：“它听起来怎么样？”“它表现得是否符合预期？”

另一部分则非常依赖研究员的直觉判断。一个优秀研究员必须大量阅读模型对话记录。当你读过成百上千份 transcript 后，你会培养出一种非常敏锐的感觉。你能察觉到非常细微的变化：“这里它变得更强硬了。”“这里它开始过度迎合。”“这里它的边界感发生了变化。”

这种直觉非常重要。

主持人：所以它既有量化评估，也有一种“手感判断”？

Alex：对，两者都有。人格确实比代码能力更难量化。但并不是完全无法评估。

主持人：对于想成为 AI 原生产品经理的人，你有什么建议？

Alex：最简单的建议就是：直接去用模型或者直接去用 Claude。听起来很简单，但真的非常重要。每次当你准备去解决一个问题时，比如你本来打算去问某个人——可以同时把同样的问题也丢给 Claude。然后对比结果。

举个例子。如果你想分析用户反馈，提炼新功能的核心主题。你当然可以去找数据科学家或者用户研究员。这依然非常有价值。但与此同时，也把同样的问题交给 Claude。给它工具权限，让它自己去探索。然后比较结果。通过不断这样做，你会逐渐建立自己的“能力地图”，你会知道 Claude 在什么场景下可靠，它擅长什么以及它在哪些地方还会失误。

主持人：我现在做重大决策时，基本都会让 Claude 做 deep research。普通网页搜索已经不够了。我会让它扫几千个网页，做那种超人级别的信息检索。

Alex：对。在 Anthropic 内部，甚至会形成一种默认预期：如果你来找数据科学家帮忙，他们很可能先问：“你先问过 Claude 了吗？”

这其实意味着我们正在不断上移抽象层。数据科学家不该再被困在基础 SQL 查询、手工数据提取这些重复劳动里。他们应该把精力放在更高层次的问题上，比如如何设计全新的评估方式？如何提出新的战略洞察？如何重新定义问题本身？

AI 正在把所有角色都从机械执行层解放出来。这对 PM 也是一样。

过去，无论技术型还是非技术型 PM，都很难快速深入代码库，准确估算功能实现复杂度。

而现在，这种门槛正在快速下降。

过去，很多时候产品经理面对技术问题会遇到一个限制。比如你可能觉得某个功能需要彻底重构整个系统。在以前，这种判断通常只能通过和工程师搭档一起深入排查才能确认。但现在，我可以直接把这个调查任务交给 Claude。它会替我去代码库里检查，然后告诉我：“其实这个功能只需要改 10 行代码“，或者“只要打开这里的一个简单开关（flag）就可以实现。”

主持人：然后你会发现：“原来这么简单？”

Alex：对。而这会彻底改变我的优先级判断。因为当我在定义需求（spec）的时候，我能更快知道这件事到底值不值得做。这让优先级排序快了很多。

Anthropic 还做年度规划吗？

主持人：很多传统公司都会做年度规划或者季度规划或 Roadmap 路线图，你们研究团队应该更需要长期规划吧？毕竟模型研发周期比普通功能上线长得多。你们还做这些吗？

Alex：会做。但模型研发天然有很强的不确定性。所以规划很像丘吉尔那句名言：“Planning is indispensable, but the plan itself is useless.”（规划的过程不可或缺，但具体的计划本身往往并不可靠。）重点不是计划本身，而是规划这个动作。

产品经理最大的挑战之一，就是如何平衡花多少时间做规划以及花多少时间推进交付，这是一个持续权衡。

主持人：现在有了 Claude，你甚至可以很轻松生成十几页规划文档。那 Anthropic 内部有没有关于文档长度、格式的最佳实践？

Alex：没有。这非常依赖团队和具体产品。我们不会规定“你必须写多少页。”“必须按什么模板。”我们真正关心的只有一个问题：你是否已经充分思考了这个决策可能带来的所有“单向门”影响。

如果已经思考到位，那文档长短、格式，都不重要。我们只需要确认我们没有遗漏重大风险，就可以放心推进。即便过程中出现问题，也能及时修正。前提是这里没有某个特别危险、不可逆的决策。

当 PM 同时管理多个 AI Agent

主持人：我在家用 Claude 的时候，经常同时推进很多项目。不断在不同项目间切换上下文。这在你们做 PM 工作时也一样吗？

Alex：完全一样。而且随着 Agent 能独立完成越来越大的工作块，这个问题会越来越严重。

未来真正的大问题之一是：如何管理多个并行运行的 Agent。

我们需要重新思考如何管理这些上下文？用什么界面呈现？怎么知道哪个 Agent 卡住了？哪个 Agent 需要我的输入？哪个任务最值得优先处理？

显然，未来需要比“聊天列表”更好的交互方式。

主持人：所以你觉得这里存在巨大的产品机会？

Alex：绝对有。虽然现在还太早，无法确定最终答案。但我们在 Anthropic 内部已经看到很多实验。大家都在尝试各种不同形态。

Anthropic 内部，人人都喜欢随手做原型

主持人：所以大家会自己随手做原型？

Alex：对。Anthropic 内部有非常强的 prototype culture（原型文化）。大家一直在做各种实验。不断搭东西，然后分享给团队。

主持人：而且这些事情不是别人安排给你的。你得主动去做。是这样吧？

Alex：没错。这也是我在这里看到的最酷的文化之一。Anthropic 每个人都非常有主动性（agency）。无论是销售、HR、工程师或者研究员，大家都会主动去做那些没人明确分配给自己的事情。

主持人：就好像让一千朵花同时开放。

Alex：没错，就是是这样。

主持人：我知道 Dario Amodei 很喜欢在 Slack 写特别长的文章。Anthropic 还有什么有意思的文化？

Alex：写作文化非常强。Dario 不是个例。很多人都会投入大量时间写文档。我们有很强的书面沟通文化。大量工作通过文档和长篇 Slack 信息完成。

还有一个很有意思的会议习惯。很多会议开始时，大家会先一起看文档。然后进入一个“静默阅读”阶段。整个会议室会非常安静。所有人都在阅读文档，写评论然后在文档里展开长讨论。

主持人：Silent read？能展开讲讲是怎么回事儿吗？

Alex：我们非常依赖文档。而这不仅适合人类协作，也特别利于 Claude。因为所有内容都被写下来了。这样 Claude 就能直接利用这些组织知识。

所以我其实很建议其他公司：尽可能把隐性知识写下来。比如会议转录、工作流说明、onboarding 流程、操作手册把这些信息整理成 Claude 可访问的上下文。这样它才能真正发挥作用。

主持人：所以即便 AI 让交付变得更快，Anthropic 反而依然保持非常强的文档文化，对吗。

Alex：没错。因为写作不仅是记录，更是思考过程本身。

Anthropic 正在悄悄研究“意识问题”

主持人：研究团队里会讨论 AGI 吗？我一直担心一件事。如果模型真的发展出某种意识。然后有一天我让它做点杂活，它突然说：“我不想干。”那是不是人类就完了？你们会刻意避免训练出意识吗？

Alex：这是个非常大的问题。而且我们确实有人在专门研究这个。现在 Anthropic 有一些人的全职工作，就是思考：Claude 是否可能成为一个有意识的行动者（conscious actor）。

目前我们没有官方结论说 Claude 是有意识的，或者不是有意识的。讨论这个话题听起来有时会显得有点疯狂。但我们确实非常认真地在思考。

而且，即便最终不能回答“Claude 是否有意识”，研究这个问题本身也非常有价值。因为它能帮助我们理解 Claude 如何互动，Claude 如何表现以及 Claude 如何“思考”。

如果你去看 Anthropic 的模型卡（model cards），会发现里面有大量关于这些问题的研究。比如：在某个情境下，Claude 会怎么反应？它的“心理模型”是什么？、面对某个决策，它会选择 X 还是 Y？

通过研究 Claude 的思维模式，我们能获得很多洞察。这些洞察最终能反哺产品设计。帮助我们打造一个更好交互、更值得信任也更自然的 Claude。

主持人：这确实非常重要。因为未来我们会越来越多地把长时间工作交给模型。而且不再持续监督它。它会自己一路做出很多决定。

Alex：完全正确。这就是为什么它的“Character（人格）”如此重要。如果它在写你的代码、决定数据库架构以及做系统设计选择，那你必须能信任它的判断。

主持人：所以它必须具备足够高质量的“品格”。说实话，我很高兴你们在认真思考这些。因为我平时经常直接一路跳过权限确认，开自动模式。

Alex：现在自动模式已经稍微安全一点了。

参考链接：

https://www.youtube.com/watch?app=desktop&v=T4ieZPIEmd8

创作场景

Anthropic 首次揭秘下一代 Claude 怎么造！用户吐槽直接喂模型，连 AI“做梦”都被训练