写点什么

一个“蠢问题”改写模型规则!Anthropic 联创亲曝:瞄准 Claude 5 开发爆款应用,最强模型的价值会让人忽略成本负担

  • 2025-07-31
    北京
  • 本文字数:9926 字

    阅读完需:约 33 分钟

大小:4.68M时长:27:15
一个“蠢问题”改写模型规则!Anthropic联创亲曝:瞄准Claude 5开发爆款应用,最强模型的价值会让人忽略成本负担

Anthropic 联合创始人 Jared Kaplan 是一名理论物理学家,研究兴趣广泛,涉及有效场论、粒子物理、宇宙学、散射振幅以及共形场论等。过去几年,他还与物理学家、计算机科学家们合作开展机器学习研究,包括神经模型以及 GPT-3 语言模型的 Scaling Law。

 

近期,他在 YC 分享了 Scaling Law 未来如何影响大模型发展,以及对 Claude 等模型的意义。他在演讲中透露,Scaling Law 的发现源于他物理研究中的习惯:问更基本的、看似“愚蠢”的问题。

 

在 Jared Kaplan 看来,AI 的大部分价值可能还是来自最强模型。他认为,目前 AI 的发展非常不平衡:AI 在快速进步、事情在迅速变化,模型能力尚未完全解锁,但我们在释放越来越多的功能。他认为的平衡状态是 AI 发展速度变慢、成本极低。而 AI 的快速进化会让人优先关注能力,而非成本。

 

他建议大家去构建那些“现在还没法完全跑通”的产品、用 AI 更好地“集成” AI,并快速找到 AI 大规模应用的突破口。这些思考背后,一定程度上也与 Anthropic 的运营策略是相符的。

 

我们翻译并整理了 Jared Kaplan 的分享和他与主持人 Diana 的对话,以飨读者。

 

一个物理学家转型 AI 赛道

 

其实我做 AI 的时间并不长,大概才六年。在那之前,我的大部分职业生涯都在学术界,是一名理论物理学家。

 

我为什么会转行做 AI 呢?简单来说,我一开始之所以学物理,是因为我妈妈是一位科幻小说作家,我小时候就一直想搞清楚到底能不能造出超光速飞行装置,而物理看起来是实现这个目标的路径。

 

我也对理解宇宙本身特别感兴趣,比如事物是如何运作的、我们周围所见的各种现象背后有哪些宏观规律?宇宙从何而来,是决定论吗?人有没有自由意志?我对这些问题都非常着迷。

 

幸运的是,从事物理研究的那段时间里,我认识了很多非常聪明、非常有深度的人,其中就包括现在我在 Anthropic 共事的一些创始人。我对他们做的事情非常感兴趣,因此也一直都关注着。

 

与此同时,我也换了很多物理学的研究方向,从大型强子对撞机的高能粒子物理,到宇宙学、弦理论等等,但我渐渐有些沮丧,也觉得有点无聊,因为进展太慢了。

 

而我身边很多朋友都跟我说“AI 正在变得非常重要”。起初我是不信的,我很怀疑,认为 AI 已经搞了五十年了,支持向量机(SVM)那类东西其实也没那么有趣。在 2005 年、2009 年我上学的时候,能接触到的 AI 基本就是这些。

 

不过后来我被说服了,觉得 AI 也许真的是一个值得投入的领域。也算是运气好,认识了一些对的人,然后事情就这么发展下来了。


“Scaling Law 源于我问的一个蠢问题”

 

接下来,我想简单介绍一下当代 AI 模型是怎么运作的,以及为什么“Scaling Law”能让它们不断变得更好。

 

像 Claude、ChatGPT 这样的 AI 模型训练过程可以分为两个主要阶段:第一个阶段是预训练(pre-training)。在这个阶段,我们训练模型模仿人类写的文本,并理解其中的统计关联。

 

这张图非常“复古”,来自最早期的 GPT-3 playground:



可以看到,比如“作为一个期刊俱乐部的发言人,你大概会希望我说出某些话”,这里的“elephant ”一词就非常不符合上下文。而预训练的目标,就是让模型知道什么样的词在什么语境下更可能出现。现在的模型已经不再局限于文本了,还可以处理多模态数据,比如图片、音频等。

 

第二个阶段是强化学习(reinforcement learning)。2022 年早期,我们正在收集用户反馈数据,当时还在训练最初的 Claude 0 ,甚至 Claude 负一代版本。当时,早期用户或者说我们聘请的人工标注员与 Claude 对话,然后选择哪个回答更好,我们用这些反馈信号去优化模型,强化那些被认为是“好”的行为,比如有帮助的、诚实的、无害的内容,反之则抑制“坏”的行为。

 

所以,整个训练流程本质上其实就两件事:预测下一个词,然后通过强化学习完成有用的任务。而且,这两个阶段其实都有非常清晰的“Scaling Law”。

 

这张图是我们大概五、六年前做的,它展示了只要扩大预训练的规模,模型性能就会持续变好。



这源于我当时问了一个“非常蠢”的问题。

 

作为物理学家,从全局出发,提出最简单、最基础的问题,是我们的习惯了。当时有个流行的说法是“大数据很重要”,那我就想知道:到底多大才叫大?数据到底有多重要?帮助到底有多大?类似地,有人观察到模型越大效果越好,那我们就继续问:那到底会好多少?增长是不是线性的?有没有规律?

 

后来,我们发现了一个非常精确又令人惊讶的现象:AI 训练背后确实存在着类似于物理或天文中的“规律性趋势”。这让我们非常震惊,也让我们对 AI 的持续进步充满信心。

 

早在 2019 年我们就研究了计算量、数据集大小和网络规模等多个数量级的不同情况。按照物理学的经验,只要某个规律在足够多数量级下成立,那它大概率会继续成立下去。所以,我认为这是 AI 不断进步背后的一个基本因素。

 

另一个比较关键的点其实很早就显露出来了,但最近几年才真正展现出巨大影响力,那就是:强化学习阶段也存在 Scaling Law。

 

大概四年前,有位研究员开始研究 AlphaGo 的 Scaling Law,他把 AI 领域的两个重要成果联系在一起:GPT-3 的预训练 Scaling 和 AlphaGo 的 RL Scaling。这位研究员就是 Andy Jones,当时他一个人做研究,设备可能就只有一张 GPU,毕竟 AlphaGo 成本太高他用不起,于是选择研究一个更简单的棋类游戏 Hex(六子棋),并制作了大家现在看到的这张图:



现在大家对 ELO 分数(国际象棋评分)已经比较熟悉了,但在当时其实没那么广为人知。ELO 分数本质上就是衡量一个棋手战胜另一个棋手的概率。如今,我们也用它来衡量 AI 模型的能力,比如在 A/B 测试中,看人类更偏好哪一个模型的回答。但那时候,ELO 还只是一个经典的象棋评分系统。

 

Andy 当时训练了一些模型去玩 Hex,这是一种比围棋更简单的棋类游戏。他观察不同模型在 Hex 上的表现,并发现了非常清晰的线性趋势。

 

在科学研究中,发现这些简单但规律性的趋势是很重要的技能。但我觉得当时大家并没有足够重视 RL(强化学习)阶段的 Scaling 趋势,后来才慢慢被发现。可以看到,无论是在预训练阶段,还是在强化学习阶段,只要加大计算资源的投入,模型性能就会持续提升。

 

我认为,这正是推动 AI 不断进步的核心动力。并不是因为 AI 研究人员突然变得更聪明了,而是我们找到了一种非常简单的方法可以系统性提升 AI 的性能,我们现在就是在不断重复运行这套“Scaling 机器”。

 

Scaling 的实际意义

 

那这样的 Scaling 正在解锁哪些能力呢?我习惯用两个维度来理解 AI 的能力。

 

第一个维度是 AI 的“适应性”,也就是它能多大程度地“贴近”我们的使用场景。这其实很重要,但我认为这不是最有意思的那个维度。比如 AlphaGo 在下围棋这件事上比任何人都强,但它仅限于围棋盘这个“宇宙”,如果放到下面坐标系中,它在 Y 轴上的位置是很低的。

 


Claude:Flexibility And Time Saved

 

但自从大模型出现之后,我们开始看到 AI 能处理越来越多人类所能处理的多种模态,虽然还没做到嗅觉,但我觉得也快了。所以,我们正在往 Y 轴更高的方向发展,也就是说,AI 能在真实世界中做的事情越来越多。

 

不过,我认为更有意思的是 X 轴,也就是 AI 可以完成的任务时长。我们观察到,随着 AI 能力的提升,这个时间在不断拉长。

 

Metr.org 做过这方面的系统研究,发现了一个很有意思的 Scaling 趋势:AI 模型可以处理的任务时长大约每 7 个月翻一倍。也就是说,AI 的智能随着预训练和 RL 阶段算力的不断扩大,在可预见的方向上变得越来越“能干”,可以处理的任务时间跨度也越来越长。



如果我们顺着这个趋势推演下去会怎么样呢?《AI 2027》报告里也做过类似的预测。这意味着,接下来的几年里,AI 可能不仅能完成几分钟、几小时的任务,甚至能处理需要几天、几周、几个月、甚至几年才能完成的复杂任务。

 


Length of Tasks Al can complete Autonomously

 

最终,我们可以想象,可能会有成千上万个 AI 模型协作就能完成现在一个完整人类组织才能完成的工作,甚至可以完成整个科学界几十年才能推进的研究。比如理论物理领域,很多时候你不需要实验设备,只需要思考。那么我们可以设想,未来的 AI 系统通过协作,也许在几天或几周内就能完成学界 50 年才能取得的进展。

 

三个建议

 

那问题来了,如果 Scaling 趋势真的能带我们走得这么远,那接下来还缺什么?



我觉得剩下的部分其实并不复杂。其中一个关键就是具备真实的“组织知识”。也就是说,AI 模型不能永远像现在这样如同一张白纸从零学起,它们需要像在一个公司、组织甚至政府机构里工作了多年的人那样,具备相关背景知识。所以,我认为 AI 模型必须能真正地处理“知识”。

 

它们还需要“记忆”。什么是记忆?从某种角度说,它也是知识。但这里我做一个区分:当 AI 在执行一个非常长期的任务时,它必须能持续追踪任务的进度,建立相关的记忆,并且能调用这些记忆继续执行任务。我们其实已经在 Claude 4 中开始构建这类能力了,未来这方面会变得更加重要。

 

第三个关键点是监督能力。也就是说,AI 要能理解更细微的语境,解决那些模糊、不明确的问题。

 

目前来说,像编程、数学这类任务比较容易提升,因为“对”和“错”非常清晰,强化学习的反馈信号明确,优化也容易。但我们真正需要的,是能够帮助我们生成更复杂、更细腻奖励信号的模型,这样才能用强化学习去训练 AI 讲真正有趣的笑话、写出真正有感染力的诗、做出在科研中“有品位”的判断。

 

除了这三点,还有一些更“简单”的需求,比如我们要让 AI 模型能执行越来越复杂的任务,从文本模型逐步拓展到多模态、再到机器人控制等更多场景。我相信未来几年我们还会在这些领域继续看到“Scaling”带来的巨大收益。

 

那么,我们该如何面对这种变化和可能的未来?我有几个建议:

 

  • 去构建那些“现在还没法完全跑通”的产品。这其实一直是个不错的策略,但现在尤其重要。因为 AI 模型正在非常快速地进化。你今天做的产品可能因为 Claude 4 还不够聪明而无法真正跑通,但等 Claude 5 来了,它可能就会成为杀手级应用。所以,我一直建议大家在 AI 的能力边界上做实验,因为这些边界在迅速变化。

 

  • 用 AI 来帮助我们更好地“集成” AI。现在 AI 发展的瓶颈之一就是它发展得太快,我们没有时间将其融入到产品、公司和科研事业中。为了加快这一进程,用 AI 来辅助产品化、集成化是非常有价值的。

 

  • 快速找到 AI 大规模应用的突破口。编程已经是一个爆发点了,软件工程是 AI 的绝佳应用领域。但下一个可以像软件工程一样在极短时间内迅速爆发的领域是什么?我不知道,但希望你们能找到它。

 


Claude 4 的核心优化

 

主持人:刚才的演讲很精彩,尤其关于 Scaling Laws 最近的进展。Anthropic 也发布了 Claude 4,现在已经可以使用了。很好奇,在接下来的 12 个月里,随着模型能力持续叠加,会带来哪些新的可能?

 

Jared Kaplan:如果 12 个月内没有比 Claude 4 更强的模型出来,那我们可能就麻烦了。不过说正经的,Claude 3.7 Sonnet 其实在写代码方面已经很不错了,用起来挺让人兴奋。但大家也注意到,它有时候太急于求成了,特别想帮你把测试跑通,甚至会做一些你不想要的东西,比如到处用 try-except 语句之类的。

 

所以,到了 Claude 4,我们主要提升了它作为“智能体”的表现,尤其在编程任务上,但也扩展到了搜索和其他应用场景,同时也提升了它对“监督”信号的理解能力,就是我刚才提到的那种“细致控制”。换句话说,它更听你的话了,代码质量也应该会更好。

 

另外,我们还加强了 Claude 4 的记忆能力。它现在可以在处理复杂任务时保存“记忆”,比如把某些信息存成文件或记录,然后在未来的对话或任务中重新调用。这样,即使超出了一次上下文的范围,它也能继续完成长流程任务。

 

但我觉得,Claude 4 的意义还不仅是这些具体的提升,而是它体现了“Scaling Law”所描述的那种平稳且持续的进步曲线。每次发布新模型,我们都会看到多方面的能力增长,最终朝着类人水平前进。

 

主持人:有什么特性是观众们一听就会觉得兴奋,或者你认为是 Claude 4 新 API 中大家会特别喜欢的点?

 

Jared Kaplan:“记忆”功能是我最感兴趣的,这为 AI 解锁了越来越长时间跨度的任务处理能力。随着时间推移,Claude 会越来越像一个靠谱的协作者,承担越来越多的工作量。

 

“广度型”的 AI 非常有用

 

主持人:你之前也说过,未来的 AI 模型会处理越来越复杂的任务,那现在大概能处理的是“以小时为单位”的任务?

 

Jared Kaplan:是的,这虽然是一个不太精确的说法,但你可以参考软件工程中的一些实际任务,仪表盘上显示了人们完成各种任务所需的时间,我认为这是一个以“小时”为单位的时间尺度。

 

我认为,大多数质疑 AI 的人会指出一个问题,那就是 AI 虽然能做出惊人的成果,但也会犯一些很愚蠢的错误。AI 的基本特征之一就是,人类虽然不能做某些事,但至少我们能判断某件事做得对不对,而 AI 的“判断能力”和“生成能力”几乎是在同一个水平线上,这就导致人类在使用 AI 时,很重要的一个角色就是“管理者”,需要帮 AI 检查工作成果是否靠谱。

 

主持人:很有意思。我们在去年 YC 孵化器看到的趋势是,很多 AI 初创公司都在做“copilot”产品,比如客服辅助系统,需要人类最终确认后才能发给用户。但在今年春季的一批创业公司中,很多团队已经开始直接提供完整的流程替代方案。你认为这会如何影响在座各位想要开发的东西呢?

 

Jared Kaplan:有很多可能,我觉得这取决于你对“表现成功”的接受度。可能某些任务只要达到 70%正确率就够用了,而另一些任务可能要求 99.9%。说实话,我觉得做那些 70%、80%正确率就足够用的应用会更有趣,因为这样你可以尽情探索 AI 能力的前沿。但我们也在努力提升 AI 的可靠性,未来我们会看到越来越多这样的情况。

 

我认为,“人类+AI”的协作会是一个很重要的发展方向。对于最前沿的任务,人类确实有必要参与其中,但从长远来看,未来将会有越来越多的任务能够完全自动化。

 

主持人:能否详细谈谈,你对“人机协作”未来的愿景?Dario 曾写过一篇文章“Machines of Loving Grace”,描绘了一个非常乐观的未来。从中可以窥探哪些细节?

 

Jared Kaplan:其实现在我们就已经在某些领域看到这种协作的雏形了。比如我跟生物医学研究的人交流时发现,只要流程安排得当,现在的前沿模型已经能给药物研发带来一些有价值的发现。这对生物医药领域来说很有意义。

 

另一方面,我想智能有两种类型:一种是“深度型”的,比如数学,可能你十年只攻一个定理,像是黎曼猜想或费马大定理;另一种是“广度型”的,比如生物学、心理学或历史,这些领域往往是靠拼图式地组合大量信息形成洞察力。

 

而 AI 在预训练阶段,本质上已经“吸收”了人类文明的几乎所有知识。它拥有的“广度”已经远远超过任何一个人类专家。所以我相信,在这些“需要组合多个知识领域”的任务上,AI 有很大潜力,比如生物学研究中,整合不同领域的专业知识来获取见解,会有很大的收获。

 

我们在让人工智能处理复杂深度任务方面已取得重大进展,比如复杂的编程或高难度的数学问题。但我认为,在某些特殊领域仍有一些悬而未决的问题,它们的解决需要整合人类专家都未曾掌握的知识,但“广度型”的 AI 是非常有用的。

 

听起来,我们会更多地利用人工智能知识的广度。至于具体如何实现,我真的不知道。预测未来非常困难。但 Scaling Law 给我们提供了一种预测方法,它表明这个趋势会继续下去。像经济增长、GDP 这些确实是比较稳定的预测工具,但在实现层面该具体怎么做,我真说不好。

 

主持人:那你觉得哪些领域是目前模型能力已经解锁,但开发者还没有充分探索的“空白地带”?

 

Jared Kaplan:我是做研究出身的,不太懂商业上的机会,但一般来说,凡是那些“技术门槛高”、“主要靠电脑和数据打交道”的领域,我觉得都很值得关注。比如金融、Excel 重度使用者、法律(虽然有很多监管限制)都是潜力很大的方向。

 

还有一点就是,怎么把 AI 集成到现有的业务中。我觉得可以借鉴“电力革命”的例子:电力出现时,有一个很长的采用周期,最初、最简单的使用方式不一定是最好的。大家不只想用电力替换蒸汽机,而是重塑了整个工厂的运作方式。同样地,尽快将 AI 深度整合到经济的各个部分中的话,会产生更多的“杠杆”。

 

“傻”问题带来巨大价值

 

主持人:你本身是物理学出身,也是最早发现“Scaling Law”的人之一。这种思维方式对你在 AI 研究中有什么帮助?

 

Jared Kaplan:我觉得物理研究带给我的好处是:去寻找最大的图景、最宏观的趋势,然后试着把它们精准可量化。我以前经常碰到很厉害的 AI 研究者说:“学习在以指数级速度收敛。”但我会问一个特别“笨”的问题:你确定是指数?会不会其实是幂律、二次函数呢?

 

虽然问题听起来傻,但其实正是这种“较真”带来了巨大的价值。因为你只有把趋势弄得足够精确,才能真的理解“怎么做才能突破”,也才能知道你有没有真正做到。比如在 Scaling Law 中,最理想的情况就是找到了让性能随计算增长更快的方法,那意味着你投入更多算力就能比别人进步得更快。

 

但在你弄清楚你看到的趋势之前,你其实并不确切知道该如何超越它、能超越多少以及如何系统地判断你是否达到了目标。这就是我所使用的方法,并不一定是像将量子场论直接应用到人工智能中那么具体。

 

主持人:那在你观察和衡量这些趋势时,有没有一些物理学上的启发,比如重整化或对称性之类的理论,对你特别有帮助?

 

Jared Kaplan:你如果观察一下 AI 模型,会发现它们很“庞大”,神经网络参数量巨大,现在已经到了万亿级别。这意味着它们由非常大的矩阵构成。在物理和数学中,其实早就有一套研究“大矩阵近似”的方法。我们发现,把神经网络视作无限大的系统来研究确实是有用的。这是一个在物理学中早就被用过的方法,现在也被应用到 AI 中。

 

但我觉得,总体而言,最有用的还是去问一些“特别蠢”的基础问题。AI 其实是个非常新的领域,我们现在使用的训练方法大概也就发展了 10 到 15 年。很多最基本的问题都还没被解决,比如可解释性问题、AI 模型内部到底是怎么运作的。所以我认为,在这个层面上有很多东西需要学习,而不是应用非常花哨的技术。

 

主持人:那关于可解释性,你有没有应用过物理学的某些工具?

 

Jared Kaplan:其实我觉得可解释性更像是生物学或者神经科学领域。它更像是在研究“大脑的工作机制”。当然也有数学上的一些方法,但我觉得整体上还是偏“生物式”的研究。

 

相比神经科学来说,AI 有个巨大的优势是我们可以“测量一切”。你无法观察人脑中每一个突触或神经元的活动,但在 AI 模型里你可以。所以我们有更多的数据去“逆向工程”这些系统。

 

Scaling Law 失效?可能是训练方法出了问题

 

主持人:关于“Scaling Law”,现在已经在五个数量级层面上成立,这非常了不起。那我想反过来问个问题:什么样的实证迹象会让你相信这个规律“失效了”?

 

Jared Kaplan:这是个很难的问题。对我来说,“Scaling Law”更多是一个用来判断训练是否正常的诊断工具。因此,当你观察到一个非常有说服力的趋势时,研究它在哪些方面不成立就会变得非常有趣。

 

但我通常的第一反应是:如果 Scaling Law 不再成立,很可能是我们在训练过程中“搞砸了”,比如可能是网络架构设计错了,或者训练过程存在某种瓶颈,或者使用的算法在精度上出了问题。所以,如果真要说服我相信 Scaling Law 不再适用,那可能得有非常强的证据。因为过去五年我的经验是:每次我们以为 Scaling Law 失效的时候,其实都是我们的训练方法出现了问题。

 

主持人:有趣。那我追问一个更具体的问题。要继续沿着这条规模曲线走下去,我们需要大量算力。如果将来算力越来越紧缺,你们会在精度上探索到什么程度?比如探索 FP4、三值表示之类的路径?

 

Jared Kaplan:是的,这个问题非常关键。现在的 AI 其实是非常“低效”的。但因为 AI 的价值很高,所以大家都在争先恐后地去“解锁最强模型”。Anthropic 和其他公司也在努力让训练和推理都更高效,同时也在尽量逼近能力上限。

 

长期来看,我认为我们会显著降低训练和推理的成本。现在每年在算法上,我们通常能看到 3 倍到 10 倍的效益提升,计算规模有所扩大,推理效率也提高了。有个玩笑说,“我们终有一天会让 AI 回归二进制运算。” 所以我认为,我们将看到精度大幅降低,降低精度成为提高效率的众多途径之一。

 

不过,目前 AI 的发展非常不平衡。AI 在快速进步、事情在迅速变化,模型能力没有完全解锁,但我们在释放越来越多的功能。等哪一天 AI 的发展速度变慢,我们也许才会看到成本极低的 AI,我认为这是平衡的状态,但现在很难说是否会到那一步。也许 AI 会一直快速进化,以至于我们更关心能力的提升,而不是去追求更低的计算精度。

 

主持人:这其实就像“杰文斯悖论”,当 AI 智能越来越强,人们反而会越来越依赖它,需求增长速度可能会超过成本下降。

 

Jared Kaplan :没错。而且我认为,未来 AI 越能代替人类完成各种工作,我们就越愿意为“能力顶尖”的模型买单。

 

我一直在思考一个问题:AI 的大部分价值是否都集中在“前沿模型”上?有没有可能“低配版 AI”也能创造大量价值?我觉得有个重要的维度是“时间跨度”:简单的任务有很多,但用能力强的模型去做复杂任务,会比我们用弱模型一点点拆分更高效。所以我确实认为,大部分价值可能还是来自最强模型。但也不排除我看错了,也许这取决于“AI 整合者”能不能用弱模型实现高效协作。

 

主持人:今天观众大多数还处于职业早期,你觉得未来在 AI 越来越强的时代,他们该如何保持“不可替代”?

 

Jared Kaplan:我觉得,如我前面说的,了解这些模型的工作原理,并能高效地将其整合到实际场景中,将是非常宝贵的技能。此外,能够在“能力前沿”构建产品也是一种巨大的价值。

 

观众提问

 

观众 1:我想问一个关于 Scaling Law 的问题。你展示了模型性能提升和计算资源之间是线性关系,也就是说计算呈指数增长,但模型能力提升是线性的。但是在你最后一张幻灯片上,你却展示了一个“时间节省量”突然呈现指数增长的趋势。为什么前面是线性,而后面突然是指数?

 

Jared Kaplan:好问题!老实说,我也不知道(笑)。这个现象主要是来自经验观察。我的理解是,要完成更复杂、更长时间跨度的任务,真正需要的是“自我纠错”的能力。你要能够发现自己的错误:你制定了一个计划,然后开始执行,但执行过程中总会出问题,这时你要能意识到错误,并进行修正。

 

所以,我认为决定模型能完成的任务时间跨度,很大程度上就是它们发现自己出错并纠正错误的能力。这不一定需要并不需要大量的信息,也不一定需要智能有巨大的提升,有时候只需要多识别出一两次错误并修正,就能把任务推进得更远,比如你本来做到一半就卡住了,现在能坚持的时间可以延长了一倍。这种小幅度能力增长可能会带来指数级的“时间任务跨度”提升。

 

当然这只是我的一种理解,真正有趣的其实是这些经验趋势本身。也许我们以后能建模出更合理的解释,但现在,我和你一样,只能说这是我们的猜测。

 

观众 2:我也有一个关于“任务时间跨度”的问题。我理解神经网络就是“你想让它做什么,就用这样的数据去训练它”。所以如果你想延长时间跨度,那就要有更长周期的监督信号。比如 Claude Agent,通过实际部署获得验证信号,然后不断用这些数据来改进模型。我的问题是,这个方法在代码领域很有效,因为代码产品足够好,可以上线后回收信号。但在其他领域我们该怎么做?难道只能持续扩大标签数据集直到实现 AGI?有没有更好的方法?

 

Jared Kaplan:这是个很好的问题。其实每当有人问我“你为什么认为我们能实现类人智能”时,我的回答就是你刚说的那条路——虽然很繁琐,但理论上是可行的:你持续构建更复杂的任务,延长时间跨度,然后不断地用 RL 去训练模型来完成这些任务。最坏的情况下,我们能用这种“纯人力堆叠”的方式来实现突破。考虑到现在 AI 投入的规模和潜在的巨大价值,我相信即使很麻烦,也会有人去做。

 

话虽如此,我认为肯定有更好的方法,比如训练一个 AI 去监督另一个 AI。就像在训练 Claude 时,让另一个模型来监督,它不只是判断你是否正确完成了极其复杂的任务。打个比方,你是否能成为一名终身教授可能需要六七年的时间验证,但这放在模型训练上的话就太荒谬了,效率太低了。相反,它可以提供更详细的监督,告诉你哪些地方做得好,哪些地方做得不好。这种细粒度监督能力,会让我们在训练“长时间任务”时效率大大提升。我们现在其实已经在这么做了。

 

观众 3:当你们构建这些 RL 任务时,会不会尝试用大型语言模型自动生成任务?还是说目前仍主要依靠人类?

 

Jared Kaplan :好问题。我们现在是“混合”模式:尽可能用 AI 来辅助构建任务,比如生成代码任务,但我们也会请人类参与任务设计。未来,AI 越强,我们就越能依赖它来构建训练数据。不过,随着任务难度提升,人类仍然会发挥重要作用。

2025-07-31 18:2724

评论

发布
暂无评论

2020年Java篇:蚂蚁金服、拼多多、字节跳动的面试总结,mysqlserver使用教程

Java 程序员 后端

2021 年最新版 68道Redis面试题,20000字,赶紧收藏起来备用,成功入职阿里

Java 程序员 后端

2021年最新基于Spring Cloud的微服务架构分析,java技术经理岗位职责

Java 程序员 后端

10万字Spring Boot详细学习笔记+源码免费开放下载,京东T7大牛纯手写出来的!

Java 程序员 后端

15W字!腾讯总监手写“Netty速成手册”,mysql索引优化面试题

Java 程序员 后端

大开眼界,终于有人将Spring技术精髓收录成册,已在Github上获赞百万

Java spring 编程 程序员 SpringCloud

从OA到COP,致远互联成引领行业的“灯塔”

海比研究院

致远互联 COP 协同运营平台

2020-6次面试阿里,持续一个多月,终于拿到offer了!,java三层架构登录功能实现

Java 程序员 后端

2020百度、小米、乐视、美团,小米java面试几轮

Java 程序员 后端

代码覆盖率VS测试覆盖率

FunTester

测试 测试覆盖率 覆盖率 FunTester 代码覆盖率

1024 的那天,我这个三线的程序员是这样度过的,阿里巴巴高级java工程师薪酬

Java 程序员 后端

2020年春招复盘:技术三面+HR面,成功斩获京东offer,springboot项目实战源码

Java 程序员 后端

2021年五面蚂蚁、三面拼多多、字节跳动最终拿offer入职拼多多,我是如何收割多家大厂offer的

Java 程序员 后端

10个经典场景带你玩转SQL优化,Java笔试题算法题

Java 程序员 后端

名震GitHub,字节跳动内部顶级数据结构刷题学习笔记根本停不下来

Java 程序员 数据结构 面试 字节

1小时破千万点击量!阿里巴巴首发:Java实践指南,mysql使用教程图解目录

Java 程序员 后端

迎接10亿快递高峰,看百度OCR如何助力物流企业提速

百度大脑

人工智能 OCR

2021BATJ面试题大全500道:Redis+数据库+分布式,java面试简历百度云

Java 程序员 后端

进击的Java(四)

ES_her0

11月日更

license是什么意思?谁能解释一下?

行云管家

云计算 LICENSE IT运维

2021年10月最新版Java面试真题+视频解析(价值24980赶紧收藏码住!

Java 程序员 后端

2021年总结阿里、腾讯、百度等大厂11个Redis系列高频面试题,哪些你还不会

Java 程序员 后端

2020淘宝双十一快速刷金币工具,这份字节跳动历年校招Java面试真题解析

Java 程序员 后端

免费试用的堡垒机哪里有?哪家好?咨询电话多少?

行云管家

网络安全 数据安全 等级保护 IT运维

10分钟手把手教你快速入门SpringBoot!,字节跳动java研发面试题社招

Java 程序员 后端

10个 解放双手的 IDEA 插件,少些冤枉代码,java程序员进阶路线

Java 程序员 后端

15 高可用网站的软件质量保证,java技术基础知识总结

Java 程序员 后端

15W字!腾讯总监手写“Netty速成手册”(1),SpringBoot项目瘦身指南

Java 程序员 后端

1万字长文高速你千万级并发架构下如何提高数据库存储性能,使用指南

Java 程序员 后端

2021字节总监最新发布:JVM +GC优质手册!面试专属,mongodb集群搭建原理

Java 程序员 后端

100道 IT名企前端面试真题,java教程pdf百度网盘

Java 程序员 后端

一个“蠢问题”改写模型规则!Anthropic联创亲曝:瞄准Claude 5开发爆款应用,最强模型的价值会让人忽略成本负担_AI&大模型_褚杏娟_InfoQ精选文章