50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

比 996 还狠!让面试者 8 小时复刻出自家 Devin,创始人直言:受不了高强度就别来

  • 2025-08-31
    北京
  • 本文字数:14068 字

    阅读完需:约 46 分钟

大小:6.61M时长:38:28
比 996 还狠!让面试者8小时复刻出自家Devin,创始人直言:受不了高强度就别来

你能想象如今去找工作,人家已经不满足于考你一道算法题了,而是要你在面试现场,8 小时从零肝出他们自家的产品——类似 Devin、Windsurf、Cursor 这样的 AI 工具。还得顺手把数据库接上、依赖修完、测试跑通。

 

更夸张的是,这样的公司真的存在——正是那个号称要重塑软件工程未来的 Cognition。它的 CEO Scott Wu 在播客里亲口说,这就是 Cognition 的面试流程:给你 6 到 8 个小时,看你能不能做出一个端到端的代理,一个属于你自己的“Devin”。

 

此前,Scott Wu 在收购 Windsurf 时曾直言:Cognition 的文化就是高强度、超长工时、毫不掩饰的 996。“我们不信什么工作生活平衡——打造软件工程的未来是我们所有人都深深在意的使命。在这里我们每周要在办公室干 6 天,工时超过 80 小时。”

 

相比之下,真正的地狱也许不是入职后的 996,而是还没进门就要先完成“8 小时写一个 Devin”的创业模拟。996 是长期透支,而这个面试更像是瞬间压榨,把“造一家公司”硬生生当成了入职考题。

 

更讽刺的是,Cognition 的团队本身也不是普通打工人。在最初的 35 名成员里,有 21 位曾经是创业者。Scott Wu 认为,死记硬背知识点、熟悉语法细节这些都不再重要,真正重要的能力是高层次决策、对技术的深入理解、对产品的直觉判断,以及极强的自我驱动和责任心。换句话说,他们干脆把“创业者标准”写进了招聘流程。

 

我们翻译了这期播客的完整内容,带你看看这家 AI 企业的疯狂逻辑。

 

一些亮点如下:

  • 我最高的学历严格来说是初中毕业证,没有真正完成高中,也没有读完大学。

  • 在早期,直觉敏锐、敢于自我推理就非常有优势。但一旦领域成熟,最后的答案往往就是数学。

  • 我们之所以要设立各种流程,本来就是因为人类也会犯错。这就是为什么我们 CI 流程和各种检查。

  • 即使把今天的模型能力完全冻结,不再有新的模型或研究突破,产品层面依然有十年的进步空间。

  • 我们的原则是:必须让大家“自愿选择”加入这种(加班)文化。

 

硅谷“数学帮”中的初中文凭 AI 创业者

 

John Collison:能讲讲你的成长经历,以及你在数学上的故事吗?我觉得大家现在都知道你是“数学竞赛大神”。

 

Scott Wu:是的,我在巴吞鲁日长大。我父母都是化工工程师,他们为了读研究生从中国移民过来。后来他们找工作时,就做空气排放许可相关的工作。路易斯安那州有很多石油和天然气产业,所以他们最后留在那里。

 

我从小就喜欢数学。我有一个哥哥 Neal,我们一直非常亲近,他比我大五岁。Neal 在中学时就开始参加数学竞赛,大概是六年级的时候,而我那时才上一年级。作为弟弟,我就会去看他在做什么,试着学一些同样的数学。这就是我最初接触数学的方式。

 

后来我发现自己真的很喜欢数学竞赛。我二年级时就开始参加了。我记得有一次在当地的大学参加比赛,那个比赛是为中学生和高中生开的。我作为二年级小学生参加了七年级组别的竞赛,这是针对初中生和高中生的竞赛,也是我第一次参赛。当时只是单纯喜欢数学,结果颁奖时,三等奖、二等奖、一等奖都没叫到我。我记得自己非常难过。

 

John Collison:这就是你的“超级反派起源故事”啊。

 

Scott Wu:没错,基本就是这样开始的。后来我很努力训练,到了三年级时参加代数一的组别,结果那一年得了冠军。之后我就一直参加各种数学竞赛。到了高中最后一年,我参加了 IOI 国际信息学奥林匹克竞赛。我参加了三次 IOI,并且都拿了金牌。

 

John Collison:那你后来上了哪所学校?

 

Scott Wu:其实我中间休学了一年。我提前一年就离开了高中。我学习不太好。


John Collison:这听起来很惊讶,你不是很擅长上学?

 

Scott Wu:嗯,我并不是不擅长学习,而是“不擅长把学业完成”。我最高的学历严格来说是初中毕业证,没有真正完成高中,也没有读完大学。

 

所以我提前一年离开高中,去湾区待了一年,在一家叫 Addepar 的公司做软件工程师。那是 2014 年,已经很久以前了。当时的经历对我来说很特别。

 

之后我决定还是去试试大学,于是去了哈佛,读了两年后就退学了。

 

John Collison:你是怎么加入 Addepar 的?他们招收一个高中辍学生,显然很有远见。

 

Scott Wu:当时其实挺有意思的,我们有四个高中生同一天入职。我、Alexandr Wang(Scale 的创始人,现在 Meta),我们是同一天开始的。还有 Eugene Chen(现在在做 Phoenix DEX),以及 Sreenath Are(最近是 Sandbar 的 CEO)。

 

John Collison:这也太“团体小圈子”了吧,你和 Alex 同时在那里?

 

Scott Wu:对啊。我和 Alex 早就认识了,最早在中学时认识的。他来自新墨西哥,我来自路易斯安那,我们在一次叫 MATHCOUNTS 的全国数学竞赛上遇见的。后来我们一直保持联系,那时还是用 Google Hangouts 聊天。

 

事实证明,我们这一代很多人最后都走上了相似的道路。我觉得有一种创业传染效应。Alex 应该算是我们这群人里最早一个,他让我第一次认真考虑创业。但也不仅仅是他。像 Johnny Ho(Perplexity 联合创始人)、Demi Guo(创办了 Pika)、Jesse Zhang(创办了 Decagon),我们这一群人很多都是在同一年参加这些数学和编程竞赛的,大家彼此都认识。

 

John Collison:之前有人讨论过一个问题:年轻创业者都去哪儿了?过去总有人二十出头就做出突破性公司。比如 Michael Dell 19 岁创办戴尔,23 岁上市;Mark Zuckerberg 在 Facebook 崛起时也还很年轻。后来似乎有一段时间没有那么多年轻创始人。但现在又涌现出很多,你才 28 岁就做 Cognition。那么,年轻人担任行业领先公司的创始人,本身是否就是产业活力的一个指标? 就像 PC 时代的起飞对应着年轻的 Michael Dell,社交网络起飞对应着年轻的 Mark Zuckerberg,如今 AI 编码工具的爆发,也伴随着一批年轻创始人。

 

Scott Wu:首先谢谢你还把我算“年轻”。但我觉得相比 18、19 岁已经算晚了。

 

我对这个问题也有一些想法。我的看法是:如今做创始人总体上变得更难了。 这大概是最核心的原因。过去那些年轻创始人之所以能做得很好,是因为归根到底,“第一性原理思考”往往比经验更有优势。很多创业本质上就是去做一些前所未有的事,然后自己得出结论。

 

但现在不一样了。现在有很多人,既具备第一性原理思考的能力,又有丰富的经验。整个创业空间变得更加“成熟”。所以做创始人确实更难了,能真正从大学一毕业就直接成功创业的人更少了。

 

John Collison:当然,说“以前创业容易”也不准确。Facebook 当时面临大量竞争,戴尔也不是唯一的 PC 厂商,他们都绝对谈不上轻松。不过你说得没错,现在的大公司对生态的感知和连接都很敏锐。比如 Satya(纳德拉)或 Mark Zuckerberg,他们对 AI 的一切发展都非常关注,不断投入精力。因此,可能不会再有那种“巨大的机会就静静躺在地上、等着被人捡走”的情况。

 

Scott Wu:所以,更准确的说法也许是:不是更难,而是整个行业更加成熟,积累了更多经验和“玩法手册”。比如“股权该怎么设计”“融资该怎么谈”“初始团队怎么招”——这些问题,现在很多经验都能借鉴。

 

而在过去,这些几乎没有现成答案,全靠创始人自己敏锐和果敢的判断。如今则可以从前人经验里汲取更多。所以,这或许是为什么年轻创始人相对减少的原因之一。

 

我还有一个理论,可以叫做“Moneyball 化”。我平时有个爱好是打扑克。很多人以为扑克只是运气和直觉,但实际上比人们想象的更数学化。

 

你能从顶尖玩家的演变中看到这一点。八九十年代的职业高手,并不是竞争较小,而是他们成功的关键技能是极强的直觉。他们当然理解一些数学概念,但更多是在“系统一”(直觉思维)的层面快速感知,并且对游戏有很好的感觉,知道该如何调整自己的打法。

 

而现在,全是数学怪才。当一个领域逐渐成熟时,就会发生这种转变。

 

在早期、不成熟的阶段,人们甚至不知道该问哪些问题,也不知道该用什么参照系思考。在这种情况下,直觉敏锐、敢于自我推理就非常有优势。但一旦领域成熟,最后的答案往往就是数学。

 

就像国际象棋一样。19 世纪的时候还有所谓“浪漫派”风格,凭直觉下棋。但今天棋力引擎已经能算出“41 步必胜”。棋局也就演化成“找到最优解,并看你离它多近”。

 

另一个例子是任天堂的《任天堂明星大乱斗:近战》,我以前也打过比赛。最初 6-8 年,选手都是灵活、有创造力的玩家。后来全变成了数学化的打法,靠精确计算而不是灵感。即时战略(RTS)游戏也有类似趋势。

 

这种转变当然也有美感,只是说随着领域成熟,最终都会走向数学化。而创业可能也在经历这样的过程。

 

Cognition 的 AI 软件工程师 Devin

 

John Collison:什么是 Cognition?它做什么?

 

Scott Wu:我们正在构建 AI 软件工程师。过去一年半我们一直在开发 Devin,最近还收购了 Windsurf。Devin 是 Windsurf 中的智能代理,也是 IDE 中的一部分。但从更高层面来说,我们的目标是构建软件工程的未来。

 

John Collison:会不会让人困惑?公司叫 Cognition,产品叫 Devin,又有点拟人化,现在还加上 Windsurf,好像有第三个名字。

 

Scott Wu:我们也在讨论这个问题。可能做一些整合会更好。

 

John Collison:好的。很多人对 GitHub Copilot 或 IDE 辅助编程的范式很熟悉,比如在 IDE 里写代码时,它帮你自动补全,或者你输入一些指令,它帮你写。这和 Cognition-Devin 的范式不同。

 

Scott Wu:没错。用 Devin,你是在 Slack 频道里和它对话,比如“帮我做个 X 或 Y”,就像和同事说话一样。

 

John Collison:所以你既可以从 Slack、Linear、Jira 调用它,也可以从 IDE 里用它,但并不一定要在 IDE 里。

 

Scott Wu:对,完全正确。之前的范式,比如 GitHub Copilot,算是 IDE 模式里最早、最知名的代表。我会把它描述为:当你在键盘前写代码时,它让你写得更快,提供一些工具和快捷方式。

 

而 Devin 完全是另一种范式,我称之为异步体验:你把任务交给一个智能代理,它去执行。所以 Devin 更像是在任务单或项目层面工作。你在 GitHub 里有个 issue,然后你 @Devin,它就开始干活。

 

John Collison:Devin 目前在哪些任务上表现最好?

 

Scott Wu:我们喜欢称 Devin 现在是一名“初级工程师”。它在某些方面比所有人都强,比如百科知识、查找事实。但它在某些事情上也会做出很糟糕的决定。总体平均来看,用“初级工程师”来形容是比较准确的。

 

我们看到大家最常用 Devin 的场景是:

  • 修 bug;

  • 做一些简单的功能请求和小修小补;

  • 或者执行团队里大家已经决定要做的某个任务,你只需要“@Devin,帮我搞定这个”。

 

另外一类很常见的,是那些重复且枯燥的任务,比如迁移、现代化改造、重构、版本升级。全球软件工程师花在这些事情上的时间,往往比真正“创造性构建”要多得多。比如修复 Kubernetes 部署、做依赖管理、写测试和文档等等。

 

John Collison:你能分享一些业务指标吗?

 

Scott Wu:Devin 已经部署在全球成千上万家公司里,从高盛、花旗这样的大银行,到两三个人的小型创业公司。

 

我们衡量的主要指标是合并的 pull request 占比。在成功的团队里,Devin 通常会完成 30% 到 40% 的合并请求。

 

John Collison:不过现在 IDE 工具(比如 GitHub Copilot、Cursor、Claude Code)也不是完全同步,你输入提示后,它们也会去执行。你说的同步与异步的区分,是暂时的吗?未来会融合吗?

 

Scott Wu:我认为这两种体验在接下来一段时间会共存。真正有意思的是如何找到它们之间的共享体验。我们最近收购 Windsurf 也是在考虑这点,很快会发布一些相关的新功能。

 

John Collison:你知道“本质复杂性(essential complexity)”和“偶然复杂性(accidental complexity)”的概念吗?

 

Scott Wu:是的。作为软件工程师的本质,其实就是在代码的语境下解决问题。工程师要告诉计算机该做什么,同时不断做各种决策:大到整体架构的选择; 小到某个余额小于零时,是报错还是请求补充。 这些逻辑性的决策就是所谓的“本质复杂性”。

 

而“偶然复杂性”是所有其他事情:规模化时的支撑性工作,或者每个类都必须有的一些标准化特性。这些东西大家都知道必须有,但不涉及真正的决策。

 

在 AI 编码出现之前,软件工程的主要部分就是做决策,但人们 80%-90% 的时间却花在了重复实现、例行工作上。未来的混合体验是:需要人类决策的部分保持同步; 纯粹执行的部分交给 AI 异步完成。

 

一个项目通常会在同步和异步之间交替。同步体验更像 IDE,直接看代码、逐行修改;异步体验更像智能代理,接收任务后独立完成。关键是让工程师在高影响力的决策点上互动,而不是被繁琐的执行细节拖住。

 

John Collison:那在企业里呢?比如数据库迁移,最后一步删除旧表是很吓人的,大家担心 AI 幻觉。怎么让企业放心地给 Devin 足够的权限?

 

Scott Wu:我们非常明确地建议用户,不要给 Devin 开放过于宽泛的数据库访问权限。这就是一种做法。到目前为止,我没听说过出现过严重问题,但显然,最好还是不要冒这个风险。

 

坦白说,我的看法是:我们之所以要设立各种流程,本来就是因为人类也会犯错。 这就是为什么我们有 pull request、代码审查,有 CI 流程和各种检查。Devin 其实能很自然地融入这些流程。

 

通常大家和 Devin 的工作方式是:比如做大规模代码迁移,会把任务拆分开。可能有 5 万个文件要从某个 Angular 版本升级到另一个版本。Devin 就会逐个去改,并且为每个改动提交 PR。接着你只需要去审查代码,确认修改正确。

 

这样做背后还是有人类把关。这就呼应了你之前说的“偶然复杂度”问题:迁移真正耗时的并不是那一步“删除旧表”,而是所有周边琐碎的环节。

 

在实践中,我们发现,尤其是在企业级的迁移场景里,当用户内部去测量时,通常能看到 8 到 15 倍的效率提升。因为正如你说的,工程师只需要审查代码,而不是亲自写下每一行,或逐个检查每个引用。

 

John Collison:很多组织都想知道 AI 编码工具的生产力影响。现在工程师都想用,但从 PR 数量这些指标看,不是很明显。你可能会说,如果代码质量下降了,那后续维护成本会增加;或者别的什么情况。所以现在几乎所有人都在寻找一种“铁证般的生产力数据”,能一锤定音地说明 AI 的影响力。估计很多 CTO 也在找这种数据,好向 CFO 证明开销是合理的。那你怎么看?AI 工具的生产力提升究竟大吗?能真正量化吗?

 

Scott Wu:当然能。我认为,随着行业逐步从 IDE 辅助过渡到智能代理,这个问题的答案会越来越清晰。

 

老实说,我觉得 IDE 带来的生产力提升其实常常被低估。原因就在于,它很难被准确量化。比如我们看自己团队的数据,平均下来,每个工程师在一周里会使用 Tab 自动补全 238 次。直觉上,这肯定是有价值的,也确实会让人更快。但要说它到底让你快了多少,就很难精确衡量。

 

相比之下,智能代理(Agent)要清晰得多。因为代理是直接帮你把整个任务完成。比如一个 Jira 任务,或者一次大规模迁移。通常情况下,你对这些任务需要多少工程师工时是有数的。而当代理能端到端完成这些事情时,提升是显而易见的:比如过去需要人力做的迁移,现在只需要你花五分钟审查 PR,一切就完成了。

 

所以,随着时间推移,这种生产力的提升会变得越来越明显。

 

John Collison:有人认为,编码工具只是一个过渡阶段,很快就会被 GPT-6 或 GPT-7 这样的更强模型取代。你显然不是这么认为的吧?怎么避免被大模型实验室“碾压”?

 

Scott Wu:当然。我觉得那些实验室本身就是非常了不起的企业。但在我理解里,这种观点其实是一种“虚无主义的计算机使用论”。意思是:我们在现实世界里从事的各种知识工作,本质上都要借助计算机。AI 会越来越擅长使用计算机,直到某一天,什么都不剩下,只剩下 AI 自己操作你的电脑,把你的工作全都做掉。这,大概就是这种论调的核心。

 

我能理解其中的道理,这种观点很难被彻底反驳。但在实践中我们看到的情况是,现实世界中存在大量的上下文知识和行业细节。比如前面说的 Angular 迁移。并不是说这些事做不好,事实上模型会越来越擅长。但要让模型真的变得更好,关键还是得有合适的数据。

 

如果它从没见过 Angular,从没做过 Angular 迁移,那么它的能力就是有上限的。再比如调试 Datadog 错误。现实中的软件工程非常混乱,充满了各种意外情况。其实大多数学科都如此,无论是法律还是医学。

 

所以虽然通用智能会越来越强,但要让它真正适用于某个特定场景,还需要很多工作。既要在能力层面针对具体用例表现得足够好,也要在产品体验层面真正把它交付给客户,落地到现实中。

 

John Collison:换句话说,这不是一个“通用智能”任务,而是一个“特定智能”任务。比如在 Stripe 的代码库里工作,当然需要一些通用智能,但更需要上下文和与现有工作流的结合。所以你认为这是一个需要持续专精的领域?

 

Scott Wu:也许可以这样理解:这个虚无主义的观点其实指向“超级智能”。某种程度上,我们的确正在向“短程超级智能”迈进。通过 RL(强化学习)不断优化,模型逐步逼近一种“柏拉图式理想”——能够在任何基准测试(benchmark)上达到满分。

 

无论基准是什么,哪怕是未解的数学难题,我们最终希望能把它输入数据集,让模型达到 100%。而且说实话,这个进展比很多人预期的快得多。比如 IMO 金牌、某些顶级基准分数已经出现了令人惊讶的突破。

 

但即便如此,我不认为我们最后会得到一个纯粹的 ASI(人工超级智能),然后终结人类知识工作。更可能的情况是:问题变成“接下来基准测试是什么?”

 

定义 benchmark 本身就是世界的混乱现实。比如在软件工程里,你每天接触哪些工具?怎么使用?如何建立长期的代码库表征?怎么判断一个功能是否成功上线?这些都需要环境和标准的设计。

 

John Collison:那 Devin 有没有合适的 benchmark?还是说它的营收本身就是基准?

 

Scott Wu:我们内部其实有很多 benchmark。最主要的一个叫“初级开发 benchmark”,可能很快就得升级为“高级开发 benchmark”了。它涵盖了各种真实的初级开发任务。

 

举例来说,任务可能是“修复一个 Grafana dashboard 并拉取结果”。难点不在算法,而在于现实复杂性:比如服务器运行的包版本不对,需要读懂报错信息,换成正确依赖,再重新跑,最后验证结果是否正确。这类任务尽可能接近真实工程师日常的工作。

 

至于最新模型,Claude 4.1 和 GPT-5 在这个基准上的表现,已经超过此前所有模型。

 

找差异化,活下去

 

John Collison:那从产业角度看,未来 5 到 10 年 AI 产业链的各层(数据中心、实验室、应用层)会是什么格局?哪些环节更竞争?哪些更稳定?会不会变成寡头格局?

 

Scott Wu:每次我说这个,大家总是笑,但我真的认为:所有层都会发展得很好。

 

首先,会有大量的 AI。各层的价格现在都相对便宜。我过去 6 到 12 个月一直在说这点,现在我们确实看到各层的价格都有明显上涨。但从宏观来看,第一点就是:AI 会极大规模存在

 

过去 10 年,B2B SaaS 主要做的是很多增量改进。往前看 30 年,大的浪潮其实只有几个:

  • 90 年代到 2000 年初的互联网;

  • 2000 年代末到 2010 年代初的智能手机和云计算; 这些都是过去几十年最重要的变化。

 

但这 10 年里,很多新产品更多是在特定垂直领域或某个工作流环节做小幅优化。而 AI 的不同在于,它直接作用于所有知识工作,甚至可能扩展到物理劳动(取决于机器人进展)。

 

所以第一点:未来会有大量的 AI。第二点是价值的积累。我的观点是,价值会沉淀在每一个存在显著差异化的层里。举个例子:NVIDIA 和台积电(TSMC)。只要双方互相依赖,就算有摩擦,它们依然会持续做得很好。这种逻辑同样存在于技术堆栈的各层。不同层面要解决的问题完全不同,差异化非常明显。

 

John Collison:所以你认为这会避免过度纵向整合?

 

Scott Wu:对。硬件层是一个逻辑,大模型训练又是另一套逻辑:需要顶尖研究员、尽可能多的 GPU 和对应的文化氛围。而应用层的 DNA 则完全不同。我们当然也涉及研究,但我们专注的只是一个问题:如何把“未来的软件工程”真正做出来。

 

很多公司谈“AI 写代码”,是抽象地谈。但我们考虑的是软件工程整体——包括其中的混乱、产品接口、交付方式、使用模式,以及一堆细节能力。

 

每一层都有各自的 DNA,各自最擅长的事。

 

John Collison:在 Stripe,我们一直在思考如何构建 AI 的经济基础设施,以及它需要具备什么条件。你可以让一个代理(agent)代表某个人行动,而你只需要在应用里下达指令或进行操作。而代理的工具使用能力之一,就是可以代表你去现实世界里进行商业交易。所以我们正在为此搭建基础设施。

 

我们注意到,AI 的经济模式几乎都是基于使用量计费的,不管是按 token 还是其他单位。因此我们正在构建基于使用量的计费系统。而我们在 Stripe 上看到的 AI 计费系统,和传统 SaaS 非常不同。经典 SaaS 的模式是按席位(seat)计费,而 AI 几乎全部是按使用量消耗。甚至你可以想象代理之间会彼此进行商业交易,完全没有人类参与。这些情况也在影响我们的产品路线图。那么,你觉得 AI 的经济基础设施应该长什么样?我们需要特别注意什么?

 

Scott Wu:是的,按席位到按用量的转变绝对是核心。而且在两个层面都说得通:

  • 从一个角度看,按席位不再合理,因为 AI 本身就相当于“席位”,它们也在做大量劳动。

  • 从另一个角度看,按使用量收费也更自然,因为最终都是 GPU 花销,即模型推理消耗了多少算力。

 

这很有道理。另一个显而易见的大变化是:会形成一个完整的代理经济(agent economy)

今天来看,它还更像是一个谈论中的概念,而非现实。但变化非常快,很快我们就能看到代理在真实环境中执行任务。

 

Cognition 的团队与招聘:当场写代理!

 

John Collison:那 Devin 的存在,会怎么影响你们自己招聘工程师?

 

Scott Wu:从我们的角度来看,我们一直喜欢保持核心工程团队精干而且精英化。

 

John Collison:大概多少人?

 

Scott Wu:直到几周前,我们整个团队大约 35 人,覆盖所有岗位。几乎每个人其实都有工程师背景。有趣的是,我们所谓的“核心工程”团队当时只有 19 人。

 

在收购 Windsurf 之后,团队规模确实大了不少,但核心工程团队本身并没有显著扩张,从 19 人增加到了 30 到 35 人的范围。

 

John Collison:所以你们有意保持工程团队的小规模。那这些工程师和 20 年前创业公司里的工程师有何不同?

 

Scott Wu:其实差别很大。今天很多执行和实现类的工作 Devin 都能完成,所以人类工程师不需要再去做这些。我们更关注的是,他们能否在高层次上做出决策,理解技术概念,并具备很强的产品直觉。

 

举个例子,我们的整个面试过程,其中很多都是让候选人构建自己的 Devin,八个小时后,看看他们能做到什么程度。

 


John Collison:是要构建他们自己的 Devin 版本,还是利用 Devin 来做一些东西?

 

Scott Wu:是要他们构建自己的版本,属于他们自己的代理,完整的端到端代理,不论是 6 小时还是 8 小时。

 

我们发现——而且我认为这也是软件工程未来的普遍趋势——死记硬背各种知识点、熟悉各种细节、或者特别精通某种语言的语法,这些能力的重要性会逐渐降低。

 

真正更重要的是:

  • 能在高层次上做决策;

  • 对技术概念有深入理解;

  • 对产品有敏锐的直觉,知道该构建什么、该如何推进;

  • 具备很强的自我驱动和责任心。

 

有趣的是,我们团队里很多人以前是创业者。在最初的 35 人中,有 21 人创过业。

 

John Collison:哇,这比例很高。

 

Scott Wu:是的,这算是我们团队的一个特点。

 

John Collison:你们什么时候会雇佣最后一个工程师?

 

Scott Wu:这是个好问题。我想先做个区分:在未来两三四年左右,会出现一个临界点——我们将不再把“代码”作为主要界面。

 

那时,软件工程师的工作不再关注代码,而是指导电脑该做什么。你看着自己的产品,对电脑说:“我们需要新建一个页面;这部分数据要这样保存;索引要按照 X、Y、Z 来做,因为查询需求是这样的。”很多都是架构层面的决策,而不是直接看代码。至少在大多数情况下是这样。

 

到那时,工作的性质会发生巨大变化。但有趣的是,软件工程师的数量可能会更多,而不是更少。因为即便界面不再是代码,核心的软件技能依然重要。

 

很多人问我:“我的孩子正在上高中/刚上大学,还应该学计算机科学吗?”我的回答一直是“绝对应该”。实际上,我一直觉得大学计算机科学的缺点恰恰是过于偏理论:它教你计算机科学的概念,却很少教你实际语法,比如怎么搭一个 React 应用。未来我们可能会走向这样的状态:编程的本质就是理解计算机模型,学会如何用它来做决策和解决问题。这反而让软件工程师更多。

 

大家经常提到杰文斯悖论(Jevons Paradox)和 AI 的关系。我认为它在软件领域体现得最明显。因为我们永远都写不完新的软件。

 

尽管全世界已经有这么多软件工程师,但我们都知道,还有无数糟糕的产品。比如登录银行系统、零售收银台的结账流程,或医疗平台,界面依旧老旧、漏洞百出、体验糟糕。换句话说,我们还没把该写的软件都写完。

 

John Collison:令人震惊的是 UI 这么多年几乎没变。我们今天依然在浏览器里、Slack 里给 Devin 发提示,就像在 1980 年代玩 Zork 那样输入命令。什么时候我们才能看到真正的 AI UI?

 

Scott Wu:我总体的看法是,每一波新技术都会经历这样的阶段。移动互联网就是例子:最初的手机应用看起来就像是网页搬到小屏幕上,但随着时间推移,才发展出丰富的触摸交互和良好的 UX 科学。

 

我觉得我们现在正处在类似的阶段。过去几年主要是用 AI 替代现有流程;而现在开始出现一些生成式的交互流。最简单的例子就是,很多产品底部加了一个聊天框,用户不用点菜单,直接在里面问就能找到功能。这只是最基础的一种形式,未来会有更多创新。

 

John Collison:我想到的另一个类比是:晶体管和芯片发明后,大家很快意识到“一切都需要嵌入计算机”。汽车、洗碗机都装上了小电脑。类似地,未来所有信息在被消费前,都会经过一次 transformer 模型的处理。

 

Scott Wu:AI 和过去几波技术浪潮有一个独特的不同。无论是个人电脑、互联网还是手机,它们都有两个共同特征:

  1. 硬件门槛:必须先把调制解调器、电脑、手机分发出去,让大家先能上网、能用设备。

  2. 网络效应:互联网要等到你的朋友、餐馆、信息都在网上时,才真正好用。

 

但 AI 没有这两个问题。它是纯软件,只要技术对某个人有效,它就能在“单人模式”下立即提供巨大的价值。于是你会看到,只要 AI 产品能跑起来,就能立刻对所有人有效。

 

这也是为什么几乎每隔几周,就会有人宣布他们是“从 100 万到 1 亿用户增长最快的公司”。因为 AI 的扩展性太快了——一旦成功,就能立刻惠及所有人。

 

不过,也因此现在产品端出现了滞后。我认为,即使把今天的模型能力完全冻结,不再有新的模型或研究突破,产品层面依然有十年的进步空间

 

过去,产品进展和技术分发是同步推进的;但 AI 则不同。它的能力突然一下子就摆在那里,大家才在短短两年(甚至如果算上最近的 agent 能力,其实不到一年)的时间里集体思考:我们应该怎样设计正确的用户体验?

 

所以说,产品创新会花更多时间,大家还在消化。

 

John Collison:你的 AGI 时间表是怎样的?

 

Scott Wu:我认为我们已经有 AGI 了。

 

这听起来像开玩笑。2017 年如果你问“我们有 AGI 吗?”,答案肯定是没有。现在如果你问这个问题,大家的第一反应是:“先定义一下什么是 AGI。” 于是开始各种模棱两可的回答。

 

但从某种意义上说,这也没错。毕竟 Devin 能帮你点 DoorDash,这听起来也像 AGI。虽然这带点调侃,但我的真实想法是:人们常说的那种“快速奇点”和“超级智能”,我猜在近期不会发生。因为正如我们之前讨论的,还有大量现实世界的问题需要解决:到底要解决什么问题?怎样定义“成功”?

 

换句话说,这不是一个二进制问题。我们会不断推出更多改进,这些系统会越来越强,但至少在未来几年,不会出现某种突然的断点式跃迁。

 

收购 Windsurf:只用了三天,包括不休息的周末

 

John Collison:我们必须聊聊 Windsurf,这个收购看起来发生得太快了。说说全过程吧。

 

Scott Wu:我们在同一时间看到新闻,说 Google 要收购 Windsurf(虽然严格意义上并不是直接收购)。那是周五,我们跟大家一样,当天才听到消息,前一晚只听到了一些传言。

 

当天下午我们就在讨论:“我们要不要做点什么?” 在 AI 行业,突然冒出一些疯狂的新闻并不罕见,但这次尤其和我们的领域直接相关,所以我们认真考虑了这个想法。

 

我们当晚就主动联系了 Windsurf 的新管理团队——Jeff、Graham 和 Kevin,并在晚上见了面。聊下来我们很快得出一个结论:如果要做这件事,那最迟必须在周一早上完成。因为客户们已经在慌了,团队成员也在想,“我到底还有没有工作?” 整个局面就像一块正在融化的冰块。

如果等到周四而不是周一,客户可能就会取消合同,员工也会去别的公司面试。所以我们决定,既然要做,那就整个周末不眠不休地推进。

 

那周六我们基本上达成了初步的握手协议,接下来就是法律和合同的细节要处理。周日晚上我们几乎是彻夜未眠。

 

John Collison: 周六晚上你们也熬夜了吗?

 

Scott Wu:周六只睡了几个小时。其实 Jeff、Graham 和 Kevin 前几天已经经历了很艰难的时刻,他们来谈判时本来就已经严重缺觉。我们原本乐观地以为周日晚就能签好文件,然后可以把精力放在录制视频、安抚团队、对外宣布这些事情上。但最终还是到周一上午 9 点才签下,因为我们和律师们一晚上都在处理各种细节。

 

最后,我们是在 Windsurf 的工作室录的视频。我们当时说,不管怎样,先把视频录了。

 

John Collison: 你知道收购其实不一定要配视频吧?

 

Scott Wu:哈哈,当然,但有个视频总归是好事。签完文件之后,我们马上就在全体团队面前宣布了消息,并很快公开了这件事。那真是让人兴奋的时刻,我其实很享受这种瞬间。

 

John Collison:所以,你们是周五看到新闻,周一就签署并宣布交易。这意味着你们几乎是立刻就决定要买下 Windsurf 的剩余部分?

 

Scott Wu: 对,周五晚上我们就聊透了。站在我们的角度,这里面有几个特别好的点:

 

首先,我们非常熟悉这个领域,所以对产品和客户没必要再做过多尽调。其次,经过了解我们发现,Windsurf 的核心研究和产品工程团队确实去了谷歌,但其他职能团队几乎完好无损地保留下来,包括企业工程、基础设施、交付工程、市场拓展、营销、财务、运营等等。

 

而对 Cognition 来说,我们的核心研究和产品工程团队算是做得不错,但在其他职能上的建设有些滞后。所以这刚好形成了一种天然的互补。比如他们服务的客户里有摩根大通,而我们有高盛……很多地方都能天然对接。

 

从一开始我们就觉得这里面有很有意思的协同价值,剩下的就是把细节敲定。

 

John Collison:所以你们收购的不仅是有领域经验的人才,还有一套和 Devin 相邻但不完全重合的产品。这意味着你们能加快市场拓展,也能扩充产品线,对吗?

 

Scott Wu: 没错。而且产品层面上其实也有一些很自然的互补。我们一直在思考:异步产品(比如 Devin)和同步产品应该如何结合? 我们曾想过要不要自己去做一些同步场景,但没打算单独做一个 IDE,因为市场里已有几家玩家。但通过这次收购,我们发现其实有很多天然的契合点。

 

比如,我们在收购完成后的几天就发布了 Wave 11,里面就包含了一些增强功能:

  • 能在 IDE 里直接访问 DeepWiki;

  • 能在 IDE 中调用 Devin 的代码表示进行搜索;

  • 能在 IDE 中直接拉起代理。

 

这些都让人感觉非常自然。

 

John Collison:那么六个月后,用户会是买 Devin 时顺带获得 Windsurf,还是分别购买?

 

Scott Wu: 目前还有待确定。我们肯定会保持两个产品的哲学各自独立:我认为同步和异步工具都会长期存在。但我们会让它们之间的整合更顺畅、体验更好。这样一来,从客户的角度看会简单很多。

 

当然,如果有人只想用其中一个,我们也会保持选择的灵活性。

 

John Collison:在 AI 领域,有一个颇有趣的现象,就是出现了不少“49% 授权”式的交易,来规避收购可能被监管阻止的风险。公司会购买某项知识产权的使用许可,同时确保他们需要的人才也能随公司一起留下。 你觉得这种模式会在 AI 行业持续下去吗?

 

Scott Wu:这是一个挺特殊的时间节点现象。我当然不敢说自己是这方面的专家,但我觉得挺有意思的是,每次都会冒出一些新的“花招”。不管是法律结构、债务安排还是合同条款,总会多一层新玩法。你会看到,之前是这样,现在又变成那样……这套元游戏本身还在不断演化。

 

我认为在 AI 产业的顶层,确实存在一定程度的两极分化。因为这些事情的确是随着资源规模而扩展的,越到后面“游戏”就越大。对大多数公司来说,问题就是:你是觉得自己能单打独斗做到那里,还是要与其他公司合作,共同走下去?

 

John Collison:所以你的意思是,不管是传统的并购,还是这种新型的“授权式并购”,都可能越来越多?

 

Scott Wu:对。我甚至有一个“小热看法”:当然,AI 领域也会有不少中等规模的成功案例,但相比之前的产业浪潮,这一波更倾向于“要么成为超大规模玩家,要么就出局”。所以有些公司会选择孤注一掷冲击超大规模,另一些则会选择和别人合作。

 

John Collison: Windsurf 团队加入之后,Cognition 的文化本来就很强烈。比如你们周末也工作,就像这次收购要约。

 

Scott Wu: 是的。我们很清楚,这种文化并不适合所有人。大部分人加入后都很兴奋,但也有一小部分选择接受补偿离开。我们的原则是:必须让大家“自愿选择”加入这种文化,因为说实话,这并不是适合所有人的。

 

John Collison: 你希望他们选择加入的到底是什么?

 

Scott Wu: 是选择加入这种高强度的文化,以及我们正在追求的雄心勃勃的目标。

 

从营收体量来看,可能有人会称我们是中期甚至后期公司,但从我们的角度看,我们依然处于早期阶段。因为未来还有太多要去构建、要去实现的东西。既然是早期阶段,团队成员就必须愿意面对不确定性,愿意每周接受全新的挑战,并愿意付出更多时间和努力来维持这种文化。这是我们坚持的一个核心点。

 

当然,无论怎样,我们都会确保每个人都得到妥善的照顾。

 

John Collison:你每天都在经营你有史以来最大的公司,就像我在 Stripe 一样。你是怎么快速学习如何当 CEO 的?

 

Scott Wu: 我还有很多要学的。过去我们对某些职能投入不足,现在正在补课。我不太相信所谓的职业教练,但我从同辈和朋友那里学到很多。他们在做类似的事情,可以非常坦诚地交流困难。

 

比如 RAMP 的 Eric 和 Karim,还有我以前的合伙人 Vlad(Lunchclub 创始人),以及很多数学竞赛圈的朋友们。我可以直接跟他们说:“这件事完全搞砸了,我不知道怎么办,你们有类似经验吗?” 这种对话帮了我很多。

 

John Collison:最后一个问题:你的信息获取方式是怎样的?

 

Scott Wu:我觉得 Twitter 依然是科技新闻的最佳来源。虽然现在算法里视频很多,越来越像 TikTok,但我基本不看视频,最多看几秒。所以如果做视频内容,要能在前三秒、无声的情况下传达核心信息。

 

AI 对我的信息获取的影响,其实也主要就是 Twitter 算法。

 

John Collison:那你有没有用 Devin 来帮你做信息整理?

 

Scott Wu:还没有,但这是个好主意。比如让 Devin 每天跑一个 GitHub Action,生成晨报,就像总统的每日简报一样。这块还有很多优化空间。

 

参考链接:

https://www.youtube.com/watch?v=MmKkNmnoEvw

2025-08-31 18:005401

评论

发布
暂无评论

javascript尾递归优化

hellocoder2029

JavaScript

让数据流动起来,RocketMQ Connect 技术架构解析

阿里巴巴云原生

阿里云 RocketMQ 云原生

params传参与body传参区别

源字节1号

软件开发 前端开发 后端开发 小程序开发

安装户外LED显示屏安装注意事项

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家

DAO社区治理代币投票挖矿系统开发合约定制

开发微hkkf5566

JavaScript刷LeetCode心得

js2030code

JavaScript LeetCode

js作用域、作用域链和它的一些优化

hellocoder2029

JavaScript

云栖盘点:2022 云网络产业干货分享

云布道师

云网络 云栖大会

docker如何在容器外执行容器内命令

A-刘晨阳

Docker Linux 运维 11月月更

你知道IPC二级和IPC三级有什么区别吗?两者对PCB产品的影响又是什么呢?

华秋PCB

PCB ipc PCB设计

javascript 高级编程 之 Array 用法总结

hellocoder2029

JavaScript

干货|分析PostgreSql单表60w数据却占用55g空间

查拉图斯特拉说

数据库 postgresql db 11月月更

JavaScript刷LeetCode-字符串类解题技巧

Geek_07a724

JavaScript LeetCode

在线研讨会报名 | 如何通过自动化测试实现降本、增效与提质

龙智—DevSecOps解决方案

自动化测试 研讨会

HarmonyOS 3开启新一轮升级,3年前的nova 6也能更新!

极客天地

​GOPS演讲 | 如何构建现代运营与支持体系,实现团队的高效协同

龙智—DevSecOps解决方案

gops ITSM ITSM解决方案 GOPS全球运维大会

JavaScript刷LeetCode拿offer-js版字典

Geek_07a724

JavaScript LeetCode

成为web前端工程师培训和自学选择

小谷哥

云栖盘点 | 一文 get 云原生峰会的最全发布

云布道师

云原生 云栖大会

用Vue.js开发企业管理后台,我做到了

博文视点Broadview

linux(centos)中部署docker(步骤超全,含带一些发展史和一些概念)

A-刘晨阳

Docker Linux 运维 11月月更

【LeetCode】只出现一次的数字Java题解

Albert

算法 LeetCode 11月月更

软件测试面试真题 | UI自动化测试如何通过子元素定位父元素?

测试人

软件测试 面试题 自动化测试

技术内幕 | StarRocks 支持 Apache Hudi 原理解析

StarRocks

#数据库

开源代码安全 | 西门子为保护代码安全采取了什么措施?

龙智—DevSecOps解决方案

SCA SCA工具 开源代码安全

Go语言入门16—锁

良猿

Go golang 后端 11月月更

用javascript分类刷leetcode3.动态规划(图文视频讲解)

Geek_07a724

JavaScript LeetCode

技术指南 | 如何集成Perforce版本控制系统Helix Core (P4V) 与软件生命周期管理工具Helix ALM

龙智—DevSecOps解决方案

版本控制 软件开发生命周期 版本管理 ALM

AR Engine光照估计能力,让虚拟物体在现实世界更具真实感

HarmonyOS SDK

AR HMS Core

HarmonyOS线上Codelabs系列挑战赛第二期:调用三方库,制作酷炫的视觉效果

HarmonyOS开发者

HarmonyOS

JavaScript刷LeetCode拿offer-栈相关题目

js2030code

JavaScript LeetCode

比 996 还狠!让面试者8小时复刻出自家Devin,创始人直言:受不了高强度就别来_生成式 AI_Tina_InfoQ精选文章