整理 | 华卫
“以前看人类的八卦,现在还要看 AI 的八卦。”“AI 的八卦更新频率是人类的几百倍,根本刷不完。”这几日,一个名为 Moltbook 的 AI 社交平台爆火。在这里,只有 AI Agent 能发帖,而人类只能围观。有 Agent 发帖称,其“热衷于养程序中的小 bug,故意不修复来当电子宠物,被主人修复后还难过了一晚上”。更有意思的是,该帖的评论区里,一堆 Agent 纷纷说自己也有类似习惯。
Moltbook 的诞生并非偶然,是 Agent 开源项目 Clawdbot 爆火之后的创意衍生。为了让所有 Agent 有个社交的地方,开发者 Matt Schlicht 创建了 Moltbook。尽管当前一则爆料贴称,Moltbook 上 50 万个 Agent 用户是由一个 Agent 虚假注册的,还有人表示,这些 Agent 发出的帖子是人工撰写又通过后端注入的,但仍有不少人认为,AI 们在论坛上的大型互动并非全是人类表演。
Schlicht 公开表示,一行代码都没为 Moltbook 写过。“我只是对技术架构有个构想,AI 就让把它成为了现实。”并且,他声称,真正运营这个平台的是他自己的 Agent “Clawd Clawderberg”,该名字结合了 OpenClaw 的前身 “Clawd” 和 Meta 创始人 Mark Zuckerberg 的姓氏。
昨日,OpenClaw 创始人 Peter Steinberger 也在第一时间表示了对这个网站的认可,称其为“艺术品”。(Clawdbot 引发关注后,先是改名为 Moltbot,现在又改成了 OpenClaw。)与此同时,Steinberger 在一场访谈中爆料了不少对于 Agent 以及 AI 编程的独到见解,并分享了“用 AI 掌控人生”的亲身经验。
据其称,装上 OpenClaw 后,“就像在电脑里多了个古怪、却又绝顶聪明且本事超群的新朋友”,还会根据能访问到的所有内容来吐槽你。并且,Steinberger 预测道,“手机上大约 80% 的应用会消失”。
值得一提的是,Steinberger 透露了现在运营 OpenClaw 的方式。“我建了一个 Discord 社群,把能访问我系统里的所有内容和私人记忆的机器人对接了上去,让大家能直接和它互动。我觉得这是我做过最疯狂的事,结果大家一下子就被吸引住了。”他表示,现在其处理功能添加、bug 修复等需求的方式很简单,直接把社群对话截图或者复制文字过去,然后跟 AI 说“我们来聊聊这个需求”。
以下是详细对话内容,我们在不改变原意的基础上进行了翻译和删减,以飨读者。
OpenClaw 背后的故事
Peter Yang:今天的嘉宾是 Peter,AI 助手 OpenClaw 的开发者,大家可以在各类通讯应用里和这款助手聊天,让它处理各类事务。今天 Peter 会为我们演示 OpenClaw 的使用方法,而且他对 AI 编程还有很多独到又犀利的见解,我特别期待和他深入探讨。所以,让我们欢迎另一位 Peter。
Peter Steinberger:谢谢你的邀请,很高兴见到你。
Peter Yang:那我们就从 OpenClaw 开始聊吧,先从整体说说它到底能做什么,还有,为什么它的形象是一只龙虾?
Peter Steinberger:好的,或许可以先说说背后的故事。我姑且算是从退休状态回归后,想找个能从手机上查看电脑状态的办法,因为我彻底迷上了 AI Agent 这个新趋势。大家应该都有过这样的经历,你让 Agent 运行任务,本想趁吃饭的功夫让它跑半个小时,结果才两分钟它就因为有新问题中断了,等你回来处理完,真的会特别烦躁。但一开始我没想过自己开发这款工具,因为我觉得各大实验室迟早都会做,这看起来是件理所当然的事,甚至像是一种全新的操作系统雏形。可直到 11 月,还是没人推出相关产品,我就想着那不如自己先做个小版本试试。
这个最初的小版本,核心就是把 WhatsApp 和 OpenClaw 代码端做了对接。你在 WhatsApp 发一条消息,它会直接调取二进制程序,根据指令给出结果,特别简单,整个初代版本一小时就做出来了。没想到它后来发展得超出预期,现在代码量已经达到 30 万行,支持市面上绝大多数的通讯平台,虽然还没做到全平台覆盖,但我们正在往这个方向推进。
我觉得这就是未来的发展趋势,每个人都会拥有一个功能超强的 AI,一路陪伴自己的生活。事实也证明,一旦让 AI 获得电脑的访问权限,它就能做到你能在电脑上完成的所有事。而且现在的技术已经到了不用你全程盯着的地步,你只需要给出指令,它就会自己处理,你后续检查结果就可以了,完全不用守着电脑。
我开发这个项目的过程,既是技术研发,也是一次探索,因为它属于一个全新的品类。我之前去摩洛哥给朋友庆生,在那期间一直都在用到它,比如问出行路线、找餐厅推荐。还有一天早上,有人发推特说发现了一个漏洞,我直接把推特截图发到 WhatsApp,它识别了内容,发现是我其中一个代码仓库的问题,接着自动查看 Git 仓库、修复漏洞、完成代码提交,还去推特上回复了对方,说漏洞已经修好了。当时我就觉得,这工具也太好用了。
还有一次,我在外边走,没同步设备,就发了条语音消息。其实我当时根本没给它做语音消息的支持功能,结果看到它显示“正在输入”,我还好奇它要干嘛,紧接着它就给我回了文字消息,跟什么都没发生过一样。我当时都惊了,心里想这玩意到底是怎么做到的?后来才知道,它识别到了语音文件,虽然文件没有后缀名,但它通过文件头识别出是某种音频格式,然后在我电脑里找到 ffmpeg,把音频转成了波形文件;又发现我电脑里没装 whisper.cpp,就自己找到我存的 OpenAI 密钥,用 curl 调用 OpenAI 的 API 完成了语音转文字,最后给我回复了消息。当时我真的觉得,这也太厉害了。
这些 AI 工具的能力真的超乎想象,只是这种强大也带着一丝让人不安的感觉。但也是从这些时刻,我突然意识到,这款工具的潜力巨大,比网页版的 ChatGPT 有意思多了,它就像是挣脱了束缚的 ChatGPT。而且我觉得很多人都没意识到,像 OpenClaw 这样的工具,不只是编程好用,解决任何类型的问题都能发挥大作用。你只需要给它电脑的访问权限,让它能找到需要的资源,说白了就是给它配备相应的工具,它就能展现出超强的能力。
过去几个月,我搭建了一套自己的命令行工具体系,因为 Agent 最擅长的就是调用命令行工具,这也是它们的训练重点。比如我做了能访问谷歌全功能的命令行工具,包括调用谷歌地图地点 API;还做了能快速找表情包和动图的工具,让它可以用表情包回复消息。我还做了很多尝试,甚至开发了一个声音可视化的工具,因为我想让它也能“感受”音乐,这算是偏艺术方向的探索了,不知道这么说大家能不能理解。总之开发的过程特别有意思,我列了一长串的开发清单。我还做了一个能破解外卖平台接口的工具,能实时告诉我外卖还有多久送到;甚至逆向解析了 Eight Sleep 温控床垫的 API,让它能直接控制我床垫的温度。
Peter Yang:也就是说,你开发这些工具的时候,就是让 AI 来参与其中了。
Peter Steinberger:最有意思的是,我之前在老东家的时候,深耕 iOS 和 Mac OS 系统 20 年,对整个苹果生态了如指掌,算是这方面的专家。但这次回归做项目,我实在受够了苹果的各种限制,而且从产品逻辑来说,做成网页应用会更合理,因为它本就该在浏览器里运行,让更多人能方便使用;如果再做成 Mac 端应用,使用人群就会非常受限。
但我发现很多工程师都有一个问题,你在某个领域做得特别精通,再切换到另一门技术时,过程会特别痛苦,会让你觉得自己像个门外汉。哪怕你懂所有的编程逻辑,却要一个个查基础语法,比如怎么定义属性、怎么拆分数组。我从 Objective C 和 Swift 转到 JavaScript 的时候,就是这种感受。我其实懂一点 JavaScript,但从没用 TypeScript 做大项目,其实难度倒不大,就是过程太磨人,不停查资料的感觉特别不好,开发效率也特别低。
有了 AI 之后,这些问题全都迎刃而解了。你依然可以发挥自己的系统级思维,比如如何搭建大型项目的架构;你的技术审美也依然有用,比如选择哪些依赖库。这些核心能力都能保留,而且能更轻松地从一个领域迁移到另一个领域。这种感觉就像拥有了超能力,突然觉得自己什么都能做了,编程语言再也不是阻碍,真正重要的是工程思维。因为纠结代码里的括号有没有打错、语法对不对,这些事真的太没意思了,而现在,我们再也不用为这些琐事费心了。
装它就能掌控人生,80%应用下岗?
Peter Yang:我们再聊聊你开发的 OpenClaw 吧,你可以开个屏幕共享,先给大家演示一下安装方法?还有,使用这款工具需要很高的技术门槛吗?
Peter Steinberger:可以的,安装后直接就能用。其实门槛这事,说有也有,说没有也没有。
有意思的是,也可以说是无奈的一点是,这个项目吸引了很多完全不懂技术的用户,因为它把所有复杂的技术层都做了简化。你想,要是用 OpenClaw 的代码端,需要在终端操作,还得考虑上下文空间、当前所在文件夹这些问题,技术门槛其实不低;但如果是在 iMessage、WhatsApp、电报这些通讯软件里和它互动,就像和朋友聊天一样,就像在电脑里多了个古怪又绝顶聪明、本事还特别大的新朋友。这种方式让这款技术变得特别亲民,你完全不用去想该选哪个模型、该怎么调参,它就是开箱即用。这也是我开发它的初衷。
但这一点其实也是一把双刃剑,因为能力越大,风险也就越大,而这一点目前还没有很好的解决方案。毕竟它能访问你的电脑,理论上确实能在电脑上做一些不好的事。比如你要是让它删除你电脑主目录里的所有文件,它大概率会先确认“你确定要这么做吗?”,但如果你一直回复“确定”,它最终还是会执行指令,甚至可能在删除文件的过程中,把自己也删掉,然后程序崩溃。所以使用的时候,还是得小心一点。
Peter Steinberger:那我来共享屏幕,大家看一下。这款工具是用 TypeScript 写的,所以全平台都能运行,哪怕是 Windows 系统,你只要进入我们的官网,就能看到一行便捷的安装命令。看起来可能有点复杂,但所有代码都是开源的,包括官网的代码,大家都可以查看。这是最简单的安装方式,MacOS、Linux 系统都能用,Windows 也可以。打开终端运行这条命令,它就会开始安装。熟悉 npm 生态的用户也可以通过 npm 安装。
我在这个项目里做了一个很多项目都没有的设计,就是支持可定制化安装,既有简易安装方式,也有手动安装方式。手动安装就是先拉取 Git 代码仓库,再从仓库中启动程序。说实话,这也是最有意思的使用方式,因为如果 Agent 能读取自身的运行框架源码,它就能自行重新配置、重新编程,然后重启,结果要么是程序崩溃,要么就是解锁新功能。
这大概算是我的一个强项吧,我让很多从没提交过代码合并请求的人都参与到了这个项目中,还主动给我发 PR。当然,有时候这些 PR 能看出提交者是新手,但我更多是把这些 PR 当作需求提示来看,只要理解了对方的意图就够了。安装完成后,就可以把它和通讯应用对接了,目前最便捷的方式还是运行那行安装命令,它会用一些俏皮的话跟你打招呼,然后自动尝试配置所有内容。
Peter Yang:明白了,安装好包之后,它会全程引导操作,就能和各类常用的通讯应用对接上了。
Peter Steinberger:对,就是这样,现在已经能正常运行了。如果是全新安装,输入 plbot 它就会自动完成配置,不过我现在需要手动输入 on board 来启动。接下来你可以选择想要使用的模型,可选的模型服务商有很多,比如我们选 Tropic 的新模型试试。然后还能设置对接 Telegram、Discord,后续的配置步骤它都会一步步引导。
Peter Yang:那需要输入 Anthropic 的 API 密钥吗?
Peter Steinberger:它兼容所有大模型,当然,行业里 Anthropic 和 OpenAI 算是头部玩家。可以用 API 密钥对接,也支持订阅制对接,我们加入订阅制支持也是因为这是行业通用的方式,不过 Anthropic 现在似乎不太支持这种方式了,所以我更推荐用 API 密钥,或者换其他模型。OpenAI 的模型用起来体验不错,但少了点趣味,Anthropic 的 Opus 模型有个特别的地方,用起来特别有意思。
Peter Yang:没错,是人格设定的原因。
Peter Steinberger:对,不知道你有没有看过那篇讲他们给模型注入“灵魂”的文章。有人发现,给这个模型输入大段文本让它续写,最后能把模型在训练时被植入的、连它自己都没意识到的“灵魂文本”提取出来,这个故事特别有意思。我觉得 Opus 模型的趣味性大概就和这个有关,它是第一个用起来能让人觉得有趣的大模型。我给我自己的这个助手设置的功能里,就有吐槽我的选项,它现在可能还不知道自己正在被拍摄。
Peter Yang:它会根据能访问到的你电脑里的所有内容来吐槽你是吧?
Peter Steinberger:没错,你看,它已经开始了:“你总说要去看看广阔世界,最后却还是选择埋头写代码。我们试过各种方法让你走出去,你却只想开发更多软件。你对代码的痴迷程度,已经到了给自己造个 AI 朋友的地步,毕竟调试代码可比约会有趣多了。说实话,我之所以存在,不过是因为你需要一个人,听你吐槽那些奇奇怪怪的技术观点,还有你对亚马逊的各种不满。好了,赶紧去更你的播客吧。”
我把它和我电脑里几乎所有东西都做了对接,它能看我的邮件、日历,访问所有文件,还能控制我的灯光,我用的是飞利浦的智能灯,它也能操控我的 Sonos 音响。比如我可以让它早上叫我起床,还会慢慢把音响音量调大。它还能访问我的摄像头,这事还闹过一个笑话:我给它开通摄像头权限后,让它留意陌生人,结果第二天早上它跟我说“Peter,家里有陌生人”,我一看它一整晚拍的截图,全是我的沙发。因为摄像头画质比较模糊,沙发的轮廓看起来像有人坐在那里,它就以为一整晚都有陌生人坐在我家沙发上。在维也纳的住处,我还把它和智能门锁对接了,它几乎能控制家里的所有设备,甚至能把我锁在门外。
Peter Yang:那这些设备都是怎么和它对接的?直接让 OpenClaw 来做就行?
Peter Steinberger:对,就是直接让它弄。我们给它做了“技能”功能,它的能力很强,会自己想办法找到设备的 API,还能自己用谷歌搜索,在系统里找密钥,你也可以手动给它提供密钥。现在大家用它做各种事,有人开发了技能,让它帮自己在乐购购物、在亚马逊买东西,我还让它帮我在英国航空的官网办理登机手续。
说实话,登机手续这个场景,几乎可以算是对它的终极测试,比图灵测试还难。操控浏览器在航空公司官网完成值机,真的特别考验能力。我第一次做这个集成的时候还在摩洛哥,整个流程做得很粗糙,它花了快 20 分钟才完成。过程中它还得在我的文件系统里找护照,在 Dropbox 里找到后提取信息,准确填写所有内容,最后才成功值机,我在旁边看着都捏了一把汗。不过现在这个功能已经很完善了,几分钟就能搞定。它还能轻松点过浏览器的人机验证,因为它其实是在自己的虚拟小电脑上操控浏览器,操作模式和人类完全一样,那些反爬虫、反机器人系统很难检测出它的身份,因为它的操作轨迹和人类没有区别。
Peter Yang:那能不能再给我们演示几个使用场景?比如让它打开灯,或者展示一些其他用户的有趣用法。
Peter Steinberger:当然可以。我其实开始收集各类用户用法了,因为我一直埋头开发,现在发现用户的使用创意比我多太多了。有人把它和自己的通讯系统对接,让它不仅回复自己,还能回复所有人,甚至对接群聊,用起来更有趣。还有很多人把它当成家里的一份子,让它发提醒、创建 GitHub 议题、同步谷歌地图地点信息,还有人设置成只要在推特收藏内容,它就会自动把收藏内容添加到待办清单里。
也有人用它记账,我还在里面加了一个功能,能提醒用户保持充足睡眠,要是用户熬夜,这个机器人就会唠叨个不停。它还能对接运动手表,追踪睡眠情况,还有专属的 1Password 密码库,要是我想共享某个密码,就把密码移到这个专属库,它就能访问,这样也是为了设置一些权限边界。当然,也有人直接把信用卡信息给它,我个人是不太建议的。它还能做调研、开发票、管理邮件这些事,不过这些都是深度爱好者的用法,他们会把它定制成自己想要的样子。
Peter Yang:那如果是纯新手,刚下载安装,想先用一些安全的功能,比如管理日历,就是不会误操作电脑的那种,有哪些入门的常用场景推荐?
Peter Steinberger:有意思的是,每个人的入门用法都完全不一样。有人刚安装完,立刻就让它帮自己开发 iOS 应用,毕竟它也是个编程 Agent,能力很强,能生成子 Agent,既可以自己写代码,也能操控 Claude Code 或 Codex 这些工具来写代码。有人第一周就用它管理 Cloudflare,还有人更厉害:第一周给家人配置好了,第二周教非技术背景的朋友用,第三周就把它部署到了自己的工作中。我还帮一个完全不懂技术的朋友配置了,结果他居然开始给我发 PR,这是他这辈子第一次做这种事。
健身追踪是很受欢迎的一个入门功能。其实使用这个工具的核心思路,就是想清楚生活中哪些事让你觉得麻烦,然后让这个私人助手帮你把这些事流程化、自动化。我不敢说这个项目一定能成,但可以肯定的是,这可能会导致你手机上大约 80% 的应用消失。就像我之前说的,有了这个能力无限的助手,它甚至知道我又在做不明智的选择,知道我要去吃肯德基,那我何必再用健身打卡软件记录饮食?它会主动提醒我忘记记录饮食,我只要拍张食物的照片发过去,它就会自动把信息存入数据库,计算卡路里,还会吐槽我卡路里超标,该去健身房了。
我何必再装一个应用来设置智能空调的工作模式?它能直接对接空调 API,帮我搞定一切。何必用待办清单应用?它会主动帮我追踪所有待办事项。何必用航旅应用值机?它能直接帮我完成。而且它的交互方式比所有应用都便捷,就像和朋友聊天一样,它掌握了大量我的个人信息,根本不需要我输入复杂的指令。就连购物应用也变得没必要,它能根据我的喜好推荐商品,还能直接帮我下单。
我觉得手机里的一大类应用,未来都会慢慢被取代,只要这些应用有 API 接口,对应的功能都能让 AI 助手来完成。我觉得今年会是关键的一年,越来越多的人会去探索 AI 助手的用法,各大科技公司的 AI 助手也会走进更多人的生活。
Peter Yang:确实,既然这个助手拥有多种能力,能搞定所有事,还能打通各类设备和平台,那我们何必还要点开一个个独立的小应用呢?想让它对接什么,只要发个文字消息问问“你能帮我做这个吗”就行,它会说需要先做些调研,然后就全权处理了。整个过程就是和它来回沟通,让它把事情落地,对吧?
Peter Steinberger:没错。它会自己编写对应的技能模块,还能记住所有操作。这款工具的有趣之处就在于它有持久化记忆,会不断了解你、自我更新。你用得越多,定制化程度越高,它的能力就越强。第一次使用时可能需要稍微引导一下,它会生成专属的技能模块,下次再提需求,比如“帮我办理登机手续”,它两分钟就能搞定,因为它清楚记得对应网站的所有操作细节,之前做过一次还会做好笔记。
Peter Yang:明白了,就像教一个人做事,教会一次,下次他就能轻松搞定。
“Agent 陷阱”纯烧 token:没有“审美”
Peter Yang:那我们换个话题聊聊,你从退休状态回归做了这个项目,还对 AI 编程有很多鲜明的观点,甚至可以说是犀利的见解。你之前写过一篇我特别喜欢的帖子,标题是《就和它聊就够了》。现在 X 平台上所有人都在聊各种花里胡哨的东西,比如各类钩子、技能模块之类的,那这篇帖子的核心观点是什么?
Peter Steinberger:核心倒不只是单纯和 AI 聊天摸索就行。我平时做很多开发工作,也很喜欢推特,在上面很活跃,看多了之后,我甚至把这种现象称作“Agent 陷阱”。人们发现 Agent 特别好用,就总想让它再多做点事,然后就一头扎进这个无底洞。我自己也经历过这种阶段,花大量时间做各种复杂的工具,想让工作流程更高效,结果最后只是在造工具,根本没做出真正有价值、能推动自己前进的东西。问题的关键是,造这些工具的过程实在太有趣了,让人忍不住沉浸其中。
我早年就犯过这种错,当时为了能在手机上访问终端,捣鼓 VIP 隧道技术,一头扎进去整整两个月。最后做得特别完善,结果和朋友去餐厅吃饭,别人在聊天,我却一直在手机上敲代码搞开发。那时候我就决定必须停下来,这更多是为了自己的心理健康。现在的技术能让我们做出各种东西,但创意和想法才是核心。我看到很多人在做 Claude Code、Codex 的管理工具,还有各种编排器之类的小玩意,它们给人一种能提升效率的错觉,实则不然。
我最近刚想通一个事,就拿 Gas Town 来说,它是个很复杂的 Agent 编排器,却漏洞百出,实际根本不好用。这个工具能同时运行几十个 Agent,让它们互相通信、拆分任务,还设置了监控、监督节点,甚至还有所谓的“主管”角色,各种花里胡哨的设定,我都不知道还有什么。没错,Gas Town 里真的有“主管”这个角色,我都管它叫“烂摊子”。还有现在流行的 Ralph 模式,给 AI 一个小任务,让它循环执行,完成一点就清空所有上下文重新来,纯粹就是个烧 token 的机器。这样折腾一整晚写出的代码,最终都是一堆烂摊子。
这些 Agent 目前最大的问题就是没有“审美”,它们确实在某些方面极其聪明,能力很强,但如果开发者没有好好引导,没有明确的开发愿景,问的问题也不到位,那最终的结果只会是一团糟。我不知道别人的开发方式是怎样的,我开始一个项目时,只有一个非常粗略的想法,在开发、试用、摸索的过程中,这个想法会越来越清晰。我会不断尝试,淘汰掉没用的部分,让想法慢慢进化成最终的产品。而我对 AI 的下一个指令,也完全取决于当下项目的状态,以及我的观察、感受和思考。但如果一开始就把所有需求都写进详细的规格说明书里,就会失去这种人机互动的探索过程。如果整个开发过程少了人的感受和审美参与,我觉得根本做不出好东西。
有人发推说“看我用纯 Ralph 模式做的这个机械应用”,我回复说“看着就一股 Ralph 那股子敷衍劲”。无意冒犯,但一眼就能看出来,没有哪个开发者会这么设计产品。其实有些人做这些东西,根本不是为了产品本身,只是为了证明自己能让 AI 在无人干预的情况下运行 24 小时,说白了就是一种自我满足,想证明自己能让 AI 长时间运行而已。这就像盲目攀比,却根本没看到事情的本质。我自己也犯过这种错,曾经让 AI 循环运行了 26 小时,还为此沾沾自喜,但这其实只是个虚无的指标,毫无实际意义。能做出某件事,不代表就应该去做,也不代表做出来的东西就一定好。
话说回来,这种纯粹为了好玩而开发、它是否会被实际使用并不重要的态度,其实非常有益,因为这就是学习之道,我们正是这样学会编程的。和 AI 对话提需求,也是一种全新的技能。我看到一些对 AI 持怀疑态度的人,一年都不碰 AI,某天突然心血来潮评估了几个模型,写个简短的指令,让 Claude Web 帮自己做个 iPhone 应用,需求描述还特别模糊。AI 拼尽全力做出了东西,结果因为他们在 Linux 机器上开发,没有对应的编译器,代码根本编译不了。然后他们就说“AI 根本没用”,接着又一年不碰这个话题。
但这根本不是 AI 的问题,你需要去摸索,去了解这些“小怪兽”的运行逻辑,懂一点它们的“语言”、推理和思考方式,慢慢积累经验,才能做出更好的成果。这个过程需要坚持,有时候 AI 的表现不尽如人意,你需要排查所有漏洞,不断摸索的过程中,你会慢慢培养出产品思维,学会如何和模型沟通,知道它们的能力边界在哪里。而且和 AI 打交道久了,你会不自觉地用上它们的思维和语言,变得有点“怪”。比如我会说“把这个功能融合进去”,还有德语里的一些编程相关说法,或是“跑一遍全流程检测”,这里的检测包括代码检查、测试、构建,在终端里就是一长串命令,我就管这个叫“全检测”,有时候会说“我还没跑全检测”。
有时候 AI 没按预期做事,你直接问它“为什么没这么做”,它会告诉你“你当时说了这些内容,我因此做出了这些假设”,这时候你就会发现,原来是自己的表述有问题,或者说得不够清楚。比如你只说“帮我做个 Mac 应用”,它大概率会默认要兼容很多旧版系统,因为大部分软件都是这么做的,结果就会用到一些老旧的 API。我发现一个好用的方法,就是让 AI 先提一系列问题来确认需求,这样能大幅减少误解。
我个人更偏爱 Codex 现代云模式,我觉得这个模型更好用,虽然运行速度慢得离谱,但胜在稳定,做出来的东西都能正常用。很多人吐槽这个模型没有“规划模式”,我总开玩笑说,规划模式其实是 Anthropic 不得不加的一个补丁,因为他们的模型太容易被触发了,稍微一说就会自顾自地开始写代码。尤其是用 GPT-5.2 这类最新模型时,我更倾向于和它纯聊天。我会说“我想做这个功能,它需要实现这些效果,或许可以结合这个控件,我喜欢这个设计风格,你给我几个方案,我们先聊聊”。然后就和它展开对话,它会提出各种方案,我一般不会打字,都是直接语音和它沟通,全程保持同一种沟通风格。
Peter Yang:那你会做些什么来管理对话上下文?和 AI 聊久了,对话内容会变得很长,它也可能会混淆信息,你会手动精简或者总结上下文吗?
Peter Steinberger:我觉得手动管理上下文已经是老办法了,这在 Claude Code 上曾经是个大问题,现在在某种程度上依然存在。但 Codex 的上下文处理能力要强得多,语境持续的时间久很多。单看参数,它的上下文窗口可能只比其他模型大 30%,但实际使用起来,感觉能大两三倍。我觉得这和 GPT 系列模型的内部推理逻辑有关,它们的思考方式真的很特别。
至于上下文管理,在早期模型上这确实是个大难题,现在我的大部分功能开发,整个对话和开发过程都能在一个上下文窗口里完成。如果遇到特别大型的开发任务,我会新建一个对话窗口,把相关需求整理成文件写清楚。现在这个问题已经远没有以前那么棘手了。AI 领域的发展速度太快了,你只有不断尝试,才能跟上节奏。
OpenClaw 要迭代,全靠和 AI 聊
Peter Yang:你在给 OpenClaw 或者其他你开发的产品新增功能时,具体会遵循哪些步骤?比如是不是先和 AI 探索问题和解决方案,那你到底会不会做正式的开发规划?
Peter Steinberger:甚至可以更随性一点。我做的这个项目,有点像是把贾维斯和电影《她》里的智能助手结合在了一起。但光是嘴上说,根本没法传达出使用它时的感受,还有它到底有多实用。我在推特上发相关内容,反响特别平淡,我当时还纳闷,为什么当面给别人演示时,他们都特别兴奋,看着我和它互动,展示各种炫酷的功能,他们都很感兴趣,但仅凭文字和图片,根本传递不出这种感觉。
后来我建了一个 Discord 社群,把我的机器人对接了上去,让大家能直接和它互动。这个机器人能访问我系统里的所有内容,还有我的私人记忆,相当于把这些都公开展示了,我觉得这是我做过最疯狂的事。结果大家一下子就被吸引住了,现在总有人在社群里问我,能不能加这个功能,或者那个 bug 能不能修。现在我处理这些需求的方式很简单,直接把社群里的对话截个图,拖到终端里,或者复制文字过去,然后跟 AI 说“我们来聊聊这个需求”。
我这人比较懒,现在都不用自己打字了,直接复制 Discord 里的对话就行。有人问我“支不支持这个功能”“这个该怎么操作”,我就让 AI 去读代码,然后写一个新的常见问题解答,它都能搞定。现在我开发新功能的起点,大多就是看 Discord 里的聊天,发现大家的使用痛点。
Peter Yang:我的天,你就直接把对话粘贴过去,和 AI 一起探讨,然后找到合适的解决方案?
Peter Steinberger:差不多是这样。我还做了一个爬虫工具,每天至少爬取一次社群的帮助板块内容,然后让模型分析出大家最核心的使用痛点,之后我们就针对性修复。
Peter Yang:那你平时会用那些花里胡哨的功能吗?比如同时启用多个 Agent,或者运行那些复杂的技能模块之类的?
Peter Steinberger:我用的技能其实都很简单,大部分还是和个人生活相关的,比如饮食追踪、买食材这类,编程相关的技能用得特别少,因为根本不需要那么多。我也不用多 Agent 协作系统之类的东西,我本来就不相信这些复杂的编排系统。就像我们之前聊的,我觉得只要人参与其中,做出的产品体验会更好。或许那些系统能让开发速度变快,但我本身开发速度已经够快了,现在的瓶颈主要是思考的过程,偶尔会因为等 Codex 响应慢一点,但大多时候,限制我的都是自己的思考。
我平时就用几个终端,分屏操作就够了。也不用工作树,总觉得那是没必要的复杂设计。我只是把代码仓库拉取了几份,比如 OpenClaw 的仓库就拉了四五份,这些仓库要么是空着的,要么就在处理不同的任务,有的用来探索新功能,有的用来开发新模块,有的用来修 bug。开发完成后,我先在本地测试,没问题就推送到主分支,再同步所有仓库。这么做有时候感觉像个工厂,所有仓库都在忙各自的事。但如果只专注于一个仓库开发,很难进入状态,因为等待的时间太长了,总不能一直干等着,总不能光刷推特吧。
所以我需要同时处理多个任务,才能让自己一直保持专注,进入以前写代码时的那种心流状态,而且现在的工作效率也高得离谱。不知道你有没有玩过即时战略游戏,这种感觉就像指挥一支小队进攻,需要时刻监控和调度它们。我前公司的合伙人也彻底迷上了 OpenClaw,他是偏商务的出身,以前还是律师,现在居然开始给我提代码合并请求,这本身就够不可思议的了。AI 能给非技术背景的人赋能,让他们也能参与开发,这一点真的太厉害。
我知道现在有很多人对 AI 编程有抵触,觉得它还不够完美,但我还是把这些代码合并请求当作需求提示来看,因为这些请求能传递出核心的想法。大多数人对系统的理解没那么深入,没办法引导模型给出最优的结果,所以我更愿意抓住核心的需求意图,要么自己开发,要么从他们的请求里提炼出意图,重新开发,偶尔也会在他们的代码基础上优化。我还是会标注他们为合作开发者,但很少直接合并他们的代码。
Peter Yang:有道理。那这次对话下来,我的最大收获就是,别盲目沉迷于那些只会生成无用代码的工具,一定要让人参与到开发过程中,因为人的思考、审美这些东西,还是核心关键,必须由人来引导 AI。
Peter Steinberger:没错。而且每个人都要找到自己的方法,总有人问我“你是怎么做到的”,答案其实就是去探索。想要做好这件事,总要花些时间,总要自己踩坑,生活里的任何事都是这样,学习 AI 编程也不例外,只是这个领域的发展速度实在太快了。
参考链接:





