
当地时间 2025 年开发者日(DevDay 2025)上,OpenAI 再次震撼业界,推出了一系列重磅开发者更新,标志着其正在从一家模型公司向通用智能平台转型。
此次大会,OpenAI 重磅更新的内容包括 ChatGPT 内嵌应用、智能体构建器(Agent Builder)、Sora API 的开放,并且对能处理长达一整天复杂任务的 Codex 进行了升级。
会后,OpenAI 首席执行官萨姆·奥特曼(Sam Altman)接受了 Rowan Cheung 的独家专访,与他讨论了 Sora 上的病毒式传播、“零人公司”,以及自己为何相信类通用人工智能(AGI)的早期突破正在当下开始发生。
在交谈中,Altman 不仅深入解读了这些新工具对开发生态的颠覆性影响,更首次公开表达了他对早期类通用人工智能(AGI)突破的判断——他认为,这些突破正在当下开始发生。
Rowan Cheung 是全球阅读量最高的每日人工智能新闻通讯《The Rundown AI》的创始人。
以下为访谈实录,经 AI 前线翻译整理:
Rowan CheungSam,非常感谢你能来参加此次活动。我们现在身处 2025 年开发者大会(DevDay)现场,能否为我们简要介绍一下本次大会宣布的所有内容,以及你个人最期待的部分是什么?
Sam Altman:所有内容我都很期待。在 ChatGPT 中集成应用(Apps in ChatGPT)是我长久以来一直想做的事,但我刚才还在和其他人交流,了解他们用智能体构建工具(Agent Builder)正在开发哪些东西。无论是智能体工具包(Agent Kit)还是其他相关产品,都有很多我非常想亲自试用的功能。不过,如果非要让我个人选一个最期待的,我认为 “ChatGPT 中集成应用” 会是很棒的选择。
Rowan Cheung:你最期待的是这个吗?我个人比较喜欢智能体构建工具,但 “ChatGPT 中集成应用” 听起来也很酷,我们可以先从这个话题聊起。另外,ChatGPT 的周活跃用户数已达 8 亿,顺便恭喜你取得这样的成绩。
Sam Altman:谢谢。这个数字确实很惊人。
ChatGPT 已由模型转为平台
Rowan Cheung:我认为,ChatGPT 现在已成为下一代分发平台。那么开发者或创业者该如何利用应用开发工具包(Apps SDK)在 ChatGPT 的基础上进行开发呢?我觉得可能需要经过几轮迭代,才能弄清楚人们最常用的使用方式 —— 比如,人们是否总会通过名称调用应用?是否更希望 ChatGPT 能记住自己常用的应用,并持续推荐这些应用?所以我认为,开发者们最终会找到一种对他们而言非常有效的全新分发机制,但要知道,这类产品推向市场后,往往会带来意想不到的惊喜。另外,我了解到你们会发布相关文档,指导开发者如何最大限度地提高应用被推荐的概率,是吗?
Sam Altman:是的,我们确实会发布相关文档,但有一个常规提醒:全新产品的迭代速度很快,后续我们会和开发者一起在实践中不断学习、完善。不过没错,这份文档马上就会正式发布。
Rowan Cheung:很期待阅读这份文档。那我们来聊聊智能体构建工具吧。回到两年前的第一届开发者大会,当时你们推出了 GPT 构建工具(GPT Builder),那是个很棒的产品 —— 其实我还是最早开发公开 GPT 的人之一。从那时到现在,你们取得了哪些技术突破,才推出了如今的智能体构建工具?
Sam Altman:最大的突破在于模型本身的性能有了质的飞跃,当然还有其他一些我们后续会谈到的进展。我之前回顾过第一届开发者大会的场景,当时的模型与现在相比,差距真的非常大 —— 无论是 22 个月还是 23 个月,这段时间里模型的进步幅度都堪称巨大。
此外,我们还深入了解了人们开发这类智能体的真实需求,比如他们希望能在 ChatGPT 之外的其他平台上开发智能体。但我认为,最值得关注的是,现在开发一款相当复杂的智能体变得异常简单:只需通过可视化构建工具,上传几个文件,为其授权访问数据源,或者告诉它你想要实现的功能,它就能按照要求执行,并且在几分钟内完成部署。昨天我们进行彩排时,我第一次完整观看了整个流程,当时就被深深震撼了 —— 借助代码生成工具(Codex)、智能体工具包(Agent Kit)等技术,快速开发出高质量软件的能力,已经发生了结构性的变革。我至今还在努力理解这种变革将带来的深远影响。
Rowan Cheung:如果我理解正确的话,通过智能体构建工具,即使不懂代码也能开发智能体,对吗?
Sam Altman:完全可以。当然,如果你懂代码,能开发的功能会更具体、更丰富,但即便是普通的知识工作者,现在也能独立开发智能体了。
Rowan Cheung:这似乎像是智能体领域的 “无代码革命”。就像你说的,懂一些代码(甚至精通代码)能开发出更惊艳的产品,但入门门槛显然已经变得非常低。你认为这会为下一代企业或开发者带来什么影响?
Sam Altman:这正是我一直在思考的问题。昨天罗曼(Romain)进行演示时,我在后台观看,当时就想:一年前要完成这些功能,需要花费大量时间,而现在几乎能实时完成。这种变化让我感觉,自己的想法生成速度都跟不上技术发展了。虽然我还不确定最终会呈现怎样的结果,但可以肯定的是,全球范围内的软件开发总量必将大幅增加,而测试和优化想法所需的时间则会不断缩短。
不过,我确实很难准确预判这一切会带来哪些具体改变,只能确定两点:一是事物的发展速度会更快,二是人们能尝试更多想法,并快速筛选出更优质的方案。除此之外的其他影响,目前还无法预知。
零人力运营的十亿美元公司何时出现?
Rowan Cheung:我听说你和朋友们有一个赌局,赌 “首个由智能体运营的十亿美元公司何时出现”。那么现在推出的智能体构建工具,是否已经能让智能体具备这样的自主运营能力了?
Sam Altman:可能还没有。其实最开始,我们的赌局是 “首个由单人运营的十亿美元公司何时出现”,现在那个赌局已经不存在了。虽然我们还没有正式确定新赌局的规则,但大家确实在热议 “首个由智能体运营(零人力)的十亿美元公司何时出现”。至于是几个月还是几年,我认为大概率需要几年时间。不过,现在我们已经能严肃地讨论这个话题 —— 比如 “在聊天机器人中输入一个提示词,就能启动一家公司”,这种可能性本身就很不可思议,对吧?我也认同这一点。
Rowan Cheung:有人说今年是 “智能体元年”,我们也看到了一些智能体产品,它们的表现还不错,但仍需要大量人工监督。我想问问,我们何时才能拥有 “无需任何反馈、自主运行一周” 的智能体?
Sam Altman:我认为代码生成工具(Codex)距离实现 “自主运行一周” 已经不远了 —— 这话听起来确实很疯狂。虽然 2025 年可能还无法实现,但今天我和一些人交流时,他们都说 “不敢相信现在的智能体已经能完成一整天的任务了,怎么会进步这么快”。
在我看来,AI 的发展速度很少会让人觉得 “快得有些不真实”,但智能体可完成任务的时长提升速度,就是这样一个特例。所以我猜测,“自主运行一周” 的智能体应该很快就会出现。
Rowan Cheung:要实现这一目标,目前存在哪些技术瓶颈?
Sam Altman:主要有三个方面:更智能的模型、更长的上下文窗口,以及更优的记忆能力。
Rowan Cheung:好的。现在有了智能体、各类模型升级,还有支持 API 调用的 Codex,可开发的东西似乎无穷无尽。如果你能回到过去,把 20 岁时刚从斯坦福辍学的自己带到现在,并且拥有当下的所有知识,你会选择开发什么产品?又会避开哪些领域?
Sam Altman:我前几天还在想这个问题。说实话,我很羡慕现在 20 岁左右辍学创业的年轻人 —— 他们能开发的东西太多了,机遇空间非常广阔。过去几年,我一直没有足够的空闲时间深入思考 “自己会开发什么”,但我知道,现在有无数很酷的想法等待落地。今天和现场的人交流他们正在开发的项目,我真的觉得很神奇。
Rowan Cheung:这也是我(以及现场很多开发者)面临的困惑:现在能开发的东西太多了,你有没有什么建议,帮助我们在开发产品时建立并保持独特优势?比如在分发、数据,或者某种工作流模式上?
Sam Altman:我一直觉得,这类抽象问题很难给出通用答案,因为最好的 “独特优势” 往往是 “为你量身定制” 的 —— 需要你自己去探索、去发现。我们为了打造 OpenAI 的独特优势,付出了巨大努力。
我认为,在这个问题上,很难找到适用于所有情况的通用方案,最好的答案一定是 “只适合你正在做的事、你的产品、你的技术,以及你在特定时间点所处的市场位置”,而找到这个答案的过程,本身就是创办新企业所创造的重要价值之一。不过,我可以分享一个通用观点:优势是在实践中逐步形成的。我一直很喜欢一句商业格言:“让战术升华为战略”。
你可以从做 “有效的小事” 开始,往往在这个过程中,会意外形成一套完整的战略。比如,当初我们推出 ChatGPT 时,如果你问我 “OpenAI 的长期优势是什么”,我会说 “我不知道”—— 虽然会有一些猜测,但都不确定。但后来,有些功能逐渐显现出了优势,比如 “记忆功能”:它不仅是我们重要的竞争优势,也是用户持续使用 ChatGPT 的原因之一,而这个功能在最初开发时,完全不在我们的规划范围内。所以,你可以先从开发功能入手,之后可能会突然发现 “哦,这个功能能成为我们的长期优势”。
Rowan Cheung:能否透露一下,GPT-6 需要构建哪些优势?另外,现在开发一款 “能长期存活的产品”,应该从哪些角度思考?
Sam Altman:这类问题其实需要你自己去探索。不过,如果有机会,我很乐意和你一起头脑风暴,那会很有趣。只是现在,OpenAI 几乎占据了我所有的精力,没机会去思考 “如何创办一家新创业公司”,这有点可惜。我认为,虽然世界上很多事物都在变化,但 “让企业形成优势的核心逻辑” 并没有改变 —— 比如网络效应、品牌和营销优势、用户数据,以及市场效应等。如果你梳理一下近年来 “让企业成功的因素”,会发现现在的核心逻辑和过去相差不大,只是建立优势的具体方法可能有了新的变化。
Rowan Cheung:OpenAI 最近推出了 GDPval 基准测试,用于衡量 AI 模型在 “知识工作者核心岗位的高经济价值现实任务” 中的表现。让我意外的是,GPT-5 在测试中排名第二,仅次于 Claude 的 Opus 模型。不过你们依然公开了测试结果,这一点非常值得称赞。你对这个结果感到意外吗?
Sam Altman:我们的模型总会在某些方面表现最佳,在另一些方面则不然。而要建立 “持续进步” 的企业文化,关键就在于:当在某个基准测试、评估项目或其他领域中,别人的表现比你更好时,你能坦然、直接地承认这一点。我认为 Anthropic(Claude 开发团队)在理解大量企业级用例,以及优化输出格式方面,做得非常出色。所以对于 GPT-5 在 GDPval 基准测试中排名第二的结果,我并不意外,反而更有动力去提升我们的模型。
Rowan Cheung:那这个基准测试结果,是否改变了你们开发 GPT-6 的方向?
Sam Altman:它可能会影响我们在 “模型后训练” 阶段的一些做法,但 GPT-6 的核心开发战略不会因此改变。
何时实现 AGI?
Rowan Cheung:你最近提到,你对通用人工智能(AGI)的定义是 “在大多数具有经济价值的工作中超越人类”。那么 GDPval 基准测试需要达到多少分,你才会认为我们已经实现了 AGI?
Sam Altman:我一直在思考这个问题。首先,和很多人一样,我对 AGI 也有多重定义 —— 而且我们离它越近,这个概念就变得越模糊。但对我来说,最核心的衡量标准(而且让我非常意外的是,我们现在终于开始看到这种迹象了)是 “AI 能否实现全新发现”:能否拓展人类的整体知识库。目前这类案例还很有限,我不想夸大其词,但现在在推特(X)上能看到很多例子:不同领域的科学家会分享 “AI 帮助他们实现了某个小发现”“AI 提出了一种全新方法” 或 “AI 解决了某个难题”。
Again,我既不想夸大,也不想低估 —— 关键在于,我们正处于这个趋势的起点,而且我们有信心在未来几年里大力推进这项能力。这才是真正重要的事,也是我最关注的 “AGI 级能力”。
Rowan Cheung:有没有某个特定的科学突破,是你特别期待 AI 能帮助解决的?
Sam Altman:显然,治愈疾病、发现全新物理学理论这些目标都很棒。不过即便现在发生的一些 “小事”—— 比如 AI 在数学领域的应用 —— 也让我觉得意义重大。回想 GPT-4 刚发布时,人们对 “图灵测试到底是什么” 还有很多争议,但大众认知中的 “图灵测试”,曾是一个感觉 “永远无法实现” 的目标。
结果突然有一天,我们发现 “AI 已经通过了图灵测试”,但整个社会几乎没有任何反应:人们只是焦虑了两周,然后就开始抱怨 “这破东西怎么不快一点”“它怎么还有这种问题”“赶紧优化”。我觉得这恰恰体现了人类的伟大之处 —— 这个被视为 “AI 终极测试” 的目标,就这么悄无声息地被超越了,而我们所有人都适应了这一点。现在我感觉,类似的事情会再次发生:我们很快就会习惯 “AI 实现科学发现”,就像习惯 Waymo 自动驾驶一样 —— 新鲜劲只会持续三分钟,之后就会觉得 “这很正常”。
Rowan Cheung:我明白这个类比了。那我们来聊聊斯坦福大学最近做的 “AI 低效工作(workslop)” 研究,我先简单解释一下这个概念:“低效工作” 指的是 “看似精致但实际需要大量返工、反而增加额外工作量” 的低质量产出。研究调查了 1000 多名办公室职员,其中 41% 的人表示,过去一个月里,曾收到过同事用 AI 生成的 “低效工作成果”;每次修正这些成果平均需要 1 小时 56 分钟,每月给每位员工造成的成本约为 186 美元。既然 AI 能让部分人(比如现场很多参会者)的产出效率提升 10 倍,那在 “教其他人‘何时该用 AI、何时不该用 AI’” 这件事上,目前的教育和入职培训还缺少哪些内容?
Sam Altman:首先要明确一点:人类自己也会产生 “低效工作”,这并非 AI 独有的问题。我个人特别反感的一个例子就是 “只会制造额外工作的邮件”,还有 “毫无意义、徒增负担的会议”—— 这些问题早就存在了。长久以来,一直有人用工具提升效率,也有人用工具给团队制造阻力。所以我们没理由认为,AI 会是个例外。经济本身具有自我调节能力:用工具提升效率的人或企业,对未来的影响力会远大于 “用工具拖慢组织、降低产出” 的人或企业。而且和所有新工具一样,人们对 AI 的使用肯定需要一个学习过程,但我认为这个过程会非常快。
Rowan Cheung:那 OpenAI 有没有在 “教育或入职培训” 方面采取行动,帮助人们更好地培养 “AI 使用直觉”(比如判断何时该用、何时不该用)?
Sam Altman:当然有。工具的使用方式终究取决于使用者本身。我从实践中总结出一点:即便你制作了优质的教学内容、开展了完善的培训,人们还是可能会用 AI “模仿海盗说话” 之类的 —— 他们总会按自己的想法使用工具。不过,我们确实在努力制作大量内容,帮助人们将 AI 融入实际工作流。以代码生成工具(Codex)为例,很多企业的员工能在几天到几周内快速掌握它,并以高效的方式将其整合到工作中,采用速度非常快。
AI 生成的视频以假乱真,但社会终究会适应这一点
Rowan Cheung:聊到 “低效产出”,还有个话题想问问你:你现在可是全球首位 “网络深度伪造(Deepfake)表情包病毒式传播” 的 CEO—— 网上到处都是用 Sora 生成的你的表情包。看到那些比如 “你策划 GPU 抢劫” 之类的 Sora 表情包,你会觉得困扰吗?
Sam Altman:其实这事比我预想的要 “不奇怪” 得多。有种很特别的感受:连续刷 100 个表情包,反而比只看 1 个时的违和感更弱。我记得 Sora 发布前,我正在进行一次环球旅行,团队里有人发消息问我 “能不能开放你的形象授权,让大家制作表情包”。当时我本来想 “8 秒钟内随口答应”,但转念一想 “这事可能需要多考虑一下”。不过,这毕竟是新技术,要是连我都不愿尝试,那未免说不过去。所以我最终还是同意了。
之后在飞机上,我还在想 “这事会不会很诡异”,觉得 “大概率会很奇怪”。结果 Sora 发布后,其实我早有心理准备 —— 因为 OpenAI 内部测试时,同事们就用我的形象(还有其他人的形象)做了很多表情包。当时我在亚洲,正值深夜,醒来发了条推特就又睡了。6 个小时后再次醒来,打开手机,满屏都是我的表情包。就像坐 Waymo 自动驾驶一样,前 3 分钟(甚至不到 3 分钟)会觉得诡异,之后就会想 “哦,这就是个满是生成视频的应用,这些表情包还挺搞笑的”,也就释然了,没有留下什么持续的违和感。
不过,有件事确实让我担心 —— 就是 “水印去除工具”。今天早上有几家公司发布了 “Sora 水印去除器”。如果人们用我的形象制作内容后,去掉水印发到社交媒体上,这可能会对我的个人品牌造成负面影响。那我还有什么理由允许别人用我的形象呢?这么做的吸引力在哪?
我来解释一下这个问题。首先,我们之所以愿意发布这类技术,是因为我们能预见:再过几个月或几年,这类技术终将普及 —— 届时会出现优秀的开源模型,任何人都能利用网上公开的你的视频素材,生成任何他们想做的内容。社会终究会适应这一点,但我们发现,“提前发布带防护机制的技术,让社会与技术共同进化”,是帮助社会平稳过渡的有效方式。文本领域的经验已经证明了这一点,视频领域可能会更难,因为视频带来的冲击往往比文本更强烈。但我相信我们会快速适应,也会很快接受 “网上会出现大量无水印、难以溯源的 AI 生成假视频(可能用开源模型制作)” 这一现实 —— 这种情况必然会发生。所以,让社会提前 “适应” 这种情况,或许是有价值的。
Rowan Cheung:那 “生成与真实视频无法区分的 AI 视频”,本身就是你们的目标吗?
Sam Altman:我们的核心目标是通用人工智能(AGI)。而高质量的视频生成技术,对实现 AGI 有重要意义,原因有几点:比如空间推理能力、从世界模型(world models)中获取知识,甚至未来机器人技术的突破,都可能依赖这项技术。而且我本身也认为 “高质量视频是好东西”—— 我不希望未来的人机交互界面只有文本。我很期待这样的未来:人们能在实时视频流中互动,AI 能持续生成全新的用户体验(UX)。这当然很棒,但更重要的是,我认为视频生成技术是通往真正 AGI 的重要一步。
Rowan Cheung:上周五你们发布了一篇博客,提到 “可能会为‘授权他人使用自己形象’的人提供收益分成”。能透露些细节吗?比如具体会如何操作?
Sam Altman:就像很多新产品一样,用户的使用方式往往会超出我们的预期。我们最初以为,会有少数创作者制作 “酷炫、有趣、复杂的视频” 并分享,然后吸引大量观众观看 —— 这种情况确实存在,但更多人其实是 “只为自己和三个朋友制作视频”,在群聊里分享(不是在公开信息流里)。目前还不确定这种用法是暂时的新鲜感,还是会持续下去。
但如果这种用法能持续,就会大幅改变我们的 “算力需求与用户参与度” 模型 —— 比如我们可能会推出 “按次付费生成视频” 的模式:如果你每天想生成 100 个表情包发给朋友,完全可以;如果你想在视频里加入某个名人的形象,且对方同意,那这位名人或许也能从 “每次生成付费” 中获得分成。不过这一切都需要实验验证。对于一个才发布 6 天的产品,现在下任何定论都太冒险了 —— 毕竟目前的热度可能只是新鲜感,这种用法未来也可能消失。但至少到目前为止,这是一个很重要的用户场景。
实现 AGI 后,工作岗位的是什么样子
Rowan Cheung:你们有考虑过在 Sora 应用里加入广告吗?
Sam Altman:目前还没有,但这个方向确实有值得探索的空间 —— 当然,也存在一些风险。ChatGPT 的订阅制商业模式运转得很好,但 Sora 的情况可能不同:如果用户使用 Sora 是为了 “在信息流里看有趣或精美的内容”,那广告驱动模式可能更自然;如果主要用途是 “私密消息分享”,那商业模式就会完全不同。乐观估计的话,或许到今年年底(也可能这个预期太乐观了,或许要到明年第一季度),我们能理清 Sora 最终的产品形态,然后确定对应的商业模式。“按次生成收费” 这种模式显然是合理的,我们也会尝试,但其他模式都取决于产品的进化方向。
Rowan Cheung:很有意思。我们再聊聊 “工作岗位” 吧。现在工作岗位正在发生变化,我想用 “农民的类比” 来说明:如果 50 年前你跟一个农民说,未来会有 “互联网” 这种神奇的东西,能创造 10 亿个新岗位,人们可以坐在办公桌前工作,还会有 “开发者”“营销员” 这样的职业,他大概率不会相信。现在我们所处的时代也是如此,很多人都认为会有大量新岗位被创造出来 —— 但问题是,我们很难想象这些新岗位具体是什么。而且现在这个时代和互联网时代有个区别:互联网时代 “凭空” 创造了 10 亿个新岗位,而 “智能时代” 里,10 亿个知识工作者的岗位可能会先受到冲击,之后才会有新岗位出现。你会担心这种情况吗?
Sam Altman:当然担心。不过你提到的这点,既让我减少了一些担忧,也让我在另一些方面更担忧。关于那个 50 年前的农民,有一点很关键:他不仅不会相信 “互联网创造新岗位” 这件事,还很可能会看着你我的工作说 “这根本不是正经工作”。在他看来,“种地才是人们真正需要的工作 —— 生产粮食、让人活下去,这才是正经事。而你们这些未来人,生活太安逸了,有吃不完的粮食、用不完的财富,却在做些‘像玩游戏一样’的事,只是为了打发时间、找存在感,对我们来说这根本不算工作”。但对我们而言,这份工作不仅真实,而且我很庆幸能从事这样 “有满足感、有意义” 的工作。
同理,我们现在也很可能无法理解未来的工作 —— 或许我们会觉得 “那些工作还不如我们现在的工作‘正经’,甚至不如农民的工作‘实在’”。但我相信,未来的人们依然能在生活中找到大量意义,只是 “工作” 的定义会发生巨大变化,从我们现在的视角看,未来的工作可能 “不像工作”。同时,社会契约(social contract)也可能发生重大改变,尤其是在这种转型速度很快的情况下。所以,我确实对 “转型期的短期影响” 有些担忧,但我更愿意相信人类的内在驱动力 —— 我们总能找到值得做的事。
Rowan Cheung:那你觉得我们未来会专注于哪些领域?比如探索太空、脑机接口(BCI)?AGI 实现后,人类会有什么特别的聚焦方向吗?
Sam Altman:我其实希望未来的发展是 “全方位的”—— 我们能去做所有想做的事。太空探索对我来说确实很酷,但你们可能会觉得其他领域更有趣。我希望未来的 “可能性画布” 能无限广阔,没有限制。
Rowan Cheung:如果明天你能制定一项全球政策,你会选择什么?
Sam Altman:要把范围缩小到 “一项” 确实很难,但我反复想到的是 “AI 监管”。目前关于 “AI 监管是否必要”“监管会不会过度偏袒大公司” 的争议很多,我能理解各方的立场。但我认为,当我们面对 “超强大模型” 时,必须有一个 “降低灾难性风险” 的全球框架 —— 尤其是针对 “最前沿的模型”,我们需要共同应对那些重大的安全问题。如果能有这样一项全球政策,会是非常有意义的。
Rowan Cheung:那能大致描述一下这个框架吗?比如从高层级来看,会包含哪些内容?
Sam Altman:我认为可以从 “建立完善的测试框架” 开始。
Rowan Cheung:我们再聊聊 “超级应用” 吧。中国有微信这样的 “全能应用”,既能购物、刷社交动态,也能和朋友聊天。现在 ChatGPT 也集成了购物、网页搜索、Sora 等新功能,你们是在尝试为美国市场打造 “全能应用” 吗?
Sam Altman:不是的。有很多原因让我认为 “全能应用模式” 在美国市场不会像在中国那样成功。我们真正想做的,是打造 “一款非常优秀的 AI 超级助手”。
Rowan Cheung:那为什么要把功能分开发布呢?比如 Sora 是独立应用,而不是直接集成到 ChatGPT 里?
Sam Altman:对很多人来说,ChatGPT 账号已经成了 “非常私人的账号”,如果在里面加入社交属性的功能,会显得很违和。当然,有些功能(比如消息分享,因为人们经常用 ChatGPT 协作)或许可以整合,但 “人们对 ChatGPT 账号的认知” 和 “对娱乐类应用的认知” 完全不同,强行整合会产生不协调感。不过,我们当然也会把很多功能整合到 ChatGPT 里。
Rowan Cheung:那我们再回到 “智能体构建工具” 的话题。你觉得人们能开发出哪些 “重要或实用的智能体”?这方面你最期待的是什么?
Sam Altman:我会先看看代码生成工具(Codex)的成功案例,然后思考 “其他行业能否复制这种模式”—— 比如,法律行业能不能有 “类 Codex 体验”?财务模型构建领域能不能有?其他已经有 “成功先例” 的领域呢?目前已经有很棒的初创公司在做这些事了,但随着技术成熟,如果这些行业的智能体能达到 “Codex 在编程领域的水平”,那会是我最期待的场景。我甚至能想象这样的未来:一个人通过与多个智能体对话,就能创办一家初创公司。虽然目前的智能体构建工具(Agent Builder)和智能体工具包(Agent Kit)还没达到这个水平,但我能看到清晰的路径。
Rowan Cheung:你在主题演讲中简要提到过 “语音可能是 AI 或智能体的终极交互界面”,能再详细说说吗?
Sam Altman:我其实不认为语音是 “终极界面”—— 很多场景下语音并不合适,比如在公共交通上对着设备说话,会让人觉得很烦人。但在很多场景中,语音是 “非常自然的界面”。语言本身(无论是语音还是文字)的潜力其实还没被充分挖掘。比如智能音箱,虽然这个品类常被调侃,但很多人其实一直在用,而且很喜欢 —— 只是目前的智能音箱还不够好,因为 AI 能力和配套基础设施都跟不上。试想一下,如果只需跟设备说话,它就能准确完成你想要的操作,之后还能 “不打扰你”,这样的电脑不正是我们想要的吗?
Rowan Cheung:能透露些关于 “OpenAI 硬件设备(io)” 的信息吗?比如你们在开发什么?会不会是语音交互设备?
Sam Altman:这件事还需要很长时间。打造 “一款高质量、大规模普及、能带来全新电脑使用方式” 的新设备,需要足够的创新空间,也请大家多些耐心。我们确实有一些很兴奋的想法,但目前还没准备好公开 —— 短期内也不会。不过我们一定会努力做出 “值得大家等待” 的产品。
参考链接:
评论