2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

“杀死每家 AI 初创、造超级 OS”?奥特曼的野望惊现缺口:资深人士曝出三大瓶颈

  • 2025-10-09
    北京
  • 本文字数:3621 字

    阅读完需:约 12 分钟

大小:1.80M时长:10:30
“杀死每家AI初创、造超级OS”?奥特曼的野望惊现缺口:资深人士曝出三大瓶颈

整理 |华卫


在 OpenAI 今年的开发者大会(OpenAI DevDay 2025)上,CEO Sam Altman 在 50 分钟内带来了四个方面的重大更新,包括 AgentKit、Codex、Apps SDK 预览版和一系列新上线的 API。


其中最重磅的,是能够构建、部署和优化智能体工作流程的 AgentKit,相当于一套面向开发者和企业的完整工具集。据介绍,其不到两小时就能帮助互联网公司构建出一个工作助手智能体,为 Canva 开发者社区构建支持智能体的过程节省超过两周时间且集成过程耗时不到一小时。


“OpenAI 正通过一次次产品发布,逐步扼杀每一家 AI 初创公司”;“现在没有一家初创公司是安全的”,有用户对其给予了高度评价。


而值得注意的是,当前已有业内人士看出并详细解释了 AgentKit 在应用中存在的三大瓶颈, “‘从简单描述直接生成可用智能体’仍是天方夜谭。关键不在于画布本身,而在于其背后‘看不见’的基础设施。”


另外,奥特曼首次透露,如今在 OpenAI 内部,几乎所有工程师都在使用 Codex,他们每周合并的拉取请求(PR)数量增加了 70%,且 Codex 会自动审查几乎每一个 PR。


智能体“杀手”AgentKit,能取代 n8n 吗?


构建智能体通常意味着要同时处理多个零散工具:复杂的编排工作且缺乏版本控制、需要自定义连接器、手动评估流程、提示词调优,以及在上线前需耗时数周进行前端开发。借助 AgentKit,开发者现在可以通过以下新构建模块,以可视化方式设计工作流并更快地嵌入智能体界面(agentic UIs):


  • Agent Builder:一个可视化画布,用于创建和版本化多智能体工作流。

  • Connector Registry:管理员管理 OpenAI 各产品间数据与工具连接方式的中央平台。

  • ChatKit:一个工具包,用于在你的产品中嵌入可定制的、基于聊天的智能体交互体验。



以 Ramp 为例,其团队仅用几小时就从空白画布构建出了一个采购智能体:“Agent Builder 将过去需要数月的复杂编排、自定义代码编写和手动优化工作,缩短至仅需几个小时即可完成。可视化画布让产品、法务和工程团队保持信息同步,将迭代周期缩短了 70%,智能体的上线时间从两个季度缩短至两个冲刺周期。”


科技与互联网服务公司 LY Corporation 利用 Agent Builder 在不到两小时内就构建出了一个工作助手智能体。“Agent Builder 让我们能够以全新方式编排智能体,工程师与领域专家可在同一界面中协作。我们在不到两小时内就构建并运行了首个多智能体工作流,极大地缩短了智能体的创建与部署时间。”


“借助 ChatKit,我们为 Canva 开发者社区构建支持智能体的过程节省了超过两周时间,且集成过程耗时不到一小时。这个支持智能体将彻底改变开发者使用我们文档的方式,它能将文档转化为对话式体验,让在 Canva 上构建应用和集成工具变得更加轻松。”


同时,OpenAI 还通过数据集、追踪评分、自动提示词优化以及第三方模型支持等新功能,扩展了评估能力,以衡量和提升智能体的性能。


从今日起,ChatKit 及全新评估(Evals)功能已对所有开发者全面开放。Agent Builder 处于测试版阶段,而 Connector Registry)正逐步向部分拥有全局管理控制台(Global Admin Console)的 API、ChatGPT 企业版和教育版用户推出 beta 版。所有这些工具均包含在标准 API 模型定价中。


此外,OpenAI 计划很快在 ChatGPT 中新增独立的工作流 API(Workflows API) 及智能体部署选项。


自今年 3 月发布 Responses API 和 Agents SDK 以来,已有开发者和企业通过其构建出用于深度研究、客户支持等场景的端到端智能体工作流。例如,Klarna 利用其构建的支持智能体处理了三分之二的工单,而 Clay 则通过销售智能体实现了 10 倍的增长。AgentKit 基于 Responses API 构建,旨在帮助开发者更高效、更可靠地构建智能体。


AgentKit 一发布,许多用户都担忧起了 n8n 的处境。n8n 堪称目前最热门的工作流自动化工具之一,在 GitHub 上的 Star 数已达 140k。有网友表示,“即使它的功能(目前)还不够丰富,90-95% 的人只会在相当简单的工作流程和代理的情况下使用 n8n。AgentKit 可以做到这一切,而且非常用户友好。”


然而,有资深 Agent 构建者指出,AgentKit 目前无法取代 Zapier、n8n 及工程开发工作。简而言之:从原型到生产环境的过程中,仍需完成大量“看不见的艰巨工作”。


据他介绍,OpenAI 的 AgentKit 是推动智能体工作流大众化的重要一步,它提供了拖拽式画布、原生 GPT-4/5/o3 集成以及一些预制模板。但如果要为生产环境构建智能体——即涉及生命、资金或声誉风险的场景,实际情况是:


  1. 集成复杂性:AgentKit 仅能覆盖 20% 的使用场景。剩余 80% 的场景涉及私有 API、认证层、MCP 和合规工作流。例如:律所需要符合 HIPAA 标准的数据过滤和 MCP 集成,模板完全无法满足这类需求。

  2. 生产环境可靠性:演示仅在“理想路径”下有效,而真实用户的使用场景并非如此。你需要完善的重试机制、错误边界、熔断器、回滚方案以及队列背压处理。AgentKit 模板仅能应对 10 次请求,而生产环境需要支持 10000+ 次请求且达到 99.9% 的正常运行时间。

  3. 领域专业知识:医疗、金融、制造业等领域不仅是简单的工作流,而是完整的生态系统。模板无法承载监管细节或临床判断,这些仍需人类专家介入。


Codex 现已全面上市,7 岁小孩子也能上手?


自 8 月初以来,Codex 的日使用量增长了 10 倍以上,而 GPT‑5-Codex 更是增长最快的模型之一,在发布后的三周内处理了超过 40 万亿个 token。


据悉,在 OpenAI 内部,Codex 已成为其开发工作中不可或缺的一部分:如今几乎所有工程师都在使用它,而 7 月时这一比例仅略超一半。他们每周合并的拉取请求(PR)数量增加了 70%,且 Codex 会自动审查几乎每一个 PR,在问题影响生产环境前捕捉关键漏洞。


今日起,Codex 正式全面开放。如今,用户可以在所有编码场景中使用它——编辑器、终端和云端,且全部通过 ChatGPT 账户关联。同时,Codex 推出三项对工程团队更具实用价值的新功能:


  • 全新 Slack 集成:可直接在团队频道或对话线程中向 Codex 委派任务或提问,就像与同事协作一样。

  • Codex SDK(软件开发工具包):将为 Codex CLI 提供动力的同款智能体嵌入你自己的工作流、工具和应用中,无需额外调优即可借助 GPT‑5-Codex 实现顶尖性能。

  • 全新管理工具:借助环境控制、监控和分析仪表板,ChatGPT 工作区管理员现在能够更清晰地掌握情况,并实现对 Codex 的大规模管理与控制。


其中,Slack 集成功能与 Codex SDK 已向 ChatGPT Plus、Pro、商业版(Business)、教育版(Edu)及企业版(Enterprise)套餐的开发者开放,而全新管理功能则仅面向商业版、教育版及企业版用户。


对于此次的更新,有用户称,“单是 Slack 集成就能节省不少时间。”还有网友评价道,“Codex SDK 改变了创新格局,甚至 7 岁的孩子也可以将脑海中的想象变为现实。”


ChatGPT 向操作系统进化:Apps SDK 登场


今日,OpenAI 以预览版形式开放 Apps SDK,供开发者着手构建和测试其应用,应用提交通道将在今年晚些时候开放。


有了 Apps SDK,所有人都能在 ChatGPT 中构建、集成、调用原生应用。目前,Apps SDK 公开支持的应用有 Booking.com、Canva、coursera、Expedia、Figma、Spotify 和 Zillow。但奥特曼在大会现场承诺,更多应用即将上线。


Hyperbolic 联合创始人兼首席技术官 Yuchen Jin 一语道出了奥特曼的野心:ChatGPT 由此成为新的操作系统,一个人们会花费大部分时间的地方。他指出,“OpenAI 的 App SDK 是一步妙棋。其目标是:让 ChatGPT 成为所有人的默认界面,在这里可以与所有应用程序对话。颇具讽刺意味的是,尽管 MCP 由 Anthropic 首创,但这一举措却让 OpenAI 变得无可匹敌。”


前谷歌工程师 Rui Diao 表示,“对于希望深度集成的开发者而言,Apps SDK 预览版堪称出色。如今的 ChatGPT 真的给人一种正在进化为真正超级应用的感觉,界面内直接集成了各类专业功能。”一位网友感叹道,“我们正处于氛围编码的黄金时代。”


三大 API 上线


大会上,奥特曼还上线了三个重要的 API,包括强大推理模型 GPT-5 pro、先进视频生成模型 Sora 2 与 Sora 2 Pro 版本的。


首先是 GPT-5 Pro 现已接入 API, 针对高难度任务,它会投入更多“思考时间”以提升表现。



其次,OpenAI 通过 Video API 首次向开发者开放 Sora 2 与 Sora 2 Pro 的能力, 两者均支持横屏与竖屏模式,单段视频时长最长可达 12 秒。Remix 功能允许用户对现有视频进行针对性调整,目前尚不支持视频输入以及真人图像转视频功能。


同时推出的还有全新的图像模型与语音转语音模型,它们虽比完整版模型更经济,却拥有相近的质量:


  • gpt-image-1-mini 是 GPT Image 1 模型的 mini 版本,价格比后者降低 80%,可同时接受文本和图像输入和生成图像输出。

  • gpt-realtime-mini 是 GPT Realtime 的 mini 版本,价格比后者降低 70%, 可通过 WebRTC、WebSocket 或 SIP 连接实时响应音频和文本输入。


有网友评价道,“OpenAI 将利润结构从资本支出转向运营支出,真是聪明。”


参考链接:


https://x.com/OpenAI/status/1975328203058389153


声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。


2025-10-09 15:585309

评论

发布
暂无评论

需求做不完?7种“问句”用了没?

糖小妹来了

需求 需求排序 需求变更 需求澄清 需求评审

你的拖延,该不会是“约拿情结”吧?程序员的5个时间管理技巧

糖小妹来了

时间管理 拖延症

锁定“用户人群”,远离“ 需求取舍难”

糖小妹来了

需求 用户 用户画像 需求澄清 需求评审

Apache RocketMQ ACL 2.0 全新升级

阿里巴巴云原生

阿里云 云原生 Apache RocketMQ

即时通讯技术文集(第37期):IM代码入门实践(Part1) [共16篇]

JackJiang

即时通讯;IM;网络编程

竞品调研- 19条小技巧快速收集竞品信息

糖小妹来了

竞品分析 竞品调研

AIGC时代IT人的迷茫有解(1):从“商业画布”到“个人画布”

糖小妹来了

职业规划 商业画布 个人画布

天上掉下个“星纪元ET”!首次挑战空中坠落试验高调秀肌肉

极客天地

新一代智慧音视频平台,企业必备新基建

中关村科金

音视频 企业服务 大模型

理论+实践,带你了解分布式训练

华为云开发者联盟

机器学习 华为云 华为云开发者联盟 大语言模型 企业号2024年5月PK榜

“芯”心相“蜥” 共筑未来!龙蜥社区走进兆芯 MeetUp 圆满结束

OpenAnolis小助手

开源 操作系统 Meetup 龙蜥社区

AIGC时代IT人的迷茫有解(3):从“用户画像”到“个人职业画像”

糖小妹来了

职业规划 用户画像 #职业发展

锁定“场景”,告别“需求不明确”

糖小妹来了

需求 场景 场景化 场景化思维 需求澄清

将“安全”进行到底!星纪元ET挑战TOP Safety空中坠落试验现场大公开

极客天地

安全是最大的豪华!星纪元ET成功挑战31.9米空中坠落试验

极客天地

2024-05-08:用go语言,给定一个由正整数组成的数组 nums, 找出数组中频率最高的元素, 然后计算该元素在数组中出现的总次数。 输入:nums = [1,2,2,3,1,4]。 输出:4。

福大大架构师每日一题

福大大架构师每日一题

HTTP Multipart 概述:一步步理解复杂数据传输

Apifox

前端 Web 后端 HTTP API

高情商程序员是如何沟通需求的?

糖小妹来了

需求 需求排序 需求变更 需求澄清 需求评审

高情商程序员:5种类型的bug沟通有诀窍!

糖小妹来了

bug bug修复 bug管理 bug报告

AIGC时代IT人的迷茫有解(2):从“产品规划十步法”到“职业规划十步法”

糖小妹来了

职业规划 产品规划

星纪元ET首次上演空中“自由落体”,极致安全实力无惧硬核极限挑战

极客天地

芯盾时代IAM,三种权限管理模型按需选择

芯盾时代

权限管理 iam 统一身份认证 统一身份管理平台 最小权限管理

“杀死每家AI初创、造超级OS”?奥特曼的野望惊现缺口:资深人士曝出三大瓶颈_AI&大模型_华卫_InfoQ精选文章