OpenAI 推出 gpt-realtime：语音智能体进入“秒回”时代，开发者直呼交互更自然

OpenAI 正式发布了 gpt-realtime，这是一款代表当前 OpenAI 最新研发成果的语音对语音模型，同时 Realtime API 也全面开放。此次更新旨在降低延迟、提升语音质量，并为开发者提供更强大的工具，例如支持 MCP 服务器、图像输入以及基于 SIP 的电话呼叫，从而打造真正可投入生产环境的 AI 语音智能体。

Realtime API 与 gpt-realtime 的结合，能够在单一系统内完成端到端语音处理，而无需再将语音转文本与文本转语音模型分开串联。这种架构显著缩短了响应时间，并能保留语音表达中的细微差别，这对于实时语音交互至关重要，因为哪怕几百毫秒的延迟都可能破坏对话的流畅性。

gpt-realtime 经过训练，可以生成更高质量的语音，语速与语调更加自然，同时在语气风格的指令执行上表现稳定，例如“以同理心语气说话”或“使用专业语气”。此次还新增了两个合成声音 Cedar 和 Marin，并对现有声音进行了更新，使之更加逼真。

gpt-realtime 在理解能力方面也有显著进步。模型能够识别非语言信号，在一句话中实现多语言切换，并且对跨语言的字母数字序列（如电话号码、车辆识别码等）处理更加准确，支持西班牙语、中文、日语和法语等多种语言。内部测试结果显示，gpt-realtime 在 Big Bench Audio 上的准确率达到 82.8%，相比上一代模型的 65.6% 有显著提升。在遵循指令方面，MultiChallenge 音频基准测试的得分也从 20.6% 提升至 30.5%。

函数调用能力同样得到增强。新模型在识别相关函数、在合适时机调用并传递正确参数方面表现更佳。在 ComplexFuncBench 上，准确率从 49.7% 提升至 66.5%。此外，系统还新增了异步函数调用功能，使语音智能体在等待结果期间能够继续对话，这一特性在客户服务和交易类场景中具有重要应用价值。

Realtime API 也迎来全面升级，更符合生产级需求。开发者现在可以将远程 MCP 服务器直接接入会话，避免手动集成的繁琐操作。API 还支持图像输入，使应用能够基于视觉内容（如截图或照片）进行对话。SIP 支持则让语音智能体能无缝接入现有电话系统，包括 PBX 和桌面电话。可复用提示功能简化了会话管理，而全面的欧盟数据存储支持则满足欧洲部署中的合规要求。

根据发布说明，早期企业合作伙伴已在接近生产环境的场景中测试这些功能。Zillow 已启动语音交互式房产搜索的试点项目，而 T-Mobile 则探索在客户服务中应用实时响应的场景。两家公司都强调，AI 语音智能体正推动交互方式从传统的脚本化自动化，向更灵活、更具领域专长的方向转变。

OpenAI 还进一步强化了部署安全措施。Realtime API 内置分类器，可以中止有害对话，开发者也能通过 Agents SDK 添加特定领域的安全约束。此外，Realtime API 的预设声音有助于降低冒充风险。

目前，gpt-realtime 模型与 Realtime API 已全面开放，所有开发者均可使用。开发者可查阅 Realtime API 文档与提示指南快速上手，并在 Playground 中体验全新的 gpt-realtime 演示版本。

原文链接：

https://www.infoq.com/news/2025/09/openai-gpt-realtime/

创作场景

OpenAI 推出 gpt-realtime：语音智能体进入“秒回”时代，开发者直呼交互更自然