
OpenAI 正式发布了 gpt-realtime,这是一款代表当前 OpenAI 最新研发成果的语音对语音模型,同时 Realtime API 也全面开放。此次更新旨在降低延迟、提升语音质量,并为开发者提供更强大的工具,例如支持 MCP 服务器、图像输入以及基于 SIP 的电话呼叫,从而打造真正可投入生产环境的 AI 语音智能体。
Realtime API 与 gpt-realtime 的结合,能够在单一系统内完成端到端语音处理,而无需再将语音转文本与文本转语音模型分开串联。这种架构显著缩短了响应时间,并能保留语音表达中的细微差别,这对于实时语音交互至关重要,因为哪怕几百毫秒的延迟都可能破坏对话的流畅性。
gpt-realtime 经过训练,可以生成更高质量的语音,语速与语调更加自然,同时在语气风格的指令执行上表现稳定,例如“以同理心语气说话”或“使用专业语气”。此次还新增了两个合成声音 Cedar 和 Marin,并对现有声音进行了更新,使之更加逼真。
gpt-realtime 在理解能力方面也有显著进步。模型能够识别非语言信号,在一句话中实现多语言切换,并且对跨语言的字母数字序列(如电话号码、车辆识别码等)处理更加准确,支持西班牙语、中文、日语和法语等多种语言。内部测试结果显示,gpt-realtime 在 Big Bench Audio 上的准确率达到 82.8%,相比上一代模型的 65.6% 有显著提升。在遵循指令方面,MultiChallenge 音频基准测试的得分也从 20.6% 提升至 30.5%。
函数调用能力同样得到增强。新模型在识别相关函数、在合适时机调用并传递正确参数方面表现更佳。在 ComplexFuncBench 上,准确率从 49.7% 提升至 66.5%。此外,系统还新增了异步函数调用功能,使语音智能体在等待结果期间能够继续对话,这一特性在客户服务和交易类场景中具有重要应用价值。
Realtime API 也迎来全面升级,更符合生产级需求。开发者现在可以将远程 MCP 服务器直接接入会话,避免手动集成的繁琐操作。API 还支持图像输入,使应用能够基于视觉内容(如截图或照片)进行对话。SIP 支持则让语音智能体能无缝接入现有电话系统,包括 PBX 和桌面电话。可复用提示功能简化了会话管理,而全面的欧盟数据存储支持则满足欧洲部署中的合规要求。
根据发布说明,早期企业合作伙伴已在接近生产环境的场景中测试这些功能。Zillow 已启动语音交互式房产搜索的试点项目,而 T-Mobile 则探索在客户服务中应用实时响应的场景。两家公司都强调,AI 语音智能体正推动交互方式从传统的脚本化自动化,向更灵活、更具领域专长的方向转变。
OpenAI 还进一步强化了部署安全措施。Realtime API 内置分类器,可以中止有害对话,开发者也能通过 Agents SDK 添加特定领域的安全约束。此外,Realtime API 的预设声音有助于降低冒充风险。
目前,gpt-realtime 模型与 Realtime API 已全面开放,所有开发者均可使用。开发者可查阅 Realtime API 文档与提示指南快速上手,并在 Playground 中体验全新的 gpt-realtime 演示版本。
原文链接:
评论