写点什么

OpenAI 推出 gpt-realtime:语音智能体进入“秒回”时代,开发者直呼交互更自然

作者: Hien Luu

  • 2025-09-14
    北京
  • 本文字数:1214 字

    阅读完需:约 4 分钟

大小:617.04K时长:03:30
OpenAI 推出 gpt-realtime:语音智能体进入“秒回”时代,开发者直呼交互更自然

OpenAI 正式发布了 gpt-realtime,这是一款代表当前 OpenAI 最新研发成果的语音对语音模型,同时 Realtime API 也全面开放。此次更新旨在降低延迟、提升语音质量,并为开发者提供更强大的工具,例如支持 MCP 服务器、图像输入以及基于 SIP 的电话呼叫,从而打造真正可投入生产环境的 AI 语音智能体。


Realtime API 与 gpt-realtime 的结合,能够在单一系统内完成端到端语音处理,而无需再将语音转文本与文本转语音模型分开串联。这种架构显著缩短了响应时间,并能保留语音表达中的细微差别,这对于实时语音交互至关重要,因为哪怕几百毫秒的延迟都可能破坏对话的流畅性。


gpt-realtime 经过训练,可以生成更高质量的语音,语速与语调更加自然,同时在语气风格的指令执行上表现稳定,例如“以同理心语气说话”或“使用专业语气”。此次还新增了两个合成声音 Cedar 和 Marin,并对现有声音进行了更新,使之更加逼真。


gpt-realtime 在理解能力方面也有显著进步。模型能够识别非语言信号,在一句话中实现多语言切换,并且对跨语言的字母数字序列(如电话号码、车辆识别码等)处理更加准确,支持西班牙语、中文、日语和法语等多种语言。内部测试结果显示,gpt-realtime 在 Big Bench Audio 上的准确率达到 82.8%,相比上一代模型的 65.6% 有显著提升。在遵循指令方面,MultiChallenge 音频基准测试的得分也从 20.6% 提升至 30.5%。


函数调用能力同样得到增强。新模型在识别相关函数、在合适时机调用并传递正确参数方面表现更佳。在 ComplexFuncBench 上,准确率从 49.7% 提升至 66.5%。此外,系统还新增了异步函数调用功能,使语音智能体在等待结果期间能够继续对话,这一特性在客户服务和交易类场景中具有重要应用价值。


Realtime API 也迎来全面升级,更符合生产级需求。开发者现在可以将远程 MCP 服务器直接接入会话,避免手动集成的繁琐操作。API 还支持图像输入,使应用能够基于视觉内容(如截图或照片)进行对话。SIP 支持则让语音智能体能无缝接入现有电话系统,包括 PBX 和桌面电话。可复用提示功能简化了会话管理,而全面的欧盟数据存储支持则满足欧洲部署中的合规要求。


根据发布说明,早期企业合作伙伴已在接近生产环境的场景中测试这些功能。Zillow 已启动语音交互式房产搜索的试点项目,而 T-Mobile 则探索在客户服务中应用实时响应的场景。两家公司都强调,AI 语音智能体正推动交互方式从传统的脚本化自动化,向更灵活、更具领域专长的方向转变。


OpenAI 还进一步强化了部署安全措施。Realtime API 内置分类器,可以中止有害对话,开发者也能通过 Agents SDK 添加特定领域的安全约束。此外,Realtime API 的预设声音有助于降低冒充风险。

目前,gpt-realtime 模型与 Realtime API 已全面开放,所有开发者均可使用。开发者可查阅 Realtime API 文档提示指南快速上手,并在 Playground 中体验全新的 gpt-realtime 演示版本。


原文链接:

https://www.infoq.com/news/2025/09/openai-gpt-realtime/

2025-09-14 17:404542

评论

发布
暂无评论

数字化转型背景下的测试转型

BY林子

敏捷测试 测试转型

spring-beans 注册 Beans(四)BeanDefinition

梦倚栏杆

【Vue2.x 源码学习】第八篇 - 数组的深层劫持

Brave

源码 vue2 6月日更

缓存穿透、缓存雪崩、缓存击穿问题与优化方案

Skysper

递归全排列问题(两种方法 Java实现)

若尘

数据结构 递归 6月日更

异构内存及其在机器学习系统的应用与优化

白玉兰开源

人工智能 机器学习 解决方案 第四范式 傲腾

你愿意被管理么?

escray

学习 极客时间 朱赟的技术管理课 6月日更

当人工智能遇上视频直播——基于Agora Web SDK实现目标识别

dajyaretakuya

深度学习 音视频 WebRTC 声网 TensorFlow.js

公司:离职就是一场危机管理

石云升

创业 职场经验 6月日更

做通才还是专才,你会怎么选?

架构精进之路

认知提升 6月日更

Kubernetes手记(5)- 配置清单使用

雪雷

k8s 6月日更

高性能 JavaScriptの七 -- 编程实践小技巧

空城机

JavaScript 大前端 6月日更

Java--JVM运行流程

是老郭啊

Java JVM JVM原理

MySQL基础之六:连接查询

打工人!

myslq 6月日更

浅谈Java中的TCP超时

Hoswey_洪树伟

Java、

Python——输入输出:加减乘除四则运算的程序

在即

6月日更

【布道API】浅谈API设计风格

devpoint

Rest API 6月日更

5分钟速读之Rust权威指南(十九)

wzx

rust 生命周期

Mybatis 二级缓存简单示例

Java mybatis

这些书都学完,绝对是编程界的大佬

看山

Java 程序员 6月日更

云原生推动全云开发与实践

阿里巴巴云原生

云原生

阿里云边缘容器服务、申通 IoT 云边端架构入选 2021 云边协同发展阶段性领先成果

阿里巴巴云原生

云原生

Packer 自动化镜像 Windows 安装过程

HoneyMoose

Python——字符串转换与处理

在即

6月日更

【Flutter 专题】109 图解自定义 ACERadio 单选框

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 6月日更

学妹问,学网站开发还是打 ACM?

程序员鱼皮

Java 程序员 算法 大前端 ACM

操作系统内核是什么?Linux内核又是什么?读完这篇文章,我终于知道了

奔着腾讯去

c++ 操作系统 内存管理 Linux内核 进程管理

SpringBootApplication注解

梦倚栏杆

读深入ES6记[二]

蛋先生DX

ES6 6月日更

Locust完成gRPC协议的性能测试

陈磊@Criss

【21-1】21 连更第一篇

耳东@Erdong

6月日更

OpenAI 推出 gpt-realtime:语音智能体进入“秒回”时代,开发者直呼交互更自然_OpenAI_InfoQ精选文章