50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

OpenAI 推出 gpt-realtime:语音智能体进入“秒回”时代,开发者直呼交互更自然

作者: Hien Luu

  • 2025-09-14
    北京
  • 本文字数:1214 字

    阅读完需:约 4 分钟

大小:617.04K时长:03:30
OpenAI 推出 gpt-realtime:语音智能体进入“秒回”时代,开发者直呼交互更自然

OpenAI 正式发布了 gpt-realtime,这是一款代表当前 OpenAI 最新研发成果的语音对语音模型,同时 Realtime API 也全面开放。此次更新旨在降低延迟、提升语音质量,并为开发者提供更强大的工具,例如支持 MCP 服务器、图像输入以及基于 SIP 的电话呼叫,从而打造真正可投入生产环境的 AI 语音智能体。


Realtime API 与 gpt-realtime 的结合,能够在单一系统内完成端到端语音处理,而无需再将语音转文本与文本转语音模型分开串联。这种架构显著缩短了响应时间,并能保留语音表达中的细微差别,这对于实时语音交互至关重要,因为哪怕几百毫秒的延迟都可能破坏对话的流畅性。


gpt-realtime 经过训练,可以生成更高质量的语音,语速与语调更加自然,同时在语气风格的指令执行上表现稳定,例如“以同理心语气说话”或“使用专业语气”。此次还新增了两个合成声音 Cedar 和 Marin,并对现有声音进行了更新,使之更加逼真。


gpt-realtime 在理解能力方面也有显著进步。模型能够识别非语言信号,在一句话中实现多语言切换,并且对跨语言的字母数字序列(如电话号码、车辆识别码等)处理更加准确,支持西班牙语、中文、日语和法语等多种语言。内部测试结果显示,gpt-realtime 在 Big Bench Audio 上的准确率达到 82.8%,相比上一代模型的 65.6% 有显著提升。在遵循指令方面,MultiChallenge 音频基准测试的得分也从 20.6% 提升至 30.5%。


函数调用能力同样得到增强。新模型在识别相关函数、在合适时机调用并传递正确参数方面表现更佳。在 ComplexFuncBench 上,准确率从 49.7% 提升至 66.5%。此外,系统还新增了异步函数调用功能,使语音智能体在等待结果期间能够继续对话,这一特性在客户服务和交易类场景中具有重要应用价值。


Realtime API 也迎来全面升级,更符合生产级需求。开发者现在可以将远程 MCP 服务器直接接入会话,避免手动集成的繁琐操作。API 还支持图像输入,使应用能够基于视觉内容(如截图或照片)进行对话。SIP 支持则让语音智能体能无缝接入现有电话系统,包括 PBX 和桌面电话。可复用提示功能简化了会话管理,而全面的欧盟数据存储支持则满足欧洲部署中的合规要求。


根据发布说明,早期企业合作伙伴已在接近生产环境的场景中测试这些功能。Zillow 已启动语音交互式房产搜索的试点项目,而 T-Mobile 则探索在客户服务中应用实时响应的场景。两家公司都强调,AI 语音智能体正推动交互方式从传统的脚本化自动化,向更灵活、更具领域专长的方向转变。


OpenAI 还进一步强化了部署安全措施。Realtime API 内置分类器,可以中止有害对话,开发者也能通过 Agents SDK 添加特定领域的安全约束。此外,Realtime API 的预设声音有助于降低冒充风险。

目前,gpt-realtime 模型与 Realtime API 已全面开放,所有开发者均可使用。开发者可查阅 Realtime API 文档提示指南快速上手,并在 Playground 中体验全新的 gpt-realtime 演示版本。


原文链接:

https://www.infoq.com/news/2025/09/openai-gpt-realtime/

2025-09-14 17:404416

评论

发布
暂无评论

pytest学习和使用2-初步使用和用例运行

Python 自动化测试 pytest

国家高新技术企业是国企吗?获得高新企业证书有什么用?

行云管家

高新企业 高新技术

基于阿里云数据库TiDB的性能压测初体验

TiDB 社区干货传送门

性能测评 6.x 实践

TiCDC 源码解读(5)-- TiCDC DDL 事件处理逻辑 与 Filter 实现介绍

TiDB 社区干货传送门

TiCDC 源码解读

TiCDC 源码解读(6)- TiCDC Puller 模块介绍

TiDB 社区干货传送门

TiDB 源码解读 TiCDC 源码解读

BSN-DDC基础网络详解(五):接入DDC网络(2)

BSN研习社

BSN-DDC基础网络

温湿度计设备通过阿里云IoT物联网套件上报数据到钉钉群机器人实践——数据价值类

阿里云AIoT

JavaScript Serverless 物联网 机器人 机器学习/深度学习

基于 Apache Flink 的实时计算数据流业务引擎在京东零售的实践和落地

Apache Flink

大数据 flink 实时计算

搭建阿里云 TiDB 的灾备,让我安欣睡个好觉

TiDB 社区干货传送门

实践案例 安装 & 部署 备份 & 恢复 数据库架构设计

你可能并不了解 Milvus

Zilliz

SaaS Milvus 社区活动

携程 x TiDB丨应对全球业务海量数据增长,一栈式 HTAP 实现架构革新

TiDB 社区干货传送门

设计消息队列存储消息数据的 MySQL 表格

Geek_7d539e

深入理解spring mvc启动过程与原理

三十而立

Java spring 程序员 开发 IT

技术详解 阿里云AIoT物模型支撑设备规模已超亿级——设备管理运维类

阿里云AIoT

运维 安全 监控 物联网 芯片

武汉等保测评有限公司有哪几家?具体位于哪里?

行云管家

等保 等保测评 等保2.0 武汉

NFTScan 与 UniPass 达成合作伙伴,双方在多链 NFT 数据方面展开合作!

NFT Research

NFT

将TiDB各服务组件混布到物理机集群和K8S环境

TiDB 社区干货传送门

实践案例 集群管理 管理与运维 安装 & 部署 数据库架构设计

Apache APISIX 3.2.0 LTS 正式发布

API7.ai 技术团队

快速尝鲜:RabbitMQ 搭建完就得用起来

Java你猿哥

Java Spring Boot ssm RabbitMQ

1个案例读懂——游戏产品如何用A/B测试做增长

字节跳动数据平台

云服务 AB testing实战 A/B测试 企业号 3 月 PK 榜

【分布式技术专题】「分布式技术架构」一文带你厘清分布式事务协议及分布式一致性协议的算法原理和核心流程机制(Paxos篇)

码界西柚

分布式 PAXOS paxos协议 算法分析

基于 TiCDC 的 TiDB 复制集群的计划内和计划外切换验证步骤

TiDB 社区干货传送门

性能调优 实践案例 故障排查/诊断 数据库架构选型

TiDB SQL调优案例之避免TiFlash帮倒忙

TiDB 社区干货传送门

性能调优 实践案例 故障排查/诊断

手把手教你写spring boot starter

三十而立

Java 程序员 IT springboot boot

面试没有分库分表经验,就看这篇

三十而立

Java sql 程序员 IT 分库

Java 8 的异步利器:CompletableFuture源码解析(建议精读)

Java你猿哥

Java ssm java8 源码解析

pytest学习和使用1-pytest安装和版本查看

Python 自动化测试 pytest

监控告警处理之tidb_server_critical_error_total

TiDB 社区干货传送门

监控 故障排查/诊断

文盘Rust -- 安全连接 TiDB/Mysql

TiDB 社区干货传送门

开发语言

云数据库TiDB免费试用初体验

TiDB 社区干货传送门

版本测评 安装 & 部署

Dr-autosync TiDB 集群的计划内和计划外切换验证步骤

TiDB 社区干货传送门

实践案例 集群管理 安装 & 部署 数据库架构选型 6.x 实践

OpenAI 推出 gpt-realtime:语音智能体进入“秒回”时代,开发者直呼交互更自然_OpenAI_InfoQ精选文章