写点什么

OpenAI 推出 gpt-realtime:语音智能体进入“秒回”时代,开发者直呼交互更自然

作者: Hien Luu

  • 2025-09-14
    北京
  • 本文字数:1214 字

    阅读完需:约 4 分钟

大小:617.04K时长:03:30
OpenAI 推出 gpt-realtime:语音智能体进入“秒回”时代,开发者直呼交互更自然

OpenAI 正式发布了 gpt-realtime,这是一款代表当前 OpenAI 最新研发成果的语音对语音模型,同时 Realtime API 也全面开放。此次更新旨在降低延迟、提升语音质量,并为开发者提供更强大的工具,例如支持 MCP 服务器、图像输入以及基于 SIP 的电话呼叫,从而打造真正可投入生产环境的 AI 语音智能体。


Realtime API 与 gpt-realtime 的结合,能够在单一系统内完成端到端语音处理,而无需再将语音转文本与文本转语音模型分开串联。这种架构显著缩短了响应时间,并能保留语音表达中的细微差别,这对于实时语音交互至关重要,因为哪怕几百毫秒的延迟都可能破坏对话的流畅性。


gpt-realtime 经过训练,可以生成更高质量的语音,语速与语调更加自然,同时在语气风格的指令执行上表现稳定,例如“以同理心语气说话”或“使用专业语气”。此次还新增了两个合成声音 Cedar 和 Marin,并对现有声音进行了更新,使之更加逼真。


gpt-realtime 在理解能力方面也有显著进步。模型能够识别非语言信号,在一句话中实现多语言切换,并且对跨语言的字母数字序列(如电话号码、车辆识别码等)处理更加准确,支持西班牙语、中文、日语和法语等多种语言。内部测试结果显示,gpt-realtime 在 Big Bench Audio 上的准确率达到 82.8%,相比上一代模型的 65.6% 有显著提升。在遵循指令方面,MultiChallenge 音频基准测试的得分也从 20.6% 提升至 30.5%。


函数调用能力同样得到增强。新模型在识别相关函数、在合适时机调用并传递正确参数方面表现更佳。在 ComplexFuncBench 上,准确率从 49.7% 提升至 66.5%。此外,系统还新增了异步函数调用功能,使语音智能体在等待结果期间能够继续对话,这一特性在客户服务和交易类场景中具有重要应用价值。


Realtime API 也迎来全面升级,更符合生产级需求。开发者现在可以将远程 MCP 服务器直接接入会话,避免手动集成的繁琐操作。API 还支持图像输入,使应用能够基于视觉内容(如截图或照片)进行对话。SIP 支持则让语音智能体能无缝接入现有电话系统,包括 PBX 和桌面电话。可复用提示功能简化了会话管理,而全面的欧盟数据存储支持则满足欧洲部署中的合规要求。


根据发布说明,早期企业合作伙伴已在接近生产环境的场景中测试这些功能。Zillow 已启动语音交互式房产搜索的试点项目,而 T-Mobile 则探索在客户服务中应用实时响应的场景。两家公司都强调,AI 语音智能体正推动交互方式从传统的脚本化自动化,向更灵活、更具领域专长的方向转变。


OpenAI 还进一步强化了部署安全措施。Realtime API 内置分类器,可以中止有害对话,开发者也能通过 Agents SDK 添加特定领域的安全约束。此外,Realtime API 的预设声音有助于降低冒充风险。

目前,gpt-realtime 模型与 Realtime API 已全面开放,所有开发者均可使用。开发者可查阅 Realtime API 文档提示指南快速上手,并在 Playground 中体验全新的 gpt-realtime 演示版本。


原文链接:

https://www.infoq.com/news/2025/09/openai-gpt-realtime/

2025-09-14 17:404389

评论

发布
暂无评论

保洁阿姨分享:腾讯架构师JDK源码笔记,13万字,带你飙向实战

Java架构师迁哥

字节取消“大小周”,管理者与员工的“灵魂争夺战"从未停歇

神来之笔,2021CTF内核漏洞精选解析

网络安全学海

网络安全 信息安全 CTF 安全漏洞 渗透测试·

攒塑料袋,究竟是如何刻进中国人DNA的?

脑极体

拥抱云原生,腾讯发布TCSS容器安全服务!

腾讯安全云鼎实验室

容器 云原生

Ta想做一粒智慧的种子

脑极体

物联网安全难题还需行业标杆来解

熵核科技

物联网安全

没想到我也可以入职阿里!二本毕业、两年crud经验,侥幸通过面试定级P6

Java架构师迁哥

再谈BOM和DOM(1):BOM与DOM概述

zhoulujun

JavaScript DOM BOM 对象模型 文档模型

【redis前传】自己手写一个LRU策略

zxhtom

Java redis 原理 造轮子 jdk运用

hadoop 1.0 和 hadoop 2.0 的区别

五分钟学大数据

hadoop 7月日更

熵核科技,自主研发虚拟机赋能安全操作系统

熵核科技

支付安全 安全操作系统 物联网安全 eSIM安全

fil矿机怎么选择?用什么fil矿机比较好?

FIL矿机怎么买 fil挖矿

JVM锁bug导致G1 GC挂起问题分析和解决

毕昇JDK社区

医美行业哪个环节最赚钱?

石云升

行业分析 7月日更

重温历史 致敬百年 “复兴大道100号”线上VR展馆正式开馆

百度大脑

百度 虚拟现实

火爆 GitHub!这个图像分割神器开源了

百度大脑

百度 算法

7.24 杭州站 | 阿里云 Serverless Developer Meetup 开放报名!

Serverless Devs

云计算 阿里云 Serverless 云原生

Vue进阶(幺叁捌):vue路由传参的几种基本方式

No Silver Bullet

Vue 路由 7月日更

再谈BOM和DOM(3):DOM节点操作-元素样式修改及DOM内容增删改查

zhoulujun

DOM BOM 文档对象 DOM结点操作 DOM增删改查

我乃平常客,本持平常心| 2021 年中总结

编程三昧

程序人生 大前端 代码人生

架构实战营1期第二模块作业

五只羊

架构实战营

再谈BOM和DOM(5):各个大流浪器DOM和BOM里面的那些坑—兼容性

zhoulujun

DOM事件兼容性

5分钟速读之Rust权威指南(四十一)高级类型

wzx

rust

再谈BOM和DOM(4):DOM0/DOM2事件处理分析

zhoulujun

DOM DOM事件 DOM0 DOM2

算法大赛报名 | OMG!这些名企的真实数据竟用来battle

工赋开发者社区

算法 工业互联网

性能测试软启动初探

FunTester

性能测试 接口测试 测试框架 压力测试 测试开发

再谈BOM和DOM(2):DOM节点层次/属性/选择器/节点关系/操作详解

zhoulujun

JavaScript DOM BOM 对象模型 文档模型

数据仓库的基本概念

大数据技术指南

7月日更

三年开发经验,字节跳动抖音组离职后,一口气拿到15家公司Offer

Java架构师迁哥

架构实战营模块八作业

竹林七贤

OpenAI 推出 gpt-realtime:语音智能体进入“秒回”时代,开发者直呼交互更自然_OpenAI_InfoQ精选文章