仅三步，开启DeepSeek语音畅聊模式！ - InfoQ

企业动态
行业深度
AI&大模型
出海
后端
芯片&算力
架构
大数据
软件工程
云计算
大前端
管理/文化

火山方舟已上线 DeepSeek，扣子也同步推出了满血版 DeepSeek 全家桶，并独家支持 DeepSeek Function Calling 能力。在此基础上，火山引擎 RTC 实现了 DeepSeek 实时语音对话功能，让用户从只能「打字」跨越到「语音聊天」，不限设备或网络如何，都能轻松实现。

火山引擎 RTC「实时对话 AI」技术，让 AI 交流顺畅自如：

极速响应：端到端响应延时可低至 1 秒，告别 "空气突然安静" 的等待尴尬。

弱网畅聊：电梯、高铁车厢等弱网环境下，AI 对答如流、不卡顿。

智能打断：再也不用等 AI 念完小作文才能说话！毫秒级人声检测和打断响应，随时插话切换话题。

屏蔽干扰：AI 降噪自动屏蔽生活环境中的噪声和人声干扰，精准识别对话人声。

上火山引擎或扣子搭建，几分钟就实现与 DeepSeek 语音聊天。

仅需两步，快速体验与 DeepSeek 实时对话

👉 第一步：准备工作，开通产品

前往火山引擎实时音视频控制台，在首页新手指引中选择「实时对话式 AI Demo」。按照指引，开通配置火山引擎语音识别（ASR）、语音合成（TTS）以及火山方舟上的大模型（LLM）等服务。

*火山引擎实时音视频控制台：https://console.volcengine.com/auth/login?redirectURI=%2Frtc%2Fguide%3F

在实时音视频控制台选择 Demo

按引导配置 ASR、TTS 以及 LLM

👉 第二步：加入房间，邀请智能体进入

用户进入 RTC 房间后，选择调用智能体，按业务需求选择适合的语音识别、语音合成以及大模型（如 DeepSeek-V3），进行组合配置，即可与智能体进行实时音视频通话。

用户加入 RTC 房间

配置智能体

语音生成大模型支持丰富的音色选择，体验语音识别、语音生成大模型要先进行企业认证。

AI 语音交互

视觉理解能力

如果想体验「语音交互」叠加「视觉理解能力」，可选择豆包的多模态大模型-Doubao-vision。

在业务场景落地到应用还想更进一步？

方案支持智能打断功能，用户可以选择打断模式和打断敏感度调节等，同时，智能体支持配置 Function Calling 和长期记忆等功能。

点击即可快速体验

使用扣子，轻松搭建语音智能体

👉 第一步：前提准备

开通扣子，即可支持语音和实时通话 API。

👉 第二步：扣子平台创建智能体

创建智能体（如语音 AI Agent），选择所需的模型，比如 DeepSeek-V3，用户可一键选择，并编写优化人设与回复逻辑。调试好所有内容后，发布自己专属智能体，选择发布平台需同步选择 API。

创建智能体

选择所需的模型

编写人设与回复逻辑

发布自己专属智能体

👉 第三步：填写配置，体验实时 SDK

在扣子 API 中选择 Real-time Chat SDK，选择此前创建好的智能体（如语音 AI Agent），可选择不同音色与降噪设置，确认后即可体验。

填写配置

开启麦克风后和扣子智能体开始语音通话，页面中会实时展示对话的消息记录、触发的事件列表，用户也可以直接手动输入一条消息发送给智能体。

详细接入，可查看扣子智能语音文档：https://www.coze.cn/open/docs/guides/realtime_overview

实时对话式 AI 方案支持灵活部署于软件与硬件终端，诚邀行业伙伴携手探索，解锁更多「AI+音视频互动」场景。