写点什么

火山引擎 RTC 联合乐鑫、移远:智能硬件注入“豆包”,“模”力升级

  • 2025-01-22
    北京
  • 本文字数:1871 字

    阅读完需:约 6 分钟

大小:961.39K时长:05:28
火山引擎RTC联合乐鑫、移远:智能硬件注入“豆包”,“模”力升级

在大模型时代,硬件设备正以前所未有的速度智能化升级,成为人工智能领域成长最快的赛道之一。在 2025 年的国际消费电子展(CES)上,我们看到“万物皆可 AI”的景象,而实时音视频也成为了用户与 AI 硬件重要的交互方式。


例如,陪伴类机器人如智能儿童玩具、AI 宠物,用户可以与它们进行聊天,进行问答、倾诉或求夸夸。同时,这些机器人还能通过设备上的摄像头和视觉传感器,智能识别用户表情、动作以及周围物品和环境,从而提供更加丰富和贴心的互动反馈。此外,智能家居、教育硬件以及智能穿戴设备等产品也在不断迭代升级,AI 与硬件的结合正逐渐渗透到我们生活的方方面面,提升生活的便捷性。


图片来自 MIXI、URTOPIA、Enchanted Tools、ElliQ、ThinkAR 官网


大模型与应用发展迅速的当下,机遇与挑战同在,初涉大模型和硬件结合的厂商,想要在硬件设备中加入自然流畅的 AI 实时语音功能,可能会面临到一些挑战,例如:


技术复杂变化快,研发成本高:厂商如果选择自行搭建音视频传输和编排语音大模型组件,还须依据硬件芯片特性开展深度优化调试工作,整体投入大。而且,多模态融合正成为交互趋势,研发工作的复杂程度也会进一步增加。


3-5s 的反馈,响应延迟优化棘手:随着硬件设备加速智能化,用户对语音交互的实时性和准确性有了更高的期待。然而,许多厂商在初步集成 AI 实时语音功能时,常常面临 3 到 5 秒的整体响应延迟。特别是在网络条件不佳(如信号弱或网速慢)的环境中,这种延迟可能会进一步延长,并且可能导致关键信息的丢失,严重影响 AI 反馈内容的质量。


交流像用“对讲机”,交互体验有待提升:市面上大多初代智能硬件的对话功能还不够成熟,用户在与 AI 互动时,需要持续按键输入,与人们日常生活中随时随地自然交流的习惯相去甚远,体验生硬如用“对讲机”。此外,AI 返回内容若不符合预期或过长,用户无法实时打断,缺乏灵活性,难以满足用户对智能硬件的期待和需求。


> 一站式 Turnkey 解决方案,功能全面快速接入


火山引擎视频云 RTC 联合乐鑫、移远等物联网芯片制造商、解决方案供应商,推出「实时对话式 AI 嵌入式硬件」解决方案。硬件设备通过方案的 AI 语音交互框架即可无缝对接火山引擎 RTC 的实时通信能力和云端智能体服务,实现与豆包大模型超低时延、流畅的交互。


在端侧,芯片集成了先进的音频处理技术,包括自动唤醒功能和音频 3A 等,以提升音频输入的清晰度。同时,火山引擎 RTC 提供音视频传输,并具备抗弱网特性,以及智能体管理功能,确保设备即使在网络条件不佳的情况下也能稳定通话。在云端,智能体服务则可提供 Function calling 和知识库支持,使得硬件设备能够提供个性化服务和智能决策,满足用户的深层次需求。

实时对话式 AI 嵌入式硬件方案架构


现在,实时对话式 AI 嵌入式硬件解决方案已开源,无需复杂的开发流程和适配兼容,即可快速高效地为硬件设备加入 AI 实时语音功能,一天内即可完成集成跑通。


方案接入流程


以乐鑫(ESP32-S3)为例,开源嵌入式硬件解决方案 Demo:

https://www.volcengine.com/docs/6348/1438400


 > 升级 AI 互动体验,向精品“爆款”迈进


在智能硬件市场竞争日趋激烈的当下,企业要想打造一款能够在市场上脱颖而出的爆款产品,除了产品设计要满足用户需求外,优质的用户交互体验也成为产品成功的关键。「实时对话式 AI 嵌入式硬件」解决方案致力于优化 AI 语音通话体验,让用户拥有流畅、自然、真实的 AI 互动。

实时响应,低时延体验

针对硬件场景,在保持极低功耗的同时,实现端到端响应延时可低至 1 秒,为用户提供实时的互动体验,让沟通更加丝滑。

稳定流畅,抗弱网能力

火山引擎 RTC 基于全球部署的实时传输网络,保障用户最后一公里的接入体验,即使在网络条件不佳,如丢包率高达 80%的情况下,可保证通话稳定,并且语义信息的完整传输,不丢失任何重要内容。

交互自然,智能打断

用户无需通过按键或其他输入方式,即可享受自然流畅的双向通话体验。毫秒级人声检测和打断响应,支持随时精准打断,让交流更加灵活。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00

    ToyCity(粑老师 IP)采用一站式方案实现 AI 语音通话


    在 2024 年火山引擎冬季 FORCE 原动力大会上,火山引擎视频云携手乐鑫科技、ToyCity、FoloToy 和魂伴科技,共同推出了创新的“硬件+对话式 AI 智跃计划”,一起见证 AI+硬件加速融合。当前「实时对话式 AI 嵌入式硬件」解决方案已成功应用于 IP 玩具、AI 机器人、智能家电等诸多硬件品类,为 IP 玩具注入数字生命(如视频演示),让 AI 机器人交互更加丰富生动,使智能家电因个性化服务而更具吸引力。


    随着 AIoT 市场和大模型的不断扩展,各类硬件的感知和智能水平将实现空前提升。我们期望与众多芯片制造商及智能硬件合作伙伴携手,共同推动硬件智能化的快速发展,让智能硬件不仅仅是工具,更是理解、陪伴我们的生活伙伴。

    2025-01-22 17:029151

    评论

    发布
    暂无评论

    90分钟10个手写案例,从源码底层给你讲解7种线程池创建方式

    小Q

    学习 源码 架构 面试 多线程

    如何让组织文化不在虚无?

    Alan

    团队管理 个人提升 文化 28天写作

    生产环境全链路压测建设历程13:淘宝网稳定性近十年发展历程 2009年-2019年

    数列科技杨德华

    全链路压测 七日更

    架构2期第八周作业(1)

    浮生一梦

    极客大学架构师训练营 2组 第八周作业

    点燃“云+AI”的烽火,照亮网络安全的月之暗面

    脑极体

    JVM垃圾回收性能分析

    积极&丧

    架构师训练营第十三周作业

    月殇

    极客大学架构师训练营

    Eureka 架构原理及其源码分析

    Fox爱分享

    Spring Cloud Eureka

    极客大学架构师训练营 - 同城快递业务架构设计

    好吃不贵

    极客大学架构师训练营

    “九章”问世,量子计算将如何影响区块链技术?

    CECBC

    量子计算机

    滴滴开源Super-jacoco:java代码覆盖率收集平台

    滴滴技术

    Java 开源 滴滴开源 Super-Jacoco

    请回答2020:芯片巨头并购潮究竟意味着什么?

    脑极体

    太赞了!2021疫情期间八家大厂的Android面试经历和真题整理,值得收藏!

    欢喜学安卓

    android 程序员 面试 移动开发

    elasticsearch打怪升级之基础篇

    泽睿

    ES

    沪上首座“区块链生态谷”揭开面纱!

    CECBC

    大数据 生态产业

    第四周命题作业

    cc

    第四周学习心得

    cc

    微服务架构及其技术栈

    Fox爱分享

    微服务 Spring Cloud spring cloud alibaba

    算法爱好者福利—拓扑排序的简介及实现

    比伯

    Java 编程 架构 程序人生 算法

    世界之书:《人类简史》与想象中的共同体

    lidaobing

    28天写作

    盘点2020 | 寒门难出贵子,我当程序员让爸妈在老家长脸了

    爱笑的架构师

    Java 程序员 程序人生 编程之路 盘点2020

    【得物技术】基于配置的通用化动态报表平台设计与使用

    得物技术

    设计 动态 报表 平台 通用化

    工作多年还是只会用wait和notify?30分钟用案例告诉你有更好得选择

    小Q

    Java 学习 编程 架构 面试

    算法太TM重要了!实战讲述Flutter跨平台框架应用,3面直接拿到offer

    欢喜学安卓

    android 程序员 面试 移动开发

    冰河,能不能讲讲如何实现MySQL数据存储的无限扩容?

    冰河

    MySQL 分布式存储 海量数据 mycat 可扩展

    我不喜欢挫折教育

    熊斌

    成长 自我思考 自我独白 个体成长

    详解C/C++协程实现原理及使用

    赖猫

    c++ 协程

    牛啤了!字节跳动Java岗面试官把内部面试题(含答案)泄露了,明年金三银四有望了

    面试 算法 架构师

    太牛了!在字节跳动我是如何当面试官的,Android篇

    欢喜学安卓

    android 程序员 面试 移动开发

    阿里技术分享:电商IM消息平台,在群聊、直播场景下的技术实践

    JackJiang

    即时通讯 IM 群聊

    朱嘉明:产业周期、科技周期与金融周期的失衡

    CECBC

    金融 科技

    火山引擎RTC联合乐鑫、移远:智能硬件注入“豆包”,“模”力升级_字节跳动_火山引擎视频云_InfoQ精选文章