大厂Data+Agent 秘籍:腾讯/阿里/字节解析如何提升数据分析智能。 了解详情
写点什么

多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践 | QCon 北京

  • 2025-03-25
    北京
  • 本文字数:1533 字

    阅读完需:约 5 分钟

大小:839.89K时长:04:46
多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


网易云信音视频技术负责人、流媒体首席架构师吴桐已确认出席并发表题为《多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践》的主题分享。面对行业数据孤岛和交互低效的挑战,企业智能化升级亟需突破传统技术瓶颈。基于此,网易云信提出创新方案,融合声纹、情感、环境音等多维信号,结合大语言模型的动态微调能力,实现个性化对话理解。这种融合方式不仅提升了交互的自然度和准确性,还支持互动、打断和交互识别,显著改善用户体验。此外,通过“ LLM+ASR+TTS ”以及 LLM 实时交互的混合模式,企业能够快速部署符合自身场景的 AI 智能体,这种模式在教育 AI 口语教练、医疗问诊辅助、社交陪聊与助聊、AI 智能客服等多个场景中实现落地应用,展现了强大的跨模态数据协同能力。 本次分享将深入解析这些技术背后的实现原理,探讨从语音对话到智能体对话的技术演进路径,并展望脑机接口、3D 空间音频等前沿技术的发展方向。


吴桐从浙大硕士毕业后加入网易,先后参与网易 UU 网游加速器、易信、云信等项目。现任网易云信音视频技术负责人,全面负责实时音视频、流媒体 AI 处理、AI 数字人、直播、点播、WE-CAN 全球传输网等项目的架构设计与研发。他对音视频、AI 技术在流媒体的应用、高性能服务器以及网络传输等领域均有多年的工作与项目经验。他在本次会议的详细演讲内容如下:


演讲提纲

1. 大模型带来对话交互变革

  • 传统语音系统在语义理解、场景适配、多模态协同的局限性

  • 大模型驱动的多模态能力重构人机交互逻辑

  • 对话式 AI 语音智能体技术的突破与创新

2. 技术引擎:大模型融合的对话式语音 AI 技术架构

  • 多模态语音基座:端到端语音表征学习 + 大语言模型微调框架

  • 动态场景感知:声纹/情感/环境音的多维度信号融合

  • 推理加速:流式语音处理与模型蒸馏的工程优化

  • 语音-语义联合建模:基于 Prompt 的上下文对话理解增强

  • 噪声场景鲁棒性:对抗训练与声学特征解耦技术

  • 个性化交互:用户画像实时嵌入的动态参数微调

3. 场景落地:跨行业应用实践与教训

  • 教育场景:AI 口语教练技术解析与应用

  • 医疗领域:智能问诊辅助系统

  • 社交领域:基于大模型的智能伴聊、助聊

  • 嵌入式场景:对话式 AI 在 IoT 场景的效果优化

4. 未来展望:多模态交互的无限可能

  • 脑机接口与语音 AI 的融合探索

  • 3D 空间音效与 AR 场景的沉浸式交互

  • 对话式 AI 与硬件结合的多种展望


您认为,这样的技术在实践过程中有哪些痛点?

  • 不同大模型、同一大模型在不同场景下的调优问题非常复杂,训练优化问题

  • 对话进程中,AI 对其他人声识别造成的对话中断问题(AI 对话进行打断机制)以及多人对话的选择性识别问题

  • AI 对 Prompt 的理解程度带来的角色塑造和对话问题

  • AI 对话相应的实时性,不同场景下的延迟思考与实时响应的平衡和技术优化问题


演讲亮点

  • 分享对话式语音 AI 智能体的实现逻辑

  • 提供不同行业的应用实践案例

  • 大模型结合语音训练的经验和教训

  • AI 在音视频技术升级上的实践

  • 对话式 AI 在社会公益和社会价值的落地实践


听众收益

  • 了解教育、语聊、社交、客服等不同场景下的 AI 落地经验

  • 了解大模型与对话式 AI 结合的技术细节和实现路径、教训

  • 了解对话式 AI 在硬件领域(AI 玩具)的落地实践


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-25 12:263980

评论

发布
暂无评论

Adobe Camera Raw(PS插件增强工具) Mac/win

Rose

TinyEngine 服务端正式开源啦!!!

OpenTiny社区

开源 前端 低代码

喜讯!九章云极DataCanvas公司顺利通过ITSS运维二级认证

九章云极DataCanvas

ExecutorCompletionService详解

Java随想录

Java 线程 线程池 并发

前端开发Vue3的逻辑复用

伤感汤姆布利柏

开源 Vue 前端 低代码

如何使用Redisson实现分布式锁?

王磊

Java 面试题

炫酷鼠标悬停随机渐变文本动画效果

南城FE

CSS 前端 css动画

HTTPS可能遇到的安全问题

德迅云安全杨德俊

安全 网站 中间人攻击 HTTPS协议

神经元科技发布AI Agents—“萨蔓莎”

科技热闻

MES系统中的电子看板:真正实现数字化车间可视化

万界星空科技

MES系统 mes 数据大屏 万界星空科技mes 电子看板

【积微成著】性能测试调优实战与探索(存储模型优化+调用链路分析)| 京东物流技术团队

京东科技开发者

流行的机器学习算法——线性回归

小齐写代码

文心一言 VS 讯飞星火 VS chatgpt (170)-- 算法导论13.2 3题

福大大架构师每日一题

福大大架构师每日一题

简单清晰的Redis C++客户端

王玉川

c++ redis 开源 发布订阅 流水线

AE镜头光晕插件 optical flares mac破解版 附许可文件

Rose

vivo 数据库备份恢复系统演化

vivo互联网技术

数据库备份和恢复

思维导图、头脑风暴:MindNode for mac完整中文破解版

Rose

mac思维导图软件 MindNode 5 MindNode破解版下载 MindNode for mac

Rectangle Pro for Mac(原Hookshot光标快速移动和管理窗口的工具)

Rose

Rectangle Pro for Mac mac窗口管理工具 Hookshot光标

Adobe Audition(Au)如何扫描 VST3、VST 和 Audio Units 增效工具?

Rose

企业如何通过SD-WAN实现异地组网互联?

Geek一起出海

九章云极DataCanvas公司两大标杆案例入选《2023大模型落地应用案例集》

九章云极DataCanvas

“专业敏捷教练课程” 2024年3月2-3日 · CSP-SM认证周末班【新年特惠】

ShineScrum

敏捷教练 CSP-SM Profession

U盘病毒查杀工具:USBclean for Mac v3.8激活版

胖墩儿不胖y

Mac软件 清洁工具 USB清洁软件

PS人像磨皮美容插件Delicious Retouch Panel (DR5)高级版(Win/Mac)

Rose

多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践 | QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章