写点什么

多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践 | QCon 北京

  • 2025-03-25
    北京
  • 本文字数:1533 字

    阅读完需:约 5 分钟

大小:839.89K时长:04:46
多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


网易云信音视频技术负责人、流媒体首席架构师吴桐已确认出席并发表题为《多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践》的主题分享。面对行业数据孤岛和交互低效的挑战,企业智能化升级亟需突破传统技术瓶颈。基于此,网易云信提出创新方案,融合声纹、情感、环境音等多维信号,结合大语言模型的动态微调能力,实现个性化对话理解。这种融合方式不仅提升了交互的自然度和准确性,还支持互动、打断和交互识别,显著改善用户体验。此外,通过“ LLM+ASR+TTS ”以及 LLM 实时交互的混合模式,企业能够快速部署符合自身场景的 AI 智能体,这种模式在教育 AI 口语教练、医疗问诊辅助、社交陪聊与助聊、AI 智能客服等多个场景中实现落地应用,展现了强大的跨模态数据协同能力。 本次分享将深入解析这些技术背后的实现原理,探讨从语音对话到智能体对话的技术演进路径,并展望脑机接口、3D 空间音频等前沿技术的发展方向。


吴桐从浙大硕士毕业后加入网易,先后参与网易 UU 网游加速器、易信、云信等项目。现任网易云信音视频技术负责人,全面负责实时音视频、流媒体 AI 处理、AI 数字人、直播、点播、WE-CAN 全球传输网等项目的架构设计与研发。他对音视频、AI 技术在流媒体的应用、高性能服务器以及网络传输等领域均有多年的工作与项目经验。他在本次会议的详细演讲内容如下:


演讲提纲

1. 大模型带来对话交互变革

  • 传统语音系统在语义理解、场景适配、多模态协同的局限性

  • 大模型驱动的多模态能力重构人机交互逻辑

  • 对话式 AI 语音智能体技术的突破与创新

2. 技术引擎:大模型融合的对话式语音 AI 技术架构

  • 多模态语音基座:端到端语音表征学习 + 大语言模型微调框架

  • 动态场景感知:声纹/情感/环境音的多维度信号融合

  • 推理加速:流式语音处理与模型蒸馏的工程优化

  • 语音-语义联合建模:基于 Prompt 的上下文对话理解增强

  • 噪声场景鲁棒性:对抗训练与声学特征解耦技术

  • 个性化交互:用户画像实时嵌入的动态参数微调

3. 场景落地:跨行业应用实践与教训

  • 教育场景:AI 口语教练技术解析与应用

  • 医疗领域:智能问诊辅助系统

  • 社交领域:基于大模型的智能伴聊、助聊

  • 嵌入式场景:对话式 AI 在 IoT 场景的效果优化

4. 未来展望:多模态交互的无限可能

  • 脑机接口与语音 AI 的融合探索

  • 3D 空间音效与 AR 场景的沉浸式交互

  • 对话式 AI 与硬件结合的多种展望


您认为,这样的技术在实践过程中有哪些痛点?

  • 不同大模型、同一大模型在不同场景下的调优问题非常复杂,训练优化问题

  • 对话进程中,AI 对其他人声识别造成的对话中断问题(AI 对话进行打断机制)以及多人对话的选择性识别问题

  • AI 对 Prompt 的理解程度带来的角色塑造和对话问题

  • AI 对话相应的实时性,不同场景下的延迟思考与实时响应的平衡和技术优化问题


演讲亮点

  • 分享对话式语音 AI 智能体的实现逻辑

  • 提供不同行业的应用实践案例

  • 大模型结合语音训练的经验和教训

  • AI 在音视频技术升级上的实践

  • 对话式 AI 在社会公益和社会价值的落地实践


听众收益

  • 了解教育、语聊、社交、客服等不同场景下的 AI 落地经验

  • 了解大模型与对话式 AI 结合的技术细节和实现路径、教训

  • 了解对话式 AI 在硬件领域(AI 玩具)的落地实践


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-25 12:263885

评论

发布
暂无评论

medo 支付系统架构设计

陈皮

艺术家们手握“飞桨” 划出金秋UCCA最值得一看的AI艺术展

脑极体

第二周 框架设计 学习总结

应鹏

学习 极客大学架构师训练营

第二周总结

_

极客大学架构师训练营 第二周总结

第二周课后练习 - 作业 2

致星海

架构第二周课后练习

Geek_Gu

极客大学架构师训练营

架构师训练营1期3班-袭望-第二周

袭望

训练营-第二周-作业一

行者

第二周学习总结

alpha

极客大学架构师训练营

第二周课后练习-作业1

致星海

week02 题目

xxx

作业二:第二周学习总结

静海

第二周总结

架构师训练营Week02作业

IT老兵重开始

极客大学架构师训练营

架构一期二班 - 吴水金 - 第二课总结

吴水金

week02总结

xxx

问题集锦:DBType not support : null

互联网应用架构

mybaitsplus

第二周作业

kevin

面向对象编程与软件设计原则

zero2onemore

架构师训练营作业:第二周

m

架构师训练营第一期 - 第二周学习总结

卖猪肉的大叔

训练营-第二周-作业二

行者

架构训练营第二周学习总结

灰羽零

第二周作业

Week_02

golangboy

一篇搞定前端高频手撕算法题(36道)

执鸢者

面试 算法 大前端

架构师训练营第一期第2周作业及总结

木头发芽

逆序局部链表、Paxos算法原理、架构师发现问题所在 John 易筋 ARTS 打卡 Week 19

John(易筋)

ARTS 打卡计划 发现问题的真正所在 逆序局部链表

【FastDFS】面试官:如何实现文件的大规模分布式存储?(全程实战)

冰河

高并发 高性能 分布式存储 fastdfs 海量存储

架构师训练营第 1 期 -Week2 - 框架设计学习总结

鲁大江

极客大学架构师训练营 面向对象设计原则 框架设计

Spring 5 中文解析数据存储篇-JDBC数据存储(中)

青年IT男

Spring5

多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践 | QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章