写点什么

多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践 | QCon 北京

  • 2025-03-25
    北京
  • 本文字数:1533 字

    阅读完需:约 5 分钟

大小:839.89K时长:04:46
多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


网易云信音视频技术负责人、流媒体首席架构师吴桐已确认出席并发表题为《多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践》的主题分享。面对行业数据孤岛和交互低效的挑战,企业智能化升级亟需突破传统技术瓶颈。基于此,网易云信提出创新方案,融合声纹、情感、环境音等多维信号,结合大语言模型的动态微调能力,实现个性化对话理解。这种融合方式不仅提升了交互的自然度和准确性,还支持互动、打断和交互识别,显著改善用户体验。此外,通过“ LLM+ASR+TTS ”以及 LLM 实时交互的混合模式,企业能够快速部署符合自身场景的 AI 智能体,这种模式在教育 AI 口语教练、医疗问诊辅助、社交陪聊与助聊、AI 智能客服等多个场景中实现落地应用,展现了强大的跨模态数据协同能力。 本次分享将深入解析这些技术背后的实现原理,探讨从语音对话到智能体对话的技术演进路径,并展望脑机接口、3D 空间音频等前沿技术的发展方向。


吴桐从浙大硕士毕业后加入网易,先后参与网易 UU 网游加速器、易信、云信等项目。现任网易云信音视频技术负责人,全面负责实时音视频、流媒体 AI 处理、AI 数字人、直播、点播、WE-CAN 全球传输网等项目的架构设计与研发。他对音视频、AI 技术在流媒体的应用、高性能服务器以及网络传输等领域均有多年的工作与项目经验。他在本次会议的详细演讲内容如下:


演讲提纲

1. 大模型带来对话交互变革

  • 传统语音系统在语义理解、场景适配、多模态协同的局限性

  • 大模型驱动的多模态能力重构人机交互逻辑

  • 对话式 AI 语音智能体技术的突破与创新

2. 技术引擎:大模型融合的对话式语音 AI 技术架构

  • 多模态语音基座:端到端语音表征学习 + 大语言模型微调框架

  • 动态场景感知:声纹/情感/环境音的多维度信号融合

  • 推理加速:流式语音处理与模型蒸馏的工程优化

  • 语音-语义联合建模:基于 Prompt 的上下文对话理解增强

  • 噪声场景鲁棒性:对抗训练与声学特征解耦技术

  • 个性化交互:用户画像实时嵌入的动态参数微调

3. 场景落地:跨行业应用实践与教训

  • 教育场景:AI 口语教练技术解析与应用

  • 医疗领域:智能问诊辅助系统

  • 社交领域:基于大模型的智能伴聊、助聊

  • 嵌入式场景:对话式 AI 在 IoT 场景的效果优化

4. 未来展望:多模态交互的无限可能

  • 脑机接口与语音 AI 的融合探索

  • 3D 空间音效与 AR 场景的沉浸式交互

  • 对话式 AI 与硬件结合的多种展望


您认为,这样的技术在实践过程中有哪些痛点?

  • 不同大模型、同一大模型在不同场景下的调优问题非常复杂,训练优化问题

  • 对话进程中,AI 对其他人声识别造成的对话中断问题(AI 对话进行打断机制)以及多人对话的选择性识别问题

  • AI 对 Prompt 的理解程度带来的角色塑造和对话问题

  • AI 对话相应的实时性,不同场景下的延迟思考与实时响应的平衡和技术优化问题


演讲亮点

  • 分享对话式语音 AI 智能体的实现逻辑

  • 提供不同行业的应用实践案例

  • 大模型结合语音训练的经验和教训

  • AI 在音视频技术升级上的实践

  • 对话式 AI 在社会公益和社会价值的落地实践


听众收益

  • 了解教育、语聊、社交、客服等不同场景下的 AI 落地经验

  • 了解大模型与对话式 AI 结合的技术细节和实现路径、教训

  • 了解对话式 AI 在硬件领域(AI 玩具)的落地实践


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-25 12:264107

评论

发布
暂无评论

任务编排:CompletableFuture从入门到精通

Java CompletableFuture

干货好文 | 两地三中心到异地双活演变及关键技术探讨

沃趣科技

MySQL 数据库 opengauss

eBPF的发展演进---从石器时代到成为神(五)

统信软件

操作系统 Linux Kenel

新浪张俊林:大语言模型的涌现能力——现象与解释

NLP资深玩家

从不均匀性角度浅析AB实验 | 京东云技术团队

京东科技开发者

A/B 测试 AB实验 企业号 4 月 PK 榜 不均匀 实验准确度

软件测试/测试开发丨面试题之软素质与反问面试官篇(附答案)

测试人

软件测试 自动化测试 测试开发 测试用例 ChatGPT

Matlab实现PCA算法

Shine

三周年连更

节前超级干货福利放送!这可能是最实用的 Conan 管理依赖贴

Zilliz

非结构化数据 Milvus Zilliz 向量数据库 依赖管理

springboot升级过程中踩坑定位分析记录 | 京东云技术团队

京东科技开发者

spring Spring Boot release 企业号 4 月 PK 榜

如何优雅的使用策略模式

Confidential Containers发布0.5.0版本,龙蜥将基于八大特性构建开箱即用的机密容器解决方案

OpenAnolis小助手

开源 云原生 龙蜥社区 机密计算 机密容器

2023年免费的堡垒机就用行云管家!安全感满满!

行云管家

网络安全 等保 小微企业

浅谈复杂业务系统的架构设计 | 京东云技术团队

京东科技开发者

架构 DDD 架构设计 企业号 4 月 PK 榜 复杂系统

GitHub经典教材!阿里P8的这份SpringBoot精髓到底厉害在哪里?

Java spring 微服务 Spring Boot 框架

Matlab实现神经网络

袁袁袁袁满

三周年连更

政务智能办体验升级、乳腺癌创新药加速研发,飞桨和文心大模型驱动应用智能涌现

飞桨PaddlePaddle

百度飞桨

TiSpark v3.0.3 & v3.1.3 发布

TiDB 社区干货传送门

新版本/特性解读

ShareSDK 新浪微博平台注册指南

MobTech袤博科技

软件测试/测试开发丨利用ChatGPT自动生成测试用例思维导图

测试人

软件测试 自动化测试 测试开发 测试用例 ChatGPT

TiDB x Flink x Iceberg 实时 ODS 实践

TiDB 社区干货传送门

你不想成长,生活总会逼着你成长,阿里P8架构师分享十年学习生涯

程序知音

Java redis spring java架构 后端技术

长春市做等保评测的公司有几家?名单有哪些?

行云管家

等保 等保测评 长春

中移链控制台对接4A平台功能验证介绍

BSN研习社

BSN-DDC基础网络详解(十):官方DDC应用SDK

BSN研习社

全球首个开发者村启动开村,产业聚力松山湖,共创大湾区创新高地

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 4 月 PK 榜

5月7日【飞天Club × 云原生技术实践营—飞天免费计划实践专场】开启报名

阿里巴巴云原生

阿里云 云原生 飞天Club

GitHub下载已过百万!阿里这份Java虚拟机源码剖析手册真的绝了

Java JVM 虚拟机

深度学习模型可视化-keras版

AIWeker

Python 深度学习 可视化 keras 三周年连更

多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践 | QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章