50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践 | QCon 北京

  • 2025-03-25
    北京
  • 本文字数:1533 字

    阅读完需:约 5 分钟

大小:839.89K时长:04:46
多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


网易云信音视频技术负责人、流媒体首席架构师吴桐已确认出席并发表题为《多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践》的主题分享。面对行业数据孤岛和交互低效的挑战,企业智能化升级亟需突破传统技术瓶颈。基于此,网易云信提出创新方案,融合声纹、情感、环境音等多维信号,结合大语言模型的动态微调能力,实现个性化对话理解。这种融合方式不仅提升了交互的自然度和准确性,还支持互动、打断和交互识别,显著改善用户体验。此外,通过“ LLM+ASR+TTS ”以及 LLM 实时交互的混合模式,企业能够快速部署符合自身场景的 AI 智能体,这种模式在教育 AI 口语教练、医疗问诊辅助、社交陪聊与助聊、AI 智能客服等多个场景中实现落地应用,展现了强大的跨模态数据协同能力。 本次分享将深入解析这些技术背后的实现原理,探讨从语音对话到智能体对话的技术演进路径,并展望脑机接口、3D 空间音频等前沿技术的发展方向。


吴桐从浙大硕士毕业后加入网易,先后参与网易 UU 网游加速器、易信、云信等项目。现任网易云信音视频技术负责人,全面负责实时音视频、流媒体 AI 处理、AI 数字人、直播、点播、WE-CAN 全球传输网等项目的架构设计与研发。他对音视频、AI 技术在流媒体的应用、高性能服务器以及网络传输等领域均有多年的工作与项目经验。他在本次会议的详细演讲内容如下:


演讲提纲

1. 大模型带来对话交互变革

  • 传统语音系统在语义理解、场景适配、多模态协同的局限性

  • 大模型驱动的多模态能力重构人机交互逻辑

  • 对话式 AI 语音智能体技术的突破与创新

2. 技术引擎:大模型融合的对话式语音 AI 技术架构

  • 多模态语音基座:端到端语音表征学习 + 大语言模型微调框架

  • 动态场景感知:声纹/情感/环境音的多维度信号融合

  • 推理加速:流式语音处理与模型蒸馏的工程优化

  • 语音-语义联合建模:基于 Prompt 的上下文对话理解增强

  • 噪声场景鲁棒性:对抗训练与声学特征解耦技术

  • 个性化交互:用户画像实时嵌入的动态参数微调

3. 场景落地:跨行业应用实践与教训

  • 教育场景:AI 口语教练技术解析与应用

  • 医疗领域:智能问诊辅助系统

  • 社交领域:基于大模型的智能伴聊、助聊

  • 嵌入式场景:对话式 AI 在 IoT 场景的效果优化

4. 未来展望:多模态交互的无限可能

  • 脑机接口与语音 AI 的融合探索

  • 3D 空间音效与 AR 场景的沉浸式交互

  • 对话式 AI 与硬件结合的多种展望


您认为,这样的技术在实践过程中有哪些痛点?

  • 不同大模型、同一大模型在不同场景下的调优问题非常复杂,训练优化问题

  • 对话进程中,AI 对其他人声识别造成的对话中断问题(AI 对话进行打断机制)以及多人对话的选择性识别问题

  • AI 对 Prompt 的理解程度带来的角色塑造和对话问题

  • AI 对话相应的实时性,不同场景下的延迟思考与实时响应的平衡和技术优化问题


演讲亮点

  • 分享对话式语音 AI 智能体的实现逻辑

  • 提供不同行业的应用实践案例

  • 大模型结合语音训练的经验和教训

  • AI 在音视频技术升级上的实践

  • 对话式 AI 在社会公益和社会价值的落地实践


听众收益

  • 了解教育、语聊、社交、客服等不同场景下的 AI 落地经验

  • 了解大模型与对话式 AI 结合的技术细节和实现路径、教训

  • 了解对话式 AI 在硬件领域(AI 玩具)的落地实践


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-25 12:264237

评论

发布
暂无评论

挑战10的1,143,913次方种算法组合:这都不是事儿!

华为云开发者联盟

华为 算法 进化 华为云

前浪出新招,996已过时,互联网员工都开始住公司了!(爆公司信息)

程序员生活志

加班 996 007 互联网公司

第7周总结:性能

慵秋

Netty-物联网设备Channel管理

凸出

Java Netty ConcurrentHashMap 物联网 channel

程序设计理念-CentOs7实践Nginx-带来安装服务的通用法则

图南日晟

nginx 架构设计 环境安装

原生Ingress灰度发布能力不够?我们是这么干的

BoCloud博云

云计算 容器 云原生 PaaS

web 性能压测工具

Z冰红茶

漫画:如何证明sleep不释放锁,而wait释放锁?

王磊

Java Wait Sleep

Kubernetes的拐点助推器:左手开源,右手边缘计算

华为云开发者联盟

Kubernetes 容器 边缘计算 华为云

进击的 Flink:网易云音乐实时数仓建设实践

Apache Flink

flink

API网关——Kong实践分享

BoCloud博云

云计算 容器 PaaS API

架构感悟 7- 性能优化何为

旭东(Frank)

为啥Underlay才是容器网络的最佳落地选择

BoCloud博云

云计算 容器

关于数据库索引的知识点,你所需要了解的都在这儿了

鄙人薛某

MySQL 索引结构 索引 MySQL优化

Self-Compassion,对自己好一点

霍太稳@极客邦科技

创业 个人成长 自我管理 创业心态

Java如何调用Python(二)

wjchenge

BSN北京市区块链主干网正式发布

CECBC

百度大脑OCR技术助力钢铁物流实现智能管理

百度大脑

人工智能 百度大脑 文字识别

BIGO海量小文件存储实践

InfoQ_3597a20b53cc

创新监管首批8个试点应用公示 其中7个涉及区块链

CECBC

超详细讲解网络中的数据链路层~

程序员的时光

PV与UV你的网站也可以

北漂码农有话说

数字货币并不能完美诠释区块链金融

CECBC

区块链技术 社会价值 打通数据孤岛 重建产业信用

Django Models随机获取指定数量数据方法

BigYoung

django 数据 random 随机 Models

随着并发压力的增加,系统响应时间和吞吐量如何变化,为什么?

chenzt

Java如何调用Python(一)

wjchenge

web压力性能测试

周冬辉

压力测试

为什么我们要自主开发一个稳定可靠的容器网络

BoCloud博云

云计算 容器 PaaS fabric

创业使人成长系列 (4)- 常用账号申请

石云升

支付宝 微信商户 商标

【数据结构】Java 常用集合类 ConcurrentHashMap(JDK 1.8)

Alex🐒

Java 源码 数据结构 并发编程

【数据结构】Java 常用集合类 HashMap(JDK 1.8)

Alex🐒

Java 源码 数据结构

多模态对话引擎:从语音表征到 LLM 微调的架构演进和技术实践 | QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章