2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

阶跃星辰语音模型负责人杨学锐确认出席 QCon 上海,分享从语音表征到模型架构的端到端语音模型实践

  • 2025-09-26
    北京
  • 本文字数:1374 字

    阅读完需:约 5 分钟

大小:737.90K时长:04:11
阶跃星辰语音模型负责人杨学锐确认出席QCon上海,分享从语音表征到模型架构的端到端语音模型实践

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


阶跃星辰语音模型负责人杨学锐已确认出席并发表题为端到端语音模型:从语音表征到模型架构的主题分享。在大语言模型(LLM)迅猛发展的时代,语音技术正迎来新一轮变革。本次演讲将系统梳理语音模型从传统架构走向端到端融合的演进路径,深入分析语音表征的不同形式与模型设计的关键思路,涵盖语义与声学 token 的权衡、多尺度解码结构、训练策略等重要议题。同时,将直面实践中诸如数据差异、推理效率、模态对齐等核心挑战,并分享以 Step-Audio2 为代表的先进端到端语音模型在实际部署与落地中的实践经验。无论您是对语音技术前沿感兴趣的研究者,还是关注语音大模型落地应用的工程师,本次演讲都将为您提供有价值的技术洞察与实践参考。


杨学锐,历任阶跃星辰语音模型负责人,大疆创新音频负责人,云从科技语音算法负责人。在相关领域深耕多年,发表论文、专利、书籍若干。他在本次会议的详细演讲内容如下:


演讲提纲

1. 语音技术在 LLM 时代的演进

  • 传统语音模型的发展与局限

  • LLM 时代为语音模型带来的新范式

  • 端到端语音模型的必要性与优势

2. 端到端语音模型关键技术

  • 语音表征

    连续表征 vs 离散表征

    Semantic Token vs Acoustic Token

  • 模型架构

    级联 vs 半端到端 vs 端到端

    Audio Decoder 结构剖析

    文本模态对齐机制

    全双工机制

    外部知识接入和模型规划执行

  • 训练策略:Pretrain → Midtrain → SFT → RL 的全流程优化

3. 如何评估端到端语音模型

  • 音频理解能力评估

  • 语音合成质量评价

  • 对话交互的自然性与一致性


您认为,这样的技术在实践过程中有哪些痛点?

  • 语音数据的采集、处理与合成相较于文本模态更为复杂,质量控制和标注成本高昂

  • 语音 token 率远高于文本,导致序列长度急剧增加,对模型架构设计与推理效率提出严峻挑战

  • 如何在跨模态对齐中兼顾语言理解与情感表达,确保模型兼具“智商”与“情商”,仍是一个开放问题


演讲亮点

  • 以 Step-Audio2 为例,分享 SOTA 端到端语音模型的使用、部署与落地最佳实践

  • 揭秘模型设计背后的一线 know-how


听众收益

  • 深入了解语音 LLM 的前沿技术发展趋势

  • 获得端到端语音模型从理论到实践的系统知识,助力相关研发与应用落地


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可联系票务经理 18514549229 咨询。


2025-09-26 16:155748

评论

发布
暂无评论

三年Crud,一周学会MySQL,助我拿到阿里研发Offer

钟奕礼

程序员 java面试 java编程 #java

CleanMyMac2024值不值的下载安装?

茶色酒

CleanMyMac X CleanMyMac X2023

简单的Apache Airflow(CVE-2022-40127)漏洞复现

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞挖掘

Discourse 本地开发环境时候出现代理错误

HoneyMoose

面试官问对分布式锁进行高并发优化,这样答,成功斩获大厂offer

钟奕礼

Java 程序员 java面试 java编程

在 Istio 服务网格中使用 Argo Rollouts 实现智能的渐进式发布

Se7en

云原生

FLStudio水果2024中文免费版下载

茶色酒

FL Studio FL Studio21

Verilog 表达式

芯动大师

Verilog Verilog语法 Verilog操作符

easyrecovery2024永久免费版数据恢复软件

茶色酒

EasyRecovery15 easyrecovery2023

同事跳槽拿下阿里P6Offer,程序员:会点基础还真不行

钟奕礼

Java 程序员 java面试 java编程

浅谈网络营销从业者如何突破瓶颈期

石头IT视角

CleanMyMacX软件免费版本在哪里下载?

茶色酒

CleanMyMacX

极客时间运维进阶训练营第七周作业

独钓寒江

鸿蒙开发实例|构建轻量级智能穿戴设备用户界面

TiAmo

华为云 鸿蒙开发 12月月更

爱了!阿里巴巴JAVA岗发布,最新内部面试题(含P5-P7)

钟奕礼

Java 程序员 java面试 java编程

四种主流的大数据技术

穿过生命散发芬芳

大数据技术 12月月更

前辈给的Spring Cloud与Docker微服务实战,挽救了要被辞退的我

钟奕礼

Java 程序员 java面试 java编程

Mysql大合集,你要内容的这里全都有

钟奕礼

Java 程序员 java面试 java编程

天天刷 B站,了解他们的评论系统是如何设计的吗?

小小怪下士

Java 程序员 系统设计

SSM框架之Mybatis整合

@下一站

实践 mybatis配置 11月日更 mybatis入门 11月月更

移动端防抓包实践

杨充

深入浅出学习透析 Nginx 服务器的基本原理和配置指南「运维操作实战篇」

码界西柚

nginx web服务器 运维开发 12月日更 12 月 PK 榜

【工具安装】logstash的安装

No8g攻城狮

elastic Logstash ES ELK Stack Elastic Search

Seata分布式事务你懂吗?学习了大佬的笔记,公司说要给我涨薪8K

钟奕礼

Java 程序员 java面试 java编程

阿里巴巴最新推出王者笔记:“Spring MVC源码与实践”

钟奕礼

Java 程序员 java面试 java编程

2022年中国期货行业年度发展观察分析

易观分析

金融 期贷

内卷这么严重!学会这些java核心资料,再也不怕行业内卷了

钟奕礼

Java 程序员 java面试 java编程

线性表→顺序表→链表 逐个击破

C++后台开发

数据结构 linux开发 Linux服务器开发 顺序表 C++开发

CleanMyMac2023mac电脑清理磁盘软件

茶色酒

CleanMyMac CleanMyMacX CleanMyMac X

曲面屏墨水屏显示器!墨水屏手机显示器!北京大上科技发布多款新概念产品

硬科技星球

阶跃星辰语音模型负责人杨学锐确认出席QCon上海,分享从语音表征到模型架构的端到端语音模型实践_AI&大模型_QCon全球软件开发大会_InfoQ精选文章