50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

阶跃星辰语音模型负责人杨学锐确认出席 QCon 上海,分享从语音表征到模型架构的端到端语音模型实践

  • 2025-09-26
    北京
  • 本文字数:1374 字

    阅读完需:约 5 分钟

大小:737.90K时长:04:11
阶跃星辰语音模型负责人杨学锐确认出席QCon上海,分享从语音表征到模型架构的端到端语音模型实践

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


阶跃星辰语音模型负责人杨学锐已确认出席并发表题为端到端语音模型:从语音表征到模型架构的主题分享。在大语言模型(LLM)迅猛发展的时代,语音技术正迎来新一轮变革。本次演讲将系统梳理语音模型从传统架构走向端到端融合的演进路径,深入分析语音表征的不同形式与模型设计的关键思路,涵盖语义与声学 token 的权衡、多尺度解码结构、训练策略等重要议题。同时,将直面实践中诸如数据差异、推理效率、模态对齐等核心挑战,并分享以 Step-Audio2 为代表的先进端到端语音模型在实际部署与落地中的实践经验。无论您是对语音技术前沿感兴趣的研究者,还是关注语音大模型落地应用的工程师,本次演讲都将为您提供有价值的技术洞察与实践参考。


杨学锐,历任阶跃星辰语音模型负责人,大疆创新音频负责人,云从科技语音算法负责人。在相关领域深耕多年,发表论文、专利、书籍若干。他在本次会议的详细演讲内容如下:


演讲提纲

1. 语音技术在 LLM 时代的演进

  • 传统语音模型的发展与局限

  • LLM 时代为语音模型带来的新范式

  • 端到端语音模型的必要性与优势

2. 端到端语音模型关键技术

  • 语音表征

    连续表征 vs 离散表征

    Semantic Token vs Acoustic Token

  • 模型架构

    级联 vs 半端到端 vs 端到端

    Audio Decoder 结构剖析

    文本模态对齐机制

    全双工机制

    外部知识接入和模型规划执行

  • 训练策略:Pretrain → Midtrain → SFT → RL 的全流程优化

3. 如何评估端到端语音模型

  • 音频理解能力评估

  • 语音合成质量评价

  • 对话交互的自然性与一致性


您认为,这样的技术在实践过程中有哪些痛点?

  • 语音数据的采集、处理与合成相较于文本模态更为复杂,质量控制和标注成本高昂

  • 语音 token 率远高于文本,导致序列长度急剧增加,对模型架构设计与推理效率提出严峻挑战

  • 如何在跨模态对齐中兼顾语言理解与情感表达,确保模型兼具“智商”与“情商”,仍是一个开放问题


演讲亮点

  • 以 Step-Audio2 为例,分享 SOTA 端到端语音模型的使用、部署与落地最佳实践

  • 揭秘模型设计背后的一线 know-how


听众收益

  • 深入了解语音 LLM 的前沿技术发展趋势

  • 获得端到端语音模型从理论到实践的系统知识,助力相关研发与应用落地


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可联系票务经理 18514549229 咨询。


2025-09-26 16:151

评论

发布
暂无评论

Serverless Frist 的渐进式应用开发框架 Malagu

木香丘

开源 Serverless 云原生 Malagu Framework

架构师训练营第四周学习总结

邓昀垚

极客大学架构师训练营

如何开一场高效的会议?

boshi

高效工作 开会

区块链带来第四次技术革命 融入生产大幅提高企业收入

CECBC

区块链 数字资产 技术革命

BigDecimal是如何搞定精度缺失的

hasWhere

小伙伴问我:如何搭建Maven私服?我连夜肝了这篇实战文章!!

冰河

maven 私服 仓库

让人一夜暴富的区块链,新时代革命的开始

CECBC

区块链 时代革命

架构师训练营第 1 期 - 第 3 周 - 学习总结

wgl

极客大学架构师训练营

架构师训练营第 1 期 - 第 3 周 - 作业

wgl

极客大学架构师训练营

架构师训练营 - 命题作业 - 第三周

徐时良

极客大学架构师训练营

架构师训练营 Week4 - 课后作业

缓存 自动化 异步 集群 冗余

Appium之「元素定位和UiAutomator表达式」

清菡软件测试

区块链与分布式存储构建数据要素市场基础设施

CECBC

区块链 分布式

VUE第一个项目怎么读懂

MySQL从删库到跑路

Java html5 Vue 大前端 vux

区块链--凌驾于政治之上的存在

CECBC

区块链 信息技术

架构师训练营 - 学习笔记 - 第三周

徐时良

极客大学架构师训练营

spring-boot-route(五)整合Swagger生成接口文档

Java旅途

Java springboot swagger

Architecture Phase1 Week4:Summarize

phylony-lu

极客大学架构师训练营

Web Storage API的介绍和使用

程序那些事

web tech web storage web storage api storage api

金秋十月重磅技术文——网络编程大揭秘

Java架构师迁哥

编程 程序员

CECBC区块链专委会副主任吴桐主讲光大证券法定数字货币讲座

CECBC

区块链 数字货币

LeetCode题解:49. 字母异位词分组,数组计数+哈希表,JavaScript,详细注释

Lee Chen

大前端 LeetCode

理想的程序员

极客思享

Architecture Phase1 Week4:HomeWork

phylony-lu

极客大学架构师训练营

第二节课后作业

happy

阿里P8大牛爆肝的《Java核心技术总结》+《面试题总结》简直赞爆了

Java架构之路

Java 程序员 面试 编程语言 进阶

一个草根的日常杂碎(10月4日)

刘新吾

随笔杂谈 生活记录 社会百态

Serverless与传统Web框架的迁移

刘宇

Serverless

架构师训练营第三周心得

CmHuang

【知识分享】区块链常用术语

CECBC

区块链 货币 网络节点

小伙伴想学Jenkins自动构建发布项目,我:安排上了!!

冰河

项目管理 jenkins 灰度发布 自动构建 及时发布

阶跃星辰语音模型负责人杨学锐确认出席QCon上海,分享从语音表征到模型架构的端到端语音模型实践_AI&大模型_QCon全球软件开发大会_InfoQ精选文章