2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

阶跃星辰语音模型负责人杨学锐确认出席 QCon 上海,分享从语音表征到模型架构的端到端语音模型实践

  • 2025-09-26
    北京
  • 本文字数:1374 字

    阅读完需:约 5 分钟

大小:737.90K时长:04:11
阶跃星辰语音模型负责人杨学锐确认出席QCon上海,分享从语音表征到模型架构的端到端语音模型实践

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


阶跃星辰语音模型负责人杨学锐已确认出席并发表题为端到端语音模型:从语音表征到模型架构的主题分享。在大语言模型(LLM)迅猛发展的时代,语音技术正迎来新一轮变革。本次演讲将系统梳理语音模型从传统架构走向端到端融合的演进路径,深入分析语音表征的不同形式与模型设计的关键思路,涵盖语义与声学 token 的权衡、多尺度解码结构、训练策略等重要议题。同时,将直面实践中诸如数据差异、推理效率、模态对齐等核心挑战,并分享以 Step-Audio2 为代表的先进端到端语音模型在实际部署与落地中的实践经验。无论您是对语音技术前沿感兴趣的研究者,还是关注语音大模型落地应用的工程师,本次演讲都将为您提供有价值的技术洞察与实践参考。


杨学锐,历任阶跃星辰语音模型负责人,大疆创新音频负责人,云从科技语音算法负责人。在相关领域深耕多年,发表论文、专利、书籍若干。他在本次会议的详细演讲内容如下:


演讲提纲

1. 语音技术在 LLM 时代的演进

  • 传统语音模型的发展与局限

  • LLM 时代为语音模型带来的新范式

  • 端到端语音模型的必要性与优势

2. 端到端语音模型关键技术

  • 语音表征

    连续表征 vs 离散表征

    Semantic Token vs Acoustic Token

  • 模型架构

    级联 vs 半端到端 vs 端到端

    Audio Decoder 结构剖析

    文本模态对齐机制

    全双工机制

    外部知识接入和模型规划执行

  • 训练策略:Pretrain → Midtrain → SFT → RL 的全流程优化

3. 如何评估端到端语音模型

  • 音频理解能力评估

  • 语音合成质量评价

  • 对话交互的自然性与一致性


您认为,这样的技术在实践过程中有哪些痛点?

  • 语音数据的采集、处理与合成相较于文本模态更为复杂,质量控制和标注成本高昂

  • 语音 token 率远高于文本,导致序列长度急剧增加,对模型架构设计与推理效率提出严峻挑战

  • 如何在跨模态对齐中兼顾语言理解与情感表达,确保模型兼具“智商”与“情商”,仍是一个开放问题


演讲亮点

  • 以 Step-Audio2 为例,分享 SOTA 端到端语音模型的使用、部署与落地最佳实践

  • 揭秘模型设计背后的一线 know-how


听众收益

  • 深入了解语音 LLM 的前沿技术发展趋势

  • 获得端到端语音模型从理论到实践的系统知识,助力相关研发与应用落地


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可联系票务经理 18514549229 咨询。


2025-09-26 16:155735

评论

发布
暂无评论

什么是工控主机?工控主机安卓主板有哪些配置?

双赞工控

Vue进阶(二十七):Vuex 之 getters, mapGetters, ...mapGetters详解

No Silver Bullet

Vue vuex 8月日更

FunTester框架教程(一)

FunTester

教程 接口测试 API测试 测试框架 FunTester

这几个棘手的面试常见问题,如何高情商的回答?

架构精进之路

情商 8月日更

【Vue2.x 源码学习】第三十三篇 - diff算法-收尾+阶段性总结

Brave

源码 vue2 8月日更

Stack Overflow 2021 开发者调查报告出炉,开发浪潮中的变与不变

清秋

语言 & 开发 文化 & 方法 Stack Overflow 开发者报告 编程语言排行

Jetpack Compose 架构分层

Changing Lin

8月日更

JavaScript 之事件循环(Event Loop)

网易云信

U2Net基于ModelArts Notbook的仿真实验

华为云开发者联盟

开源 modelarts 目标检测算法 U2Net Notbook

在openEuler上做开发?这个大赛拿出30万寻找开源的yyds

华为云开发者联盟

开源 操作系统 服务器 openEuler 鲲鹏

金融级IT架构:网商银行是如何进行数字化落地的

博文视点Broadview

Prometheus监控的4个黄金指标

Rubble

Prometheus 8月日更

送你两个神器,关系数据库数据入湖轻松应对

华为云开发者联盟

数据库 数据湖 数据迁移 关系数据库 实时数据

Java Arrays.asList 和 new ArrayList(Arrays.asList()) 的对比

HoneyMoose

手撸二叉树之将有序数组转换为二叉搜索树

HelloWorld杰少

数据结构与算法 8月日更

七夕赶上服务器架构升级,女朋友的约会怎么办

华为云开发者联盟

华为云 FunctionGraph DevStar Serverless架构 服务器架构

Go语言那些事儿之管道的关闭

Regan Yue

Go 语言 8月日更 管道

20张图让你彻底掌握负载均衡的秘密

负载均衡 编程 程序员 计算机

解决安全漏洞扫描,就靠它了

百度开发者中心

产品 最佳实践 企业动态 百度安全

揭秘阿里云 RTS SDK 是如何实现直播降低延迟和卡顿

阿里云CloudImagine

阿里云 直播架构 直播技术 视频直播 视频云

Maven 项目执行的时候提示 JAVA_HOME is not correctly set 错误

HoneyMoose

初识 C#

若尘

C# 8月日更

Fil价格今日行情?Fil有投资的价值吗?

区块链 分布式存储 IPFS fil fil价格今日行情怎么样

Ipfs排名前十的公司有哪些?怎么选择靠谱的ipfs公司?

区块链 分布式存储 IPFS fil ipfs公司

测试经验| 音视频通话相关app如何进行测试

anyRTC开发者

软件测试 音视频 实时通信

Flutter Android 端 FlutterInjector 及依赖流程源码分析

工匠若水

flutter android 8月日更

Mybatis自定义拦截器与插件开发

码农参上

8月日更

【SpringCloud 技术专题】「原生态 Fegin」打开 Fegin 之 RPC 技术的开端,你会使用原生态的 Fegin 吗?(下)

码界西柚

SpringCloud OpenFegin Fegin 8月日更

Hive企业级性能优化

五分钟学大数据

hive hive性能优化

small-spring 代码贡献者3个月,敢说精通Spring了,分享我的总结!

小傅哥

spring 小傅哥 cglib aware BeanPost

从0开始的TypeScriptの五:webpack打包typescript

空城机

JavaScript typescript 大前端 8月日更

阶跃星辰语音模型负责人杨学锐确认出席QCon上海,分享从语音表征到模型架构的端到端语音模型实践_AI&大模型_QCon全球软件开发大会_InfoQ精选文章