写点什么

支付宝多模态应用实验室研究员李宇明确认出席 QCon 北京

  • 2025-03-18
    北京
  • 本文字数:1216 字

    阅读完需:约 4 分钟

支付宝多模态应用实验室研究员李宇明确认出席QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


支付宝多模态应用实验室研究员李宇明已确认出席并发表题为《EchoMimic:多模态大模型驱动下的生成式数字人技术与应用》的主题分享。


随着多模态大模型的不断发展,生成式数字人的技术融合趋势也日益明显。通过结合视觉、语音和自然语言等多种模态数据,生成式数字人可以更加完整地呈现出真实世界中的人的行为和交流方式。这种技术融合趋势将进一步推动生成式数字人在虚拟现实、增强现实、人机交互等领域的广泛应用。


EchoMimic 是支付宝多模态应用实验室发布并开源的数字人技术项目,仅需输入一张参考图像、一段音频及一段手势序列,即可生成高质量人物动画视频,同时确保半身数字人与音频内容之间的协调。EchoMimic V1 论文中稿人工智能领域顶级国际会议 AAAI 2025,EchoMimic V2 论文中稿世界国际计算机视觉与模式识别会议 CVPR 2025。


本演讲将围绕 EchoMimic 系列开源生成式数字人项目,介绍生成式数字人领域最新进展、详细讲解 EchoMimic 背后的技术细节、以及生成式数字人相关应用场景,及该领域后续研究思路与方法。


李宇明现任支付宝多模态应用实验室研究员,是香港城市大学电子工程系博士。曾任 MINIEYE,腾讯自动驾驶实验室高级研究员。先后从事自动驾驶,量化交易,人脸攻防安全及 AIGC 等算法研发工作,在国际知名期刊会议发表论文 30 余篇,申请发明专利 20 余项,以核心成员参与完成省部级课题 3 项。他在本次会议的详细演讲内容如下:


演讲提纲

1. 传统数字人与生成式数字人技术背景

  • 传统数字人技术介绍

  • 生成式数字人技术介绍

2. EchoMimic(基于语音驱动的人像动画生成) 背后的技术

  • 技术细节与亮点

  • 实验结果分析

3. 应用场景探索

  • 生成式数字人结合大语言模型的实时交互

  • 生成式数字人结合音乐生成模型的 AI 创作

  • 生成式数字人结合商品的直播带货

4. 总结与展望

  • 生成式数字人存在的问题和挑战

  • 生成式数字人开发新范式

您认为,这样的技术在实践过程中有哪些痛点?

  • 高质量人物相关数据获取、训练和推理效率、生成数字人自然度和真实性

演讲亮点

  • 生成式数字人领域的技术路线,最新进展,以及与多模态大模型应用结合趋势

  • EchoMimic 系列生成式数字人开源项目的技术细节

  • 生成式数字人领域后续研究方向

听众收益

  • 了解生成式数字人领域最新进展

  • 了解 EchoMimic 系列生成式数字人开源项目技术细节

  • 了解生成式数字人相关应用场景,及该领域后续研究思路与方法


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。


2025-03-18 10:264122

评论

发布
暂无评论
发现更多内容

谈谈我工作中的23个设计模式

阿里巴巴云原生

阿里云 云原生 技术文章

教育机构客户管理系统功能方案详解!

优秀

CRM系统 客户关系管理系统

华夏天信携手华为云开天aPaaS,打造安全、高效、节能的主煤流运输系统

华为云开发者联盟

云计算 后端 华为云

预告|2022 星策 Summit 首批嘉宾确认,大会火热报名中!

星策开源社区

机器学习 开源 数字化 管理层 企业转型

行业分析| 实时音视频的多种用法

anyRTC开发者

音视频 实时音视频 实时通信 语音通话 视频通话

云原生微服务治理技术朝无代理架构的演进之路

华为云开发者联盟

云计算 云原生 后端 华为云 微服务治理

移动跨端框架发展史及优劣对比

FinFish

前端框架 跨端框架 移动端跨端 跨端发展

2023年 DevOps 七大趋势

SEAL安全

1000 种兴趣和 1000 个兴趣小组 | 学点战略

赵新龙

TGO鲲鹏会 CTO 战略

异常捕获中finally和return的用法

自由呼吸

Java 11月月更

1亿条数据批量插入 MySQL,哪种方式最快?

小小怪下士

Java MySQL 程序员

PGL图学习之基于GNN模型新冠疫苗任务[系列九]

汀丶人工智能

图神经网络 GNN 11月月更

如何在几百万qps的网关服务中实现灵活调度策略

百度Geek说

网关 调度 动态配置 12 月 PK 榜

什么?Coolbpf 不仅可以远程编译,还可以发现网络抖动! | 龙蜥技术

OpenAnolis小助手

Linux 开源 ebpf coolbpf 龙蜥峰会

大数据培训程序员都去做什么了

小谷哥

web前端培训学习后还有做前端开发的吗

小谷哥

前端哪个培训学习比较好?

小谷哥

SQL面试 100 问

FunTester

火山引擎VeDI推出这款产品 助力企业实现以“人”为中心的数据洞察

字节跳动数据平台

大数据 数据分析 火山引擎

元宇宙赛道逐渐清晰,虚实世界如何“破壁”?

旺链科技

区块链 产业区块链 元宇宙

报名即将结束!11 大云原生领域开源技术干货一场拿下

阿里巴巴云原生

阿里云 开源 容器 微服务 云原生

上新啦KIT

HarmonyOS SDK

HMS Core

大数据培训前景怎么样?

小谷哥

跨境电商ERP也爆单,分布式新型数据库迎战

OceanBase 数据库

数据库 oceanbase

Function源码解析与实践

京东科技开发者

编程语言 Function 编程‘’ 后端、

技术实战:初创项目前端框架选型

FinFish

前端开发 前端框架 技术选型 移动开发

移动跨平台技术方案选型建议

Onegun

移动端 跨端开发 跨端框架

要想后期修改少,代码重构要趁早

华为云开发者联盟

云计算 后端 华为云

KVC原理与数据筛选

京东科技开发者

后端 数据处理 KV存储引擎 KV查询

ShareSDK Android端权限说明

MobTech袤博科技

前端培训中应该怎么学习web前端

小谷哥

支付宝多模态应用实验室研究员李宇明确认出席QCon北京_阿里巴巴_QCon全球软件开发大会_InfoQ精选文章