写点什么

支付宝多模态应用实验室研究员李宇明确认出席 QCon 北京

  • 2025-03-18
    北京
  • 本文字数:1216 字

    阅读完需:约 4 分钟

支付宝多模态应用实验室研究员李宇明确认出席QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


支付宝多模态应用实验室研究员李宇明已确认出席并发表题为《EchoMimic:多模态大模型驱动下的生成式数字人技术与应用》的主题分享。


随着多模态大模型的不断发展,生成式数字人的技术融合趋势也日益明显。通过结合视觉、语音和自然语言等多种模态数据,生成式数字人可以更加完整地呈现出真实世界中的人的行为和交流方式。这种技术融合趋势将进一步推动生成式数字人在虚拟现实、增强现实、人机交互等领域的广泛应用。


EchoMimic 是支付宝多模态应用实验室发布并开源的数字人技术项目,仅需输入一张参考图像、一段音频及一段手势序列,即可生成高质量人物动画视频,同时确保半身数字人与音频内容之间的协调。EchoMimic V1 论文中稿人工智能领域顶级国际会议 AAAI 2025,EchoMimic V2 论文中稿世界国际计算机视觉与模式识别会议 CVPR 2025。


本演讲将围绕 EchoMimic 系列开源生成式数字人项目,介绍生成式数字人领域最新进展、详细讲解 EchoMimic 背后的技术细节、以及生成式数字人相关应用场景,及该领域后续研究思路与方法。


李宇明现任支付宝多模态应用实验室研究员,是香港城市大学电子工程系博士。曾任 MINIEYE,腾讯自动驾驶实验室高级研究员。先后从事自动驾驶,量化交易,人脸攻防安全及 AIGC 等算法研发工作,在国际知名期刊会议发表论文 30 余篇,申请发明专利 20 余项,以核心成员参与完成省部级课题 3 项。他在本次会议的详细演讲内容如下:


演讲提纲

1. 传统数字人与生成式数字人技术背景

  • 传统数字人技术介绍

  • 生成式数字人技术介绍

2. EchoMimic(基于语音驱动的人像动画生成) 背后的技术

  • 技术细节与亮点

  • 实验结果分析

3. 应用场景探索

  • 生成式数字人结合大语言模型的实时交互

  • 生成式数字人结合音乐生成模型的 AI 创作

  • 生成式数字人结合商品的直播带货

4. 总结与展望

  • 生成式数字人存在的问题和挑战

  • 生成式数字人开发新范式

您认为,这样的技术在实践过程中有哪些痛点?

  • 高质量人物相关数据获取、训练和推理效率、生成数字人自然度和真实性

演讲亮点

  • 生成式数字人领域的技术路线,最新进展,以及与多模态大模型应用结合趋势

  • EchoMimic 系列生成式数字人开源项目的技术细节

  • 生成式数字人领域后续研究方向

听众收益

  • 了解生成式数字人领域最新进展

  • 了解 EchoMimic 系列生成式数字人开源项目技术细节

  • 了解生成式数字人相关应用场景,及该领域后续研究思路与方法


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。


2025-03-18 10:264200

评论

发布
暂无评论
发现更多内容

OpenMLDB 社区月报 | 2022年10月

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

【Meetup 预告】OpenMLDB + MaxCompute:集成打通云上生态,高效构建 AI 应用

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

华为云数据库GaussDB(for Influx)揭秘:数据分级存储

路过的憨憨

react源码分析:babel如何解析jsx

flyzz177

React

教育部公布2022年第一批产学合作协同育人项目,千锋教育57个项目成功立项

千锋IT教育

创业者说丨云起无垠沈凯文:构建新一代开发安全基础设施 让Fuzzing技术为企业赋能

云起无垠

安全开发 开发安全 Fuzzing技术防护

演讲实录 | OpenMLDB 整合自动特征工程

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

新变化新营销 这些知识点你得Get!(文末有PPT福利首次放送)

字节跳动数据平台

大数据 营销 12 月 PK 榜

关于 Git 重写历史的一些笔记

山河已无恙

12月月更

react源码中的协调与调度

flyzz177

React

专访 | 罗成:开源并非“只可远观”

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

黄东旭:开发者的“技术无感化”时代,从 Serverless HTAP 数据库开始 | PingCAP DevCon 2022

PingCAP

TiDB

初识华为云数据库GaussDB(for Cassandra

路过的憨憨

OpenMLDB v0.6 新版本运维功能增强

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

多引擎可视化数据流实现方案

元年技术洞察

数据中台 数字化转型 专利解析 方舟企业数字化 PaaS 平台 #方舟平台

Ansible最佳实践之 AWX 启用facts缓存和模板问卷调查

山河已无恙

12月月更

Ansible之Ansible Tower使用User和Team管理访问权限的笔记

山河已无恙

12月月更

Ansible最佳实践之Playbook高级循环任务如何操作

山河已无恙

12月月更

互联网医疗领域月度观察——数字乡村建设加快,“互联网+医疗健康”带动乡村高质量发展

易观分析

数字化 互联网医疗

Ansible最佳实践之AWK VS Anssible Tower 界面介绍

山河已无恙

12月月更

【python小脚本】监听日志文件异常数据发送告警短信

山河已无恙

12月月更

react源码中的生命周期和事件系统

flyzz177

React

预告|2022 星策 Summit MLOps 分论坛议程公布!

星策开源社区

人工智能 机器学习 开源 AI MLOps

专访 | 徐鹏程:开源,就是酷

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

Ansible最佳实践之 AWX 作业创建和启动

山河已无恙

12月月更

镕铭微电子加入龙蜥社区,推动开源 OS 在音视频产业的应用

OpenAnolis小助手

操作系统 芯片 数据存储 龙蜥社区 镕铭微电子

ChaosBlade Java 场景性能优化,那些你不知道的事

阿里巴巴中间件

阿里云 云原生 ChaosBlade

裸辞不慌!入职蚂蚁金服P6,掌握并发编程我是这样吊打面试官的

钟奕礼

Java java面试 java编程 程序员‘

教你用JavaScript实现乘法游戏

小院里的霍大侠

JavaScript 前端开发 编程实战 实战案例 初学者

OpenMLDB Meetup No.7 回顾 | OpenMLDB+AutoX:整合自动特征工程,拥抱高效机器学习

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

OpenMLDB 实时引擎性能测试报告

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

支付宝多模态应用实验室研究员李宇明确认出席QCon北京_阿里巴巴_QCon全球软件开发大会_InfoQ精选文章