写点什么

计算机图形学将迎来新突破?Meta 携手斯坦福大学推出 3D 交互模型,VR 时代似乎不远了

  • 2023-12-11
    北京
  • 本文字数:2621 字

    阅读完需:约 9 分钟

大小:1.17M时长:06:50
计算机图形学将迎来新突破?Meta携手斯坦福大学推出3D交互模型,VR时代似乎不远了

近日,斯坦福大学与 Meta/Facebook AI 研究(FAIR)实验室的工作人员共同开发出一套突破性的 AI 系统,能够仅根据文本描述在虚拟人和物体之间生成自然、协调的运动关系。

 

这套新系统被称为 CHOIS(Controllable Human-Object Interaction Synthesis,即可控人机交互合成),使用最新的条件扩散模型技术生成无缝且精确的交互,例如“将桌子举过头顶、行走,然后放下桌子。”

 

简而言之,这是一套先进的人工智能系统,用于合成逼真的 3D 人机交互。

 

这项工作被公布在 arXiv 论文预发表网站的一篇文章中,也让我们得以一睹虚拟人如人类般顺畅理解并响应语言命令的未来景观。例如,把椅子拉近桌子来创造一个工作空间,调整落地灯以投射出完美的光芒,或者整齐地存放手提箱。每一项任务都需要人、物体和周围环境之间的精确协调。语言是表达和传达这些意图的有力工具,在语言和场景背景的指导下,合成逼真的人类和物体运动是构建先进的人工智能系统的基石,该系统可以在不同的 3D 环境中模拟连续的人类行为。

 

论文地址:https://arxiv.org/pdf/2312.03913.pdf

 

研究人员们在文章中指出,“根据语言描述在 3D 场景中生成连续的人-物交互一直存在不少挑战。”

 

他们必须确保生成的运动真实且协调同步,保持人手与物体之间的适当接触,且物体的运行应当与人类行为具有因果关系。

如何实现


CHOIS 系统之所以效果拔群,依靠的就是其在 3D 环境中摸索出一套独特的人-物交互合成方法。CHOIS 的核心为条件扩散模型,这是一种能够模拟详尽运动序列的生成模型。

 

当给定人/物位置的初始状态以及所需操作的语言描述之后,CHOIS 就会据此生成一系列动作,最终完成任务要求的交互效果。

 

例如,假设指令是将灯具移到沙发旁边,CHOIS 会理解指令内容并创建一段逼真的动画,显示人类形象拿起灯具并将其放置在沙发附近。

 

利用 AMASS 等大规模、高质量的运动捕捉数据集,人们对生成人体运动建模的兴趣有所上升,包括动作条件合成和文本条件合成。虽然之前的工作使用 VAE 公式从文本生成不同的人体运动,但 CHOIS 专注于人与物体的交互。与通常以手部运动合成为中心的现有方法不同,CHOIS 在物体抓取之前考虑全身运动,并根据人体运动预测物体运动,为交互式 3D 场景模拟提供全面的解决方案。



给定初始对象和人类状态、语言描述和 3D 场景中的稀疏对象路径点,CHOIS 生成的物体运动与人体运动同步。

 

CHOIS 的独特之处,就在于它使用稀疏对象路径点和语言描述来指导动画生成。各个路径点充当对象移动轨迹中的关键标记点,确保运动不仅符合物理规律,而且与语言输入中描述的高级目标保持一致。

 

CHOIS 的另一大优势,在于能够将语言理解能力与物理模拟功能加以结合。传统模型往往难以将语言同空间和身体动作联系起来,特别对于较大的交互范围,必须考虑诸多因素才能始终保持交互的真实性。

 

CHOIS 首先解释语言描述所承载的意图和风格,而后将其转化为一系列既符合人体构造、又不违背物体特性的肢体动作,从而解决了大范围交互过程中的这一现实难题。

 

该系统尤其具有开创性的一点,就是它能准确表现接触点(例如手与物体之间的接触位置),且物体的运行与人类化身施加的力保持一致。此外,该模型在训练和生成阶段还引入了专门的损失函数和指导性术语,旨在强制遵循这些物理约束,这也是让 AI 成功实现以人类方式理解物理世界、并与物理世界正确交互的重要一步。

对计算机图形学、AI 与机器人技术的影响


CHOIS 系统对计算机图形学产生了深远影响,特别是在动画和虚拟现实领域。通过让 AI 获得解释自然语言指令并据此生成逼真人机交互过程的能力,CHOIS 能够大大减少制作复杂场景动画所需要的时间和精力。

 

动画师们可以使用这项技术来创建出以往极为费时费力的关键帧动画序列,显著提升设计效率与成果产出。此外,在虚拟现实环境当中,CHOIS 还能带来更加身临其境且高度交互的体验,由用户通过自然语言指挥虚拟角色,并观察其以逼真精度执行任务的全过程。这种更高水平的交互能够将 VR 体验从僵化、脚本化的事件转化为更加顺畅自然的动态环境用户输入响应效果。

 

在 AI 和机器人领域,CHOIS 则代表我们朝着更加自主的情境感知系统迈出的一大步。传统机器人往往受到预编程例程的限制,而 CHOIS 这类系统的出现能够帮助其更好地理解现实世界、并顺利按照自然语言给出的描述完成任务。

 

这对于医疗保健、酒店或家庭环境下的服务型机器人来说尤其有着变革性的影响。在这类环境下,理解物理空间并在其中执行各类任务的能力往往至关重要。

 

对于 AI 来说,这种同时处理语言和视觉信息以引导任务执行的能力,也使其距离充分理解情境和环境上下文又更进了一步。而且在此之前,这种能力一直是人类的优势和专利。在 CHOIS 的支持下,未来的 AI 系统有望在更多复杂任务中发挥更大的作用,不仅能够消化人类指令的“内容”、更能理解人类指令的操作“方式”,以前所未有的灵活性适应新的挑战。

成果令人惊艳,前景值得期待

 

CHOIS 代表了人工智能领域的重大飞跃,特别是在计算机视觉和人机交互领域。通过综合 3D 人与物体交互,CHOIS 可以生成逼真的动画和场景,这对于创建沉浸式虚拟体验至关重要。

 

该系统使用组合分层方法来理解人类与物体之间交互的复杂本质。这涉及将交互分解为更小的、可管理的部分,并理解这些部分之间的关​​系。模型的层次结构使其能够考虑交互的上下文,例如环境和所涉及对象的属性。

 

CHOIS 由深度学习算法提供支持,深度学习算法是机器学习的子集。这些算法使系统能够从人与物体交互的大型数据集中学习,随着时间的推移提高其准确性和预测能力。

 

总体而言,斯坦福大学和 Meta 的研究人员在计算机视觉、自然语言处理(NLP)和机器人技术交叉领域的这一极具挑战的问题上,成功取得了关键进展。

 

研究团队认为,他们的工作是建立先进 AI 系统的重要一步,该系统能够在不同的 3D 环境中模拟连续的人类行为。CHOIS 也为进一步研究如何利用 3D 场景加语言输入来合成人机交互过程打开了大门,有望在未来孕育出更加复杂的 AI 系统。

 

参考链接:

https://venturebeat.com/ai/stanford-and-meta-inch-towards-ai-that-acts-human-with-new-chois-interaction-model/

https://isp.page/news/chois-stanford-and-fair-metas-revolutionary-ai-for-realistic-3d-human-object-interactions/#gsc.tab=0

https://www.marktechpost.com/2023/12/10/researchers-from-stanford-university-and-fair-meta-unveil-chois-a-groundbreaking-ai-method-for-synthesizing-realistic-3d-human-object-interactions-guided-by-language/

2023-12-11 15:526253
用户头像
李冬梅 加V:busulishang4668

发布了 1181 篇内容, 共 803.1 次阅读, 收获喜欢 1300 次。

关注

评论

发布
暂无评论
发现更多内容

Java 集合

Damon

7月月更

GPU资源池的虚拟化路径

Finovy Cloud

GPU服务器 显卡、gpu

Python|制作词云,改变词云字体颜色

AXYZdong

Python 7月月更

拔掉电源会怎样?GaussDB(for Redis)双活让你有备无患

华为云开发者联盟

数据库 后端

Web安全之Java反序列漏洞总结

网络安全学海

网络安全 安全 信息安全 渗透测试 漏洞挖掘

开鸿智谷 Niobe 407 正式并入OpenHarmony代码主干

科技汇

转行前端是自学好还是培训班好

小谷哥

从全球价值链视角看,京东云数智供应链对未来经济有何影响?

脑极体

2022-07微软漏洞通告

火绒安全

microsoft 安全 漏洞

StarRocks 成都见!企业如何打造极速统一的数据分析新范式,助力业务全方位升级

StarRocks

数据库 大数据 数据分析 国产数据库

在线SQL转XML工具

入门小站

工具

日志黑名单,真的能帮你省钱!

观测云

AIOps落地五大原则(三):架构路线

BizSeer必示科技

人工智能 AIOPS

我用开天平台做了一个城市防疫政策查询系统,你不试试?

华为云开发者联盟

开发 华为云 开天aPaaS 开天 城市防疫政策

C 语言入门(四)

逝缘~

7月月更

《Linux设备驱动开发详解》读书笔记

贾献华

7月月更

在线多行文本批量正则替换添加后缀工具

入门小站

工具

新书上市 | C 语言经典教材配套“习题解答”,原书累计印数 10 万 +

图灵教育

C语言

还不了解进程吗?就这一篇!

C++后台开发

网络编程 进程 通信 linux开发 C++开发

Chrome实现自动化测试:录制回放网页动作

和牛

测试

Python3详细的数组基础操作-入门必备[列表的操作]

迷彩

数组 Python基础 列表 7月月更

ArkUI路由跳转概览

坚果

HarmonyOS OpenHarmony 7月月更

Python图像处理丨图像腐蚀与图像膨胀

华为云开发者联盟

Python 软件 开发 图像处理

不要小看WebSocket!长连接、有状态、双向、全双工都是王炸技能

wljslmz

HTTP websocket 7月月更

泰凌微电子B91通用开发板合入OpenHarmony社区主干

科技汇

Kubernetes入坑篇

青柚1943

Kubernetes DevOps minikube

ECCV2022 | 腾讯优图29篇论文入选,含人脸安全、图像分割、目标检测等多个研究方向

科技热闻

融云 x 天聊,用声音打造「无压力社交」栖息地

融云 RongCloud

如何系统学习web前端技术知识

小谷哥

本周四晚19:00知识赋能第3期直播丨OpenHarmony智能家居项目之控制面板功能实现

OpenHarmony开发者

Open Harmony

计算机图形学将迎来新突破?Meta携手斯坦福大学推出3D交互模型,VR时代似乎不远了_计算机视觉_李冬梅_InfoQ精选文章