【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

计算机图形学将迎来新突破?Meta 携手斯坦福大学推出 3D 交互模型,VR 时代似乎不远了

  • 2023-12-11
    北京
  • 本文字数:2621 字

    阅读完需:约 9 分钟

大小:1.17M时长:06:50
计算机图形学将迎来新突破?Meta携手斯坦福大学推出3D交互模型,VR时代似乎不远了

近日,斯坦福大学与 Meta/Facebook AI 研究(FAIR)实验室的工作人员共同开发出一套突破性的 AI 系统,能够仅根据文本描述在虚拟人和物体之间生成自然、协调的运动关系。

 

这套新系统被称为 CHOIS(Controllable Human-Object Interaction Synthesis,即可控人机交互合成),使用最新的条件扩散模型技术生成无缝且精确的交互,例如“将桌子举过头顶、行走,然后放下桌子。”

 

简而言之,这是一套先进的人工智能系统,用于合成逼真的 3D 人机交互。

 

这项工作被公布在 arXiv 论文预发表网站的一篇文章中,也让我们得以一睹虚拟人如人类般顺畅理解并响应语言命令的未来景观。例如,把椅子拉近桌子来创造一个工作空间,调整落地灯以投射出完美的光芒,或者整齐地存放手提箱。每一项任务都需要人、物体和周围环境之间的精确协调。语言是表达和传达这些意图的有力工具,在语言和场景背景的指导下,合成逼真的人类和物体运动是构建先进的人工智能系统的基石,该系统可以在不同的 3D 环境中模拟连续的人类行为。

 

论文地址:https://arxiv.org/pdf/2312.03913.pdf

 

研究人员们在文章中指出,“根据语言描述在 3D 场景中生成连续的人-物交互一直存在不少挑战。”

 

他们必须确保生成的运动真实且协调同步,保持人手与物体之间的适当接触,且物体的运行应当与人类行为具有因果关系。

如何实现


CHOIS 系统之所以效果拔群,依靠的就是其在 3D 环境中摸索出一套独特的人-物交互合成方法。CHOIS 的核心为条件扩散模型,这是一种能够模拟详尽运动序列的生成模型。

 

当给定人/物位置的初始状态以及所需操作的语言描述之后,CHOIS 就会据此生成一系列动作,最终完成任务要求的交互效果。

 

例如,假设指令是将灯具移到沙发旁边,CHOIS 会理解指令内容并创建一段逼真的动画,显示人类形象拿起灯具并将其放置在沙发附近。

 

利用 AMASS 等大规模、高质量的运动捕捉数据集,人们对生成人体运动建模的兴趣有所上升,包括动作条件合成和文本条件合成。虽然之前的工作使用 VAE 公式从文本生成不同的人体运动,但 CHOIS 专注于人与物体的交互。与通常以手部运动合成为中心的现有方法不同,CHOIS 在物体抓取之前考虑全身运动,并根据人体运动预测物体运动,为交互式 3D 场景模拟提供全面的解决方案。



给定初始对象和人类状态、语言描述和 3D 场景中的稀疏对象路径点,CHOIS 生成的物体运动与人体运动同步。

 

CHOIS 的独特之处,就在于它使用稀疏对象路径点和语言描述来指导动画生成。各个路径点充当对象移动轨迹中的关键标记点,确保运动不仅符合物理规律,而且与语言输入中描述的高级目标保持一致。

 

CHOIS 的另一大优势,在于能够将语言理解能力与物理模拟功能加以结合。传统模型往往难以将语言同空间和身体动作联系起来,特别对于较大的交互范围,必须考虑诸多因素才能始终保持交互的真实性。

 

CHOIS 首先解释语言描述所承载的意图和风格,而后将其转化为一系列既符合人体构造、又不违背物体特性的肢体动作,从而解决了大范围交互过程中的这一现实难题。

 

该系统尤其具有开创性的一点,就是它能准确表现接触点(例如手与物体之间的接触位置),且物体的运行与人类化身施加的力保持一致。此外,该模型在训练和生成阶段还引入了专门的损失函数和指导性术语,旨在强制遵循这些物理约束,这也是让 AI 成功实现以人类方式理解物理世界、并与物理世界正确交互的重要一步。

对计算机图形学、AI 与机器人技术的影响


CHOIS 系统对计算机图形学产生了深远影响,特别是在动画和虚拟现实领域。通过让 AI 获得解释自然语言指令并据此生成逼真人机交互过程的能力,CHOIS 能够大大减少制作复杂场景动画所需要的时间和精力。

 

动画师们可以使用这项技术来创建出以往极为费时费力的关键帧动画序列,显著提升设计效率与成果产出。此外,在虚拟现实环境当中,CHOIS 还能带来更加身临其境且高度交互的体验,由用户通过自然语言指挥虚拟角色,并观察其以逼真精度执行任务的全过程。这种更高水平的交互能够将 VR 体验从僵化、脚本化的事件转化为更加顺畅自然的动态环境用户输入响应效果。

 

在 AI 和机器人领域,CHOIS 则代表我们朝着更加自主的情境感知系统迈出的一大步。传统机器人往往受到预编程例程的限制,而 CHOIS 这类系统的出现能够帮助其更好地理解现实世界、并顺利按照自然语言给出的描述完成任务。

 

这对于医疗保健、酒店或家庭环境下的服务型机器人来说尤其有着变革性的影响。在这类环境下,理解物理空间并在其中执行各类任务的能力往往至关重要。

 

对于 AI 来说,这种同时处理语言和视觉信息以引导任务执行的能力,也使其距离充分理解情境和环境上下文又更进了一步。而且在此之前,这种能力一直是人类的优势和专利。在 CHOIS 的支持下,未来的 AI 系统有望在更多复杂任务中发挥更大的作用,不仅能够消化人类指令的“内容”、更能理解人类指令的操作“方式”,以前所未有的灵活性适应新的挑战。

成果令人惊艳,前景值得期待

 

CHOIS 代表了人工智能领域的重大飞跃,特别是在计算机视觉和人机交互领域。通过综合 3D 人与物体交互,CHOIS 可以生成逼真的动画和场景,这对于创建沉浸式虚拟体验至关重要。

 

该系统使用组合分层方法来理解人类与物体之间交互的复杂本质。这涉及将交互分解为更小的、可管理的部分,并理解这些部分之间的关​​系。模型的层次结构使其能够考虑交互的上下文,例如环境和所涉及对象的属性。

 

CHOIS 由深度学习算法提供支持,深度学习算法是机器学习的子集。这些算法使系统能够从人与物体交互的大型数据集中学习,随着时间的推移提高其准确性和预测能力。

 

总体而言,斯坦福大学和 Meta 的研究人员在计算机视觉、自然语言处理(NLP)和机器人技术交叉领域的这一极具挑战的问题上,成功取得了关键进展。

 

研究团队认为,他们的工作是建立先进 AI 系统的重要一步,该系统能够在不同的 3D 环境中模拟连续的人类行为。CHOIS 也为进一步研究如何利用 3D 场景加语言输入来合成人机交互过程打开了大门,有望在未来孕育出更加复杂的 AI 系统。

 

参考链接:

https://venturebeat.com/ai/stanford-and-meta-inch-towards-ai-that-acts-human-with-new-chois-interaction-model/

https://isp.page/news/chois-stanford-and-fair-metas-revolutionary-ai-for-realistic-3d-human-object-interactions/#gsc.tab=0

https://www.marktechpost.com/2023/12/10/researchers-from-stanford-university-and-fair-meta-unveil-chois-a-groundbreaking-ai-method-for-synthesizing-realistic-3d-human-object-interactions-guided-by-language/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-12-11 15:524752
用户头像
李冬梅 加V:busulishang4668

发布了 817 篇内容, 共 386.0 次阅读, 收获喜欢 1004 次。

关注

评论

发布
暂无评论
发现更多内容

如何开发一对一视频源码

山东布谷网络科技

App 源代码

【好文推荐】敏捷绩效考核如何做?

ShineScrum捷行

Linux系统Docker优化详细教程。

百度搜索:蓝易云

Docker 云计算 Linux 运维 云服务器

如何基于 Apache Doris 构建新一代日志分析平台

SelectDB

数据库 大数据 数据分析 Doris

【腾讯云 Cloud Studio 实战训练营】沉浸式体验编写一个博客系统

全栈若城

项目实战 Cloud Studio

MegEngine Python 层模块串讲(中)

MegEngineBot

Python 深度学习 开源

图解MySQL中SQL语句的执行过程

程序员小毕

Java MySQL 数据库 sql 程序员

LED显示屏分为几类,特点分别是什么?

Dylan

LED显示屏 户外LED显示屏 户内led显示屏

技术优化:降本增效的常规实践

有态度的马甲

【落下帷幕】2023 中国大学生计算机设计大赛大数据应用大类国赛评审

ModelWhale

云计算 数据分析 在线编程 数据科学竞赛 中国大学生计算机设计大赛

软件测试/测试开发丨Python 内置库 OS 学习笔记分享

测试人

Python 软件测试 测试开发 os内置库

【实践篇】推荐算法PaaS化探索与实践 | 京东云技术团队

京东科技开发者

PaaS 推荐算法 PaaS平台化能力 企业号 7 月 PK 榜

浅析 TiSpark v3.x 新变化

TiDB 社区干货传送门

版本测评 新版本/特性解读 7.x 实践

Java 命令行参数解析方式探索(四):Spark & Flink

冰心的小屋

Java spark 命令行 command Parameter

技术分享|GrowingIO分析云对ClickHouse的实践

Geek_2d6073

瀚元科技:利用A-OPS 智能运维助力边缘服务器运维效率提升30%

openEuler

Linux 运维 操作系统 openEuler 边缘

软件测试/测试开发丨Python 内置库 sys 学习笔记分享

测试人

Python 程序员 软件测试

数据库优化器设计穿越探索之旅

阿里技术

数据库 架构

Sanic 是什么:扩展性和性能并存的Web框架

Apifox

Python 程序员 后端 异步编程 sanci

Java 后端有哪些不用学的技术?劝退。。。

java易二三

Java 编程 计算机 jsp

电子科技大学入驻飞桨AI Studio高校专区,AI优质课程等你来学!

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

HDC.Together2023 HarmonyOS学生公开课议程抢先看!

HarmonyOS开发者

HarmonyOS

亚信安慧通过ISO20000认证,AntDB数据库团队服务能力再上新台阶

亚信AntDB数据库

数据库 AntDB AntDB数据库 企业号 7 月 PK 榜

并发编程-CompletableFuture解析 | 京东物流技术团队

京东科技开发者

并发编程 CompletableFuture JDK1.8 企业号 7 月 PK 榜

Linux系统Memcached性能优化详细教程。

百度搜索:蓝易云

memcached 云计算 Linux 运维 云服务器

PoseiSwap 即将开启质押,利好刺激下 POSE通证短时涨超 30%

西柚子

Apache Doris 1.2.6 版本正式发布|版本通告

SelectDB

数据库 大数据 后端 Doris

河北幸福消费金融基于 Apache Doris 构建实时数仓,查询提速 400 倍!

SelectDB

数据库 大数据 数据分析 后端 Doris

防范地质灾害,北斗用芯监测

江湖老铁

UPS设备在物流机房中的应用浅析 | 京东物流技术团队

京东科技开发者

机房管理 企业号 7 月 PK 榜 UPS

PoseiSwap 即将开启质押,利好刺激下 POSE通证短时涨超 30%

大瞿科技

计算机图形学将迎来新突破?Meta携手斯坦福大学推出3D交互模型,VR时代似乎不远了_计算机视觉_李冬梅_InfoQ精选文章