阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

Facebook 的 AI 从视频素材中学习物理位置之间的关系

  • 2020-02-28
  • 本文字数:1533 字

    阅读完需:约 5 分钟

Facebook的AI从视频素材中学习物理位置之间的关系

通常,计算机视觉系统擅长检测物体,但却很难理解这些物体所处的环境。这是因为它们将观察到的行为与物理环境分开了——即使是那些做了模型环境的系统也无法区分与行为相关的元素和不相关的元素(例如,柜台上的砧板与随便一块地板)。


本文最初发布于 VentureBeat,经原作者授权由 InfoQ 中文站翻译并分享。



在一段第一人称视频中,Ego-Topo 构建了一个环境的拓扑地图,揭示了活动中心区域以及它们被访问的顺序。(图片来源:Facebook)


通常,计算机视觉系统擅长检测物体,但却很难理解这些物体所处的环境。这是因为它们将观察到的行为与物理环境分开了——即使是那些做了模型环境的系统也无法区分与行为相关的元素和不相关的元素(例如,柜台上的砧板与随便一块地板)。


这就是为什么德克萨斯大学和 Facebook AI Research 的一组研究人员在论文Ego-Topo(该技术将从视频中捕捉到的空间分解成活动的拓扑地图,然后将视频组织成对不同区域的一系列访问)中对此进行了研究。将场景重组为“访问”而不是一系列的镜头,他们断言,Ego-Topo 能够推断第一人称行为(例如,一个人未来最可能采取什么行动?)和环境本身(例如,在一个特定的区域里有哪些可能的对象交互,即使尚未观察到的?)。


“我们的……[模型]比上面讨论的已有模型有优势……[I]提供了对过去的简洁的空间结构再现,[与]‘纯 3D’方法不同,我们的地图是根据人们对空间的使用有机地定义的。”


Ego-Topo 利用一个人工智能模型,它使用一个空间从视频中发现人们经常访问的地方,基于共享的物理空间和区域所提供的功能(与物理位置无关),按时间连接这些画面。(例如,视频开始时的洗碗机可能连接到结束时的同一台洗碗机,而厨房中的垃圾桶可能连接到另一厨房的垃圾处理机。)一组单独的模型利用生成的图来揭示环境的可用性,并在长视频中预测未来的动作。



跨多个区域的连接空间(例如,来自多个厨房的视频)有助于对环境及其功能用途的综合表示,这样,Ego-Topo 就能分析出环境的哪些部分与人类活动相关,以及这些区域的活动如何实现特定的目标。例如,给定一个厨房,即使不是每个视频都访问了厨房的所有部分,Ego-Top 也可以跨不同的视频进行连接,创建一个厨房的组合地图,说明这个永久化物理空间的用途。此外,它还可以连接多个厨房的区域,创建综合的地图,显示不同厨房之间的关系。


在实验中,该团队在两个关键任务上展示了 Ego-Topo:以一个新的视角推断可能的对象交互以及预测完成一个长期活动所需采取的行动。为了评估其性能,他们在 EGTEA Gaze+(其中包含 32 个主体在一个厨房里按照 7 个食谱准备一道菜的完整过程)和 EPIC-Kitchens(由日常厨房活动的视频,不局限于单一食谱或对象)上训练底层模型。



他们报告说,与基准相比,Ego-Topo 在所有预测层面上的表现都更好,而且它在预测遥远未来的行动方面表现出色。此外,他们还表示,将行动与模型拓扑图中发现的区域连接起来,可以得到进一步的改进,还可以根据其在综合图中的功能对空间进行对齐——特别是对于仅与单个位置相关的罕见类别。


“我们的方法最适合于(第一人称)视频中的长期活动,在这种活动中,区域会随着时间的推移以多种方式被反复访问和使用。这一定义广泛适用于常见的家庭和工作环境(如办公室、厨房、零售店、杂货店),”研究人员写道。“这些任务说明了一个能够成功推断场景功能的视觉系统将如何为增强现实(AR)和机器人技术的应用提供帮助。例如,如果一个 AR 系统知道在环境中哪些地方可以进行操作,那么它就可以通过教程以交互的方式指导用户;一个能够通过视频学习人们如何使用区域的移动机器人将可以在没有大量探索的情况下做好行动准备。”


英文原文:Facebook’s AI learns the relationships between physical places from first-person video footage


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-02-28 15:13942

评论

发布
暂无评论
发现更多内容

区块链技术在医疗保健领域的应用展望

CECBC

医疗

寻找被遗忘的勇气(二十四)

Changing Lin

3月日更

学习方法记录

风翱

学习方法 3月日更

如何使用docker-compose快速部署SpringCloud项目

皮特王

Docker nacos Docker-compose spring-cloud

数据结构队列

我是程序员小贱

3月日更

深圳正探索利用区块链技术理念打造“数字政府“

CECBC

大数据

本科毕业,六年Java开发经验,阿里技术三面+HR面,拿下38*16薪资P7offer

Java架构之路

Java 程序员 架构 面试 编程语言

Java泛型最全指南

xcbeyond

Java 泛型 3月日更

智能时代与华为路标:手机影像的文艺复兴史

脑极体

技术中台在企业数字化转型中的践行

EAWorld

人工智能会不会最先在智慧家庭领域落地?

DT极客

为什么海尔智慧家庭能引领行业?软件硬件都没有短板!

DT极客

ETHAT云矿机系统开发案例丨ETHAT云矿机开发源码

系统开发咨询1357O98O718

多线程-基础

九洲城豪横团团长

如何定义错误码

编号94530

Java 错误码 错误处理

大厂喜欢什么样的软件测试人才?

程序员阿沐

程序员 互联网 软件测试 测试开发 测试工程师

3种加强身份和访问管理的方法

龙归科技

解决方案 去中心化 零信任

接口测试--自定义断言设置

测试人生路

接口测试

Go sync.Map 源码解读

werben

Go 语言

C++ socket通讯详解及注意事项

赖猫

c++ 后台开发 后端 服务器开发

C++ 中的 task based 并发

赖猫

c++ 后端 多线程 并发 服务器开发

知乎、B站为何成「中国社区」概念股?

吴俊宇

知乎

能助我拿3家大厂offer的神级Java面试宝典,你值得拥有

Java架构之路

Java 程序员 架构 面试 编程语言

ProxmoxVE系列:Ubuntu服务器版系统安装

Bob

虚拟机 系统 proxmoxve PVE

员工离职的注意事项

石云升

离职 28天写作 职场经验 3月日更

覆盖全产业!海尔智家一口气发7个标准,衣食住娱全包了

DT极客

c++11&14-智能指针

赖猫

c++ 后端

如何革命社交媒体、实现去中心化?丝绸之路创始人在狱中提出了构想

CECBC

社交网络

阿里云盘上线了,2T空间免费领

和牛

软件推荐

ProxmoxVE系列:上传系统镜像&&创建虚拟机

Bob

虚拟机 proxmoxve PVE

ProxmoxVE 系列:如何巧妙的用Xshell连接Ubuntu server服务主机

Bob

虚拟机 系统 proxmoxve PVE

Facebook的AI从视频素材中学习物理位置之间的关系_AI&大模型_KYLE WIGGERS_InfoQ精选文章