2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Facebook 的 AI 从视频素材中学习物理位置之间的关系

  • 2020-02-28
  • 本文字数:1533 字

    阅读完需:约 5 分钟

Facebook的AI从视频素材中学习物理位置之间的关系

通常,计算机视觉系统擅长检测物体,但却很难理解这些物体所处的环境。这是因为它们将观察到的行为与物理环境分开了——即使是那些做了模型环境的系统也无法区分与行为相关的元素和不相关的元素(例如,柜台上的砧板与随便一块地板)。


本文最初发布于 VentureBeat,经原作者授权由 InfoQ 中文站翻译并分享。



在一段第一人称视频中,Ego-Topo 构建了一个环境的拓扑地图,揭示了活动中心区域以及它们被访问的顺序。(图片来源:Facebook)


通常,计算机视觉系统擅长检测物体,但却很难理解这些物体所处的环境。这是因为它们将观察到的行为与物理环境分开了——即使是那些做了模型环境的系统也无法区分与行为相关的元素和不相关的元素(例如,柜台上的砧板与随便一块地板)。


这就是为什么德克萨斯大学和 Facebook AI Research 的一组研究人员在论文Ego-Topo(该技术将从视频中捕捉到的空间分解成活动的拓扑地图,然后将视频组织成对不同区域的一系列访问)中对此进行了研究。将场景重组为“访问”而不是一系列的镜头,他们断言,Ego-Topo 能够推断第一人称行为(例如,一个人未来最可能采取什么行动?)和环境本身(例如,在一个特定的区域里有哪些可能的对象交互,即使尚未观察到的?)。


“我们的……[模型]比上面讨论的已有模型有优势……[I]提供了对过去的简洁的空间结构再现,[与]‘纯 3D’方法不同,我们的地图是根据人们对空间的使用有机地定义的。”


Ego-Topo 利用一个人工智能模型,它使用一个空间从视频中发现人们经常访问的地方,基于共享的物理空间和区域所提供的功能(与物理位置无关),按时间连接这些画面。(例如,视频开始时的洗碗机可能连接到结束时的同一台洗碗机,而厨房中的垃圾桶可能连接到另一厨房的垃圾处理机。)一组单独的模型利用生成的图来揭示环境的可用性,并在长视频中预测未来的动作。



跨多个区域的连接空间(例如,来自多个厨房的视频)有助于对环境及其功能用途的综合表示,这样,Ego-Topo 就能分析出环境的哪些部分与人类活动相关,以及这些区域的活动如何实现特定的目标。例如,给定一个厨房,即使不是每个视频都访问了厨房的所有部分,Ego-Top 也可以跨不同的视频进行连接,创建一个厨房的组合地图,说明这个永久化物理空间的用途。此外,它还可以连接多个厨房的区域,创建综合的地图,显示不同厨房之间的关系。


在实验中,该团队在两个关键任务上展示了 Ego-Topo:以一个新的视角推断可能的对象交互以及预测完成一个长期活动所需采取的行动。为了评估其性能,他们在 EGTEA Gaze+(其中包含 32 个主体在一个厨房里按照 7 个食谱准备一道菜的完整过程)和 EPIC-Kitchens(由日常厨房活动的视频,不局限于单一食谱或对象)上训练底层模型。



他们报告说,与基准相比,Ego-Topo 在所有预测层面上的表现都更好,而且它在预测遥远未来的行动方面表现出色。此外,他们还表示,将行动与模型拓扑图中发现的区域连接起来,可以得到进一步的改进,还可以根据其在综合图中的功能对空间进行对齐——特别是对于仅与单个位置相关的罕见类别。


“我们的方法最适合于(第一人称)视频中的长期活动,在这种活动中,区域会随着时间的推移以多种方式被反复访问和使用。这一定义广泛适用于常见的家庭和工作环境(如办公室、厨房、零售店、杂货店),”研究人员写道。“这些任务说明了一个能够成功推断场景功能的视觉系统将如何为增强现实(AR)和机器人技术的应用提供帮助。例如,如果一个 AR 系统知道在环境中哪些地方可以进行操作,那么它就可以通过教程以交互的方式指导用户;一个能够通过视频学习人们如何使用区域的移动机器人将可以在没有大量探索的情况下做好行动准备。”


英文原文:Facebook’s AI learns the relationships between physical places from first-person video footage


2020-02-28 15:131375

评论

发布
暂无评论
发现更多内容

「推荐收藏!」【MySQL技术之旅】(4)总结和盘点优化方案系列之常用SQL的优化

码界西柚

MySQL 数据库 2月日更 优化专题

TO B Ask100-1、2| 破解“ All in one”悖论;如何降低客户成功成本?

B Impact

「Go框架」mvc模式:iris中的mvc包是如何将model、view、controller联系在一起的?

Go学堂

golang 开源 程序员 个人成长

docker jenkins

平凡人生

智慧赋能,Analysys易观宣布接入百度“文心一言”能力,共同打造数字经济智慧分析全系产品及服务

易观分析

易观新闻 易观

DawnSql构建数仓--DawnSql集群的安装

陈飞

分布式数据库 实时数仓 实时数据引擎 实时数据平台

无FTTR不千兆,华为星光F30让家中不再有“隐秘的角落”

脑极体

华为 宽带 光纤

使用开源实时监控 HertzBeat 5分钟搞定 Linux 监控

TanCloud探云

Java GitHub 开源

Zebec完成BNB Chain以及Near链上协议部署,多链化进程加速

鳄鱼视界

vue项目中webpack-dev-server的open和host0.0.0.0配置冲突

咖啡教室

Vue webpack

小游戏也能脱离微信运行到自己的app中

Onegun

微信小程序 小游戏 小游戏开发 微信小程序-游戏

DawnSql超越传统数据仓库

陈飞

分布式数据库 实时数仓 数仓 实时数据湖

面试官:熔断和降级有什么区别?

王磊

java面试

「 Java基础-泛型 」一文说清Java泛型中的通配符T、E、K、V、N、?和Object的区别和含义

小刘学编程

Java 源码阅读 Java泛型 构架师

不是留给飞书的时间不够,而是中国To B需要重塑时间观

B Impact

【ECCV 2022】高效视频学习框架 EVL,CLIP 助力视频识别

Zilliz

《数字经济全景白皮书》金融篇:五十弦翻塞外声,金融热点领域如何实现增长?

易观分析

金融 经济

新必应(New Bing)申请与使用教程

kcodez

聊天机器人 ChatGPT newbing 新必应

java高级工程师体系课第四周作业

刘博

业务+研发=一体化管理平台?

没有用户名丶

小程序化

基于Web的6个完美3D图形WebGL库

2D3D前端可视化开发

前端开发 WebGL webgl库 3d图形库 webgl框架

李志飞回媒体“出门问问硬件和ToB业务”表现不错,将做中国 OpenAI,美国YC项目1/3已基于大模型

B Impact

重磅!GitLab 提出五大预测,洞见 2023 年 DevSecOps 发展趋势

极狐GitLab

DevOps 安全 DevSecOps 安全左移 供应链安全

飞书首次披露2022年1亿美金ARR,明确 TO B商业化立场

B Impact

2023-02-16:两种颜色的球,蓝色和红色,都按1~n编号,共计2n个, 为方便放在一个数组中,红球编号取负,篮球不变,并打乱顺序, 要求同一种颜色的球按编号升序排列,可以进行如下操作: 交换相邻

福大大架构师每日一题

算法 rust 福大大

2023 年 dotnet 仓库社区年度调查已经开始

newbe36524

C#

这些「误区」99%的研发都踩过

程序人生 职场

API+DevOps:华为云API Arts一体化平台,端到端呵护您的API

API

Facebook的AI从视频素材中学习物理位置之间的关系_AI&大模型_KYLE WIGGERS_InfoQ精选文章