QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

谷歌 AI 和 Facebook 提出 AI 模型 QuaterNet,改善 3D 人体姿势预测

  • 2019-01-25
  • 本文字数:1079 字

    阅读完需:约 4 分钟

谷歌AI和Facebook提出AI模型QuaterNet,改善3D人体姿势预测

预测 3D 人体姿势可能不属于大多数人关注的范畴,但机器人技术、计算机图形学和其他关注运动学的领域(与物体运动有关的力学分支)却可以从能够做到这一点的系统中受益匪浅。此前,由谷歌提出的姿势预测成为应用人工智能(AI)的任务之一,但先前的相关工作遇到了一些障碍:数字关节和骨骼会向不自然的方向拉伸,特别是当关节旋转时。


幸运的是,Facebook 的人工智能研究部门,谷歌大脑和苏黎世联邦理工学院的新研究有望解决这个问题。在本周发布在 Arxiv.org 预印论文网站上的一篇论文(《基于四元数的人体运动神经网络》)中,研究人员提出了一个人工智能系统——QuaterNet,它通过将关节旋转表示为四元数的复数系统,以及惩罚关节位置错误来改善姿势生成。



正如本文的共同作者所解释的那样,循环神经网络(一种能够学习长期相关性的 AI 算法)历来被用于执行短期和长期姿态预测,而卷积神经网络 (非常擅长于分析视觉图像的算法)已成功应用于长期生成运动(从一个位置移动到另一个位置)。但由于人体姿势的固有随机性,是否能获得一个完美的模型仍然难以预测。


“人体运动是一个具有高度不确定性的随机过程,”研究人员写道。“对于一个给定的过去情景,未来会有多个可能的未来帧序列,并且不确定性会随着持续时间而增加。”


大多数模型使用转换运算符来预测先前姿势的下一个姿势。它们从摄取的记录帧中输出记录的目标帧,这在大多数情况下都很有效。但这个过程不会暴露它的错误,因此会阻阻碍它学习,以避免重蹈覆辙。



上图:AI 模型生成的姿势。


相比之下,研究人员提出的系统采用卷积神经网络,它可以查看过去的帧,通过持续将自己暴露于预测中不断学习进行长期预测。同时,损失函数(将一个或多个变量的值映射到实数上的函数)输入关节旋转并计算每个关节的位置。共同作者表示,这既改善了模型的稳定性,又减少了误差。


为了验证该模型的短期姿势预测能力,研究人员在 Human3.6M 上进行测试,这是一个开源 3D 人体姿势数据集,包含来自 7 名演员演示的 15 个动作的 360 万个人类姿势以及相应的图像。而长期生成测试评估在包含运动样本的其他数据集上进行。


在短期预测任务中,报告显示该模型在 Human3.6M 上的性能有所提升。另外,在长期姿势生成任务中,其目标是在给定平均速度和地面轨迹的情况下生成姿势序列,该模型的表现与最近的工作相比为“定性地”,同时时间和空间限制更好。


未来,QuaterNet 将扩展到其他与运动相关的任务中,例如动作识别或视频的姿势估计,以及采用“直接在四元数域中执行计算”的神经网络。


原文链接:


https://venturebeat.com/2019/01/24/facebook-and-googles-ai-generates-3d-human-poses/


2019-01-25 14:375850
用户头像

发布了 98 篇内容, 共 64.7 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

那些把爱好当事业的人,最后怎么样了?

最新动态

基于SDK方式的小程序监控

郑州埃文科技

网络性能

TypeChat入门指南:从安装到对话流程设计

星辰编程理财

typescript typechat

SaaS,PaaS和IaaS:有什么区别,应该使用哪个?

2D3D前端可视化开发

云计算 可视化 IaaS PaaS SaaS

网易云信回声消除量化评估方法

网易智企

回声消除 音视频通话

强劲实力闪耀榜单,智领云连续四年入选“中国大数据50强”

智领云科技

云原生大数据平台 智领云 云原生K8s大数据平台 大数据产业生态大会

从生成式AI到合成式AI ,MarTech下一步如何进化

ToB行业头条

科兴未来|奖金共计1550万元!“苏颂杯”未来产业技术创新赛

科兴未来News

BeanDefinition解密:构建和管理Spring Beans的基石

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 8 月 PK 榜

软件测试 | 查看网页的HTML源代码

测吧(北京)科技有限公司

测试

OpenHarmony携千行百业创新成果亮相HDC.Together 2023

OpenHarmony开发者

OpenHarmony

成都Go面试这么卷?卷王介绍:游戏行业 3年经验 20k+

王中阳Go

Go golang 面试题 面经 算法题

打造自己的站长在线工具箱

echeverra

站长工具

软件测试 | Object类-接收任意引用类型的对象

测吧(北京)科技有限公司

测试

软件测试 |Object类 - 匿名内部类

测吧(北京)科技有限公司

测试

Supersonic 发行平台独家上线“知识中心”,为出海开发者打造游戏智库

科技热闻

网易云信回声消除量化评估方法

网易云信

回声消除 音视频技术

明道云联合EMQ基于IIoT场景技术白皮书

明道云

软件测试 | 什么是安全测试

测吧(北京)科技有限公司

测试

ISO 21434解析:汽车软件开发者的合规实践与指南

龙智—DevSecOps解决方案

汽车电子

网络加速与文件传输软件:如何通过优化网络提升文件传输速度

镭速

文件传输 文件传输软件

openGauss数据库在CentOS上的安装实践

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

【墨菲安全实验室】Apache Traffic Server Range 标头验证不当(CVE-2023-33934)

墨菲安全

Apache 网络安全 安全

软件测试 | 什么是Web应用

测吧(北京)科技有限公司

测试

流计算 Oceanus 操作效率提升指南(一)

腾讯云大数据

流计算 Oceanus

大数据传输的定义与大数据传输解决方案的选择

镭速

大数据传输 大数据传输技术

TypeChat全面指南:从核心概念到使用

星辰编程理财

AIGC AI编程 typechat

直播弹幕源码开发很难?一招教你解决

山东布谷网络科技

直播源码

《操作系统实战 45 讲》笔记1——引导部分

袁世超

操作系统 Cosmos LMOS

腾讯用数字孪生技术,帮这群中学生打造了第一款应用

科技热闻

大环境下,企业如何找到大数据传输解决方案

镭速

大数据传输

谷歌AI和Facebook提出AI模型QuaterNet,改善3D人体姿势预测_AI&大模型_KYLE WIGGERS_InfoQ精选文章