“AI 技术+人才”如何成为企业增长新引擎?戳此了解>>> 了解详情
写点什么

谷歌这一新技术,不需要摄像头就能读懂你所有的肢体语言

  • 2022-05-07
  • 本文字数:2945 字

    阅读完需:约 10 分钟

谷歌这一新技术,不需要摄像头就能读懂你所有的肢体语言

本文最初发布于 WIRED 博客,由 InfoQ 中文站翻译并分享。


如果你的电脑因为注意到你没有坐在办公桌前而决定不响起通知铃声,会怎么样?如果你的电视看到你离开沙发去开门,并自动暂停 Netflix,然后在你坐下来的时候继续播放,会怎么样?如果我们的电脑能从我们的动作中获得更多的社交线索,并学会成为更体贴的伙伴,会怎么样?


这听起来很有未来感,当然,或许还有点侵入性——一台电脑在监视你的一举一动?但是,如果你知道这些技术不必依靠摄像头来观察你的位置和行为,就不会觉得那么恐怖了。作为替代,它们使用了雷达。谷歌的先进技术和产品部门—也就是我们常说的 ATAP,该部门是诸如触控式牛仔夹克等古怪项目的幕后推手——在过去一年里,他们一直在探索计算机如何利用雷达来了解我们的需求或意图,并作出适当的反应。


这并不是第一次了,谷歌使用雷达为其小设备提供空间感知能力。2015 年,谷歌发布了Soli,这是一个可以使用雷达电磁波的传感器,可以精确地捕捉到手势和动作。它首次出现在谷歌Pixel 4中,可以检测简单的手势,使用户不需要实际触摸智能手机就可以休眠闹钟或暂停音乐。最近,第二代Nest Hub智能显示器也嵌入了雷达传感器,可以检测睡在它旁边的人的动作和呼吸模式。这样,该设备就能够跟踪该人的睡眠,而且不需要他们戴上智能手表。


同样的 Soli 传感器也被用在了新一轮的研究中,但是,ATAP 不是使用传感器输入直接控制计算机,而是使用传感器数据使计算机能够识别我们的日常动作并做出新的选择。


ATAP 设计主管 Leonardo Giusti 说,“我们相信,随着技术越来越多地进入我们的生活,要求技术从我们这里获得更多的线索,是公正的”。就像你妈妈可能会在你出门前提醒你拿好雨伞一样,也许恒温器可以在你走过时传达同样的信息,或者是电视机检测到你在沙发上睡着了时降低音量。



人类进入计算机的个人空间(图片由谷歌提供,点击查看动图)


Giusti 说,许多研究都是基于空间关系学,即研究人们如何利用他们周围的空间来促成社会互动。当你离一个人越近,就越期望增加参与度和亲密感。ATAP 团队利用这一点和其他社会线索证实,人和设备都有自己的个人空间概念。


雷达可以探测到你向电脑靠近并进入其个人空间。这可能意味着电脑可以选择执行某些动作,如启动屏幕,这个过程不需要你按下按钮。目前,谷歌Nest智能显示器已经具备了这种互动能力,不过谷歌用的不是雷达,而是超声波来测量人与设备的距离。当 Nest Hub 检测到你正在靠近时,它会高亮显示当前的提醒事项、日历活动或其他重要通知。


仅仅靠近还不够。如果你最终看着不同的方向,从机器旁边走了过去,怎么办?为了解决这个问题,Soli 会捕捉到动作和手势中的更多细节,如身体的方向,你可能走哪条路以及头的朝向——并在机器学习算法的帮助下,进一步完善这些数据。雷达获取的这些丰富的信息有助于它更好地预测你是否真的要开始与设备互动,以及可能的互动类型。


这种感知改进来自于该团队在自己的起居室内执行一系列精心设计的任务(他们在大流行期间呆在家里),并使用了头戴摄像机(跟踪自己的行动)和实时雷达感应。


点击观看视频https://youtu.be/r-eh2K4HCzI


ATAP 高级交互设计师 Lauren Bedal 说,“我们以不同的方式移动,变换不同的动作,然后——鉴于我们当时使用的是一个实时系统——我们即兴发挥,在某种程度上,是基于实时发现完成的”。


Bedal 有舞蹈背景。她说,这个过程非常类似于编舞者选取一个基本的动作理念(即运动主题),并探索其变化,如舞者如何移动他们的重心,或改变身体的位置和方向。基于这些研究,团队正式确定了一套动作,而灵感都来自于非语言交流和与设备的自然互动:靠近或离开,经过,朝向或背向,以及扫视。


Bedal 举了几个计算机对这些动作做出反应的例子。如果设备感知到你在靠近,它可以调出触摸控制;走近设备,它会加亮显示收到的电子邮件;离开房间,电视记录你离开时的进度,并在你回来时从那个位置继续播放。如果设备确定你只是路过,它就不会用低优先级的通知来打扰你。如果你在厨房里照着视频烹饪,那么设备可以在你走开去拿材料时暂停,在你回来时恢复播放,并表达继续进行的意图。如果你在打电话时瞥了一眼智能显示器,那么该设备可以提供转到视频通话的选项,这样你就可以放下手机了。


“从所有这些动作中,我们可以窥见未来与计算机交互的一种方式,利用我们的自然动作,感觉非常隐蔽,其理念是,计算机有点退居幕后,只在适当的时候帮助我们,”Bedal 说。“我们真正地推动了人们所认为的人机互动的可能性界限。”


利用雷达来影响计算机对我们的反应是有一些挑战的。例如,虽然雷达可以探测到房间里的多个人,但如果被测者靠得太近,传感器就会把一群人看成是形状不固定的一团,这就导致了决策混乱。还有很多工作要做,这就是为什么 Bedal(多次)强调,这项工作在很大程度上尚处于研究阶段——所以现在还不要指望它出现在下一代智能显示器中。



ATAP 的雷达技术不使用摄像头就可以感知你在往哪看(图片由谷歌提供,点击查看动图)


有充分的理由认为,雷达也可以帮助学习你日常的生活模式。ATAP 的 Giusti 说,这是他们研究路线图上的一个领域,或许可以提供与个人目标相关的健康习惯建议。我想象我的智能显示器在发现我半夜要去吃零食的时候,变出一个巨大的停止标志。


在执行它认为你想要的一系列动作时,这些设备也需要寻求一种平衡。例如,如果我在厨房做饭时想让电视开着怎么办?雷达会检测到没人在看电视,并把电视暂停,而不是让它开着。“当我们开始研究这些感觉非常隐蔽、流畅无卡顿的交互模式时,就需要在用户控制和自动化之间进行适当的平衡了,”Bedal 说。“这似乎不是很麻烦,但我们应该考虑用户可能想要的控制或配置的数量。”


ATAP 团队选择使用雷达,因为这种方法在收集丰富的空间数据时可以更好的保护隐私。(它的延迟非常低,可以在黑暗中工作,而且声音或温度等外部因素对它没影响)。与摄像头不同,雷达不会捕捉和存储可辨别的身体、面部或其他身份标识图像。“它更像是一个先进的运动传感器,”Giusti 说。Soli 探测范围约为 9 英尺——比大多数摄像头要小——但如果家里有多个带有 Soli 传感器的小设备,就可以有效地覆盖你的空间,并创建一个有效的网状网络来追踪你在家中的行踪。(值得注意的是,目前,谷歌 Nest Hub 中的 Soli 传感器数据是在本地处理的,原始数据从未被发送到云端)。



一个内部装有 ATAP 新技术的设备可以感应到你的靠近,然后推测你可能想做的事情并改变其状态。(图片由谷歌提供,点击查看动图)


卡内基梅隆大学人机交互研究员、未来界面小组负责人 Chris Harrison 说,消费者将不得不在个人隐私方面做出权衡——毕竟,谷歌是 "将数据货币化的世界领导者"——但他仍然认为谷歌的无摄像头方法在很大程度遵循了用户至上和隐私至上的原则。“不存在是否侵犯隐私的问题,”Harrison 说。“一切都在波谱上。”


设备必然会配备像 Soli 这样的传感器来收集更多的数据,以便更好地理解我们。最终,Harrison 期望看到,ATAP 基于各种技术设想所进行的人机互动改善。


Harrison 说:“人类能真正地理解人类的行为,而计算机在理解时,确实会额外导致些令人沮丧的[情况] 。把社会科学家和行为科学家带入计算机领域,可以使得这类体验更加令人愉快,更具人文关怀。”


查看英文原文:https://www.wired.com/story/google-soli-atap-research-2022

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2022-05-07 10:001532
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 489.2 次阅读, 收获喜欢 1965 次。

关注

评论

发布
暂无评论
发现更多内容

Linux系统中bashrc和profile的区别

百度搜索:蓝易云

Linux 运维 Profile 云服务器 bashrc

人工智能革命:共同探索AIGC时代的未来

快乐非自愿限量之名

人工智能 大数据 AIGC

业内好用的低代码平台推荐

segao0927

低代码 PaaS

整体模块化区块链技术引领区块链大规模采用

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

SD-WAN网络的可扩展性解析

Ogcloud

网络 SD-WAN 组网

1688商品API在跨境电商中的应用场景

技术冰糖葫芦

API

SD-WAN优化远程办公网络体验

Ogcloud

远程办公 网络 SD-WAN 组网

软件测试/测试开发|详解selenium xpath定位

霍格沃兹测试开发学社

双喜临门!Apache IoTDB 及核心贡献者荣获开放原子评选生态开源项目+活力开源贡献者

Apache IoTDB

OpenAI 工程师自曝开发 ChatGPT 仅用时 8 天丨 RTE 开发者日报 Vol.108

声网

JProfiler for Mac:跨平台兼容性,适用性广泛

iMac小白

面试官问我:线程锁导致的kafka客户端超时,如何解决?

华为云开发者联盟

开发 华为云 华为云开发者联盟 线程锁

MongoDB与大数据处理:构建高性能分布式数据库

互联网工科生

mongodb 非关系型数据库

第五代英特尔至强可扩展处理器AI性能大幅提升,英特尔加注推动人工智能无处不在

E科讯

大数据服务与低代码开发:赋能创新与效率的双剑合璧

不在线第一只蜗牛

大数据 软件开发 低代码

缺少反向ETL能力?ETLCloud帮你清障

RestCloud

数据仓库 ETL 数据集成

武汉 Linux 爱好者线下沙龙:WHLUG 2023 收官!不容错过!

nn-30

Linux 技术交流 线下沙龙 WHLUG LUG

迈向AI+API经济的智能时代

幂简集成

人工智能 AI API

演讲回顾:半导体设计中的数字资产管理最佳实践

龙智—DevSecOps解决方案

数字资产管理

一周内,体育赛事直播平台开发搭建上线!

软件开发-梦幻运营部

低代码助力软件开发

高端章鱼哥

软件开发 低代码 JNPF

软件测试/测试开发|最容易上手的Ubuntu虚拟机安装教程

霍格沃兹测试开发学社

文心一言 VS 讯飞星火 VS chatgpt (159)-- 算法导论12.3 6题

福大大架构师每日一题

福大大架构师每日一题

用AI PC助力创新无限想象,英特尔人工智能创新应用大赛正式启动

E科讯

centos 7.9离线下载安装vscode,以及插件安装下载教程。

百度搜索:蓝易云

云计算 Linux centos vscode 云服务器

大模型时代,未来所有公司都是 Data+AI 公司

Kyligence

人工智能 数据分析

软件测试/测试开发|GitHub怎么用,这篇文章告诉你

霍格沃兹测试开发学社

Beyond Compare 4 for Mac v4.4.7(28397)中文版下载

iMac小白

Pipeline 助您轻松驾驭海量数据!

观测云

数据分析 日志 pipeline

有道基于 Amoro Mixed Format 构建准实时湖仓实践

Amoro Community

大数据 开源 湖仓一体 有道 实时湖仓

企业场景中大语言模型的应用实践探索丨Fabarta 技术专栏

Fabarta

大模型 数据基础设施 多模态大模型 大模型应用开发

谷歌这一新技术,不需要摄像头就能读懂你所有的肢体语言_AI&大模型_JULIAN CHOKKAT_InfoQ精选文章