阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

谷歌这一新技术,不需要摄像头就能读懂你所有的肢体语言

  • 2022-05-07
  • 本文字数:2945 字

    阅读完需:约 10 分钟

谷歌这一新技术,不需要摄像头就能读懂你所有的肢体语言

本文最初发布于 WIRED 博客,由 InfoQ 中文站翻译并分享。


如果你的电脑因为注意到你没有坐在办公桌前而决定不响起通知铃声,会怎么样?如果你的电视看到你离开沙发去开门,并自动暂停 Netflix,然后在你坐下来的时候继续播放,会怎么样?如果我们的电脑能从我们的动作中获得更多的社交线索,并学会成为更体贴的伙伴,会怎么样?


这听起来很有未来感,当然,或许还有点侵入性——一台电脑在监视你的一举一动?但是,如果你知道这些技术不必依靠摄像头来观察你的位置和行为,就不会觉得那么恐怖了。作为替代,它们使用了雷达。谷歌的先进技术和产品部门—也就是我们常说的 ATAP,该部门是诸如触控式牛仔夹克等古怪项目的幕后推手——在过去一年里,他们一直在探索计算机如何利用雷达来了解我们的需求或意图,并作出适当的反应。


这并不是第一次了,谷歌使用雷达为其小设备提供空间感知能力。2015 年,谷歌发布了Soli,这是一个可以使用雷达电磁波的传感器,可以精确地捕捉到手势和动作。它首次出现在谷歌Pixel 4中,可以检测简单的手势,使用户不需要实际触摸智能手机就可以休眠闹钟或暂停音乐。最近,第二代Nest Hub智能显示器也嵌入了雷达传感器,可以检测睡在它旁边的人的动作和呼吸模式。这样,该设备就能够跟踪该人的睡眠,而且不需要他们戴上智能手表。


同样的 Soli 传感器也被用在了新一轮的研究中,但是,ATAP 不是使用传感器输入直接控制计算机,而是使用传感器数据使计算机能够识别我们的日常动作并做出新的选择。


ATAP 设计主管 Leonardo Giusti 说,“我们相信,随着技术越来越多地进入我们的生活,要求技术从我们这里获得更多的线索,是公正的”。就像你妈妈可能会在你出门前提醒你拿好雨伞一样,也许恒温器可以在你走过时传达同样的信息,或者是电视机检测到你在沙发上睡着了时降低音量。



人类进入计算机的个人空间(图片由谷歌提供,点击查看动图)


Giusti 说,许多研究都是基于空间关系学,即研究人们如何利用他们周围的空间来促成社会互动。当你离一个人越近,就越期望增加参与度和亲密感。ATAP 团队利用这一点和其他社会线索证实,人和设备都有自己的个人空间概念。


雷达可以探测到你向电脑靠近并进入其个人空间。这可能意味着电脑可以选择执行某些动作,如启动屏幕,这个过程不需要你按下按钮。目前,谷歌Nest智能显示器已经具备了这种互动能力,不过谷歌用的不是雷达,而是超声波来测量人与设备的距离。当 Nest Hub 检测到你正在靠近时,它会高亮显示当前的提醒事项、日历活动或其他重要通知。


仅仅靠近还不够。如果你最终看着不同的方向,从机器旁边走了过去,怎么办?为了解决这个问题,Soli 会捕捉到动作和手势中的更多细节,如身体的方向,你可能走哪条路以及头的朝向——并在机器学习算法的帮助下,进一步完善这些数据。雷达获取的这些丰富的信息有助于它更好地预测你是否真的要开始与设备互动,以及可能的互动类型。


这种感知改进来自于该团队在自己的起居室内执行一系列精心设计的任务(他们在大流行期间呆在家里),并使用了头戴摄像机(跟踪自己的行动)和实时雷达感应。


点击观看视频https://youtu.be/r-eh2K4HCzI


ATAP 高级交互设计师 Lauren Bedal 说,“我们以不同的方式移动,变换不同的动作,然后——鉴于我们当时使用的是一个实时系统——我们即兴发挥,在某种程度上,是基于实时发现完成的”。


Bedal 有舞蹈背景。她说,这个过程非常类似于编舞者选取一个基本的动作理念(即运动主题),并探索其变化,如舞者如何移动他们的重心,或改变身体的位置和方向。基于这些研究,团队正式确定了一套动作,而灵感都来自于非语言交流和与设备的自然互动:靠近或离开,经过,朝向或背向,以及扫视。


Bedal 举了几个计算机对这些动作做出反应的例子。如果设备感知到你在靠近,它可以调出触摸控制;走近设备,它会加亮显示收到的电子邮件;离开房间,电视记录你离开时的进度,并在你回来时从那个位置继续播放。如果设备确定你只是路过,它就不会用低优先级的通知来打扰你。如果你在厨房里照着视频烹饪,那么设备可以在你走开去拿材料时暂停,在你回来时恢复播放,并表达继续进行的意图。如果你在打电话时瞥了一眼智能显示器,那么该设备可以提供转到视频通话的选项,这样你就可以放下手机了。


“从所有这些动作中,我们可以窥见未来与计算机交互的一种方式,利用我们的自然动作,感觉非常隐蔽,其理念是,计算机有点退居幕后,只在适当的时候帮助我们,”Bedal 说。“我们真正地推动了人们所认为的人机互动的可能性界限。”


利用雷达来影响计算机对我们的反应是有一些挑战的。例如,虽然雷达可以探测到房间里的多个人,但如果被测者靠得太近,传感器就会把一群人看成是形状不固定的一团,这就导致了决策混乱。还有很多工作要做,这就是为什么 Bedal(多次)强调,这项工作在很大程度上尚处于研究阶段——所以现在还不要指望它出现在下一代智能显示器中。



ATAP 的雷达技术不使用摄像头就可以感知你在往哪看(图片由谷歌提供,点击查看动图)


有充分的理由认为,雷达也可以帮助学习你日常的生活模式。ATAP 的 Giusti 说,这是他们研究路线图上的一个领域,或许可以提供与个人目标相关的健康习惯建议。我想象我的智能显示器在发现我半夜要去吃零食的时候,变出一个巨大的停止标志。


在执行它认为你想要的一系列动作时,这些设备也需要寻求一种平衡。例如,如果我在厨房做饭时想让电视开着怎么办?雷达会检测到没人在看电视,并把电视暂停,而不是让它开着。“当我们开始研究这些感觉非常隐蔽、流畅无卡顿的交互模式时,就需要在用户控制和自动化之间进行适当的平衡了,”Bedal 说。“这似乎不是很麻烦,但我们应该考虑用户可能想要的控制或配置的数量。”


ATAP 团队选择使用雷达,因为这种方法在收集丰富的空间数据时可以更好的保护隐私。(它的延迟非常低,可以在黑暗中工作,而且声音或温度等外部因素对它没影响)。与摄像头不同,雷达不会捕捉和存储可辨别的身体、面部或其他身份标识图像。“它更像是一个先进的运动传感器,”Giusti 说。Soli 探测范围约为 9 英尺——比大多数摄像头要小——但如果家里有多个带有 Soli 传感器的小设备,就可以有效地覆盖你的空间,并创建一个有效的网状网络来追踪你在家中的行踪。(值得注意的是,目前,谷歌 Nest Hub 中的 Soli 传感器数据是在本地处理的,原始数据从未被发送到云端)。



一个内部装有 ATAP 新技术的设备可以感应到你的靠近,然后推测你可能想做的事情并改变其状态。(图片由谷歌提供,点击查看动图)


卡内基梅隆大学人机交互研究员、未来界面小组负责人 Chris Harrison 说,消费者将不得不在个人隐私方面做出权衡——毕竟,谷歌是 "将数据货币化的世界领导者"——但他仍然认为谷歌的无摄像头方法在很大程度遵循了用户至上和隐私至上的原则。“不存在是否侵犯隐私的问题,”Harrison 说。“一切都在波谱上。”


设备必然会配备像 Soli 这样的传感器来收集更多的数据,以便更好地理解我们。最终,Harrison 期望看到,ATAP 基于各种技术设想所进行的人机互动改善。


Harrison 说:“人类能真正地理解人类的行为,而计算机在理解时,确实会额外导致些令人沮丧的[情况] 。把社会科学家和行为科学家带入计算机领域,可以使得这类体验更加令人愉快,更具人文关怀。”


查看英文原文:https://www.wired.com/story/google-soli-atap-research-2022

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-05-07 10:001553
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 493.4 次阅读, 收获喜欢 1966 次。

关注

评论

发布
暂无评论
发现更多内容

程序员自我提升不得不知道的一些宝藏网址,收藏起来吧

北游学Java

Java 后端 资源分享

微信扫码登录技术实现的简单思考

朱季谦

redis

深入理解Spring Security授权机制原理

朱季谦

security

spark性能调优之JVN调优

大数据技术指南

spark 3月日更

vue项目中使用tinymce富文本编辑器实现图片上传/粘贴格式

yumibgt

tinymce

压抑了五个月的我终于可以放声呐喊了!阿里是真的难进,Java四面面经+面试题

Java架构追梦

Java 阿里巴巴 架构 面试 金三银四

Kylin安装部署

五分钟学大数据

kylin 3月日更

统一日志管理方案:Spring项目logback日志与logstash和Elasticsearch整合

朱季谦

ELK

2021最新分享Java面试全套合集!

比伯

Java 编程 架构 面试 计算机

Knativa 基于流量的灰度发布和自动弹性实践

Serverless Devs

Serverless Kubernetes 运维 云原生 Knative

策略枚举:消除在项目里大批量使用if-else的正确姿势

朱季谦

枚举 策略模式

区块链数字版权保护--为数字版权保护赋能

13530558032

HPE的通信技术集团将如何加速电信5G的普及和应用?

VoltDB

数据库 5G VoltDB 电信

近万字原创长文,以追忆2020年:《请回答,2020》

朱季谦

随笔杂谈

android开发经典实战!我的移动开发春季历程,大厂直通车!

欢喜学安卓

android 程序员 面试 移动开发

新思科技解析导致汽车无钥匙进入系统易受攻击的漏洞及缺陷

InfoQ_434670063458

visualvm工具远程对linux服务器上的JVM虚拟机进行监控与调优

朱季谦

JVM GC 调优

模仿Activiti工作流自动建表机制,实现Springboot项目启动后自动创建多表关联的数据库与表的方案

朱季谦

建表

区块链如何应用到食品?区块链食品安全溯源

13530558032

从开源的历史与今天,聊聊为什么要期待HDC.Cloud 2021

脑极体

融云2021 X-Meetup启航 探索高并发下的高质量实时通信架构设计

融云 RongCloud

Rust从0到1-基础概念-函数

rust 函数

Activiti工作流自动生成28张数据库表的底层原理分析

朱季谦

Activity 工作流引擎

什么?都1202年了还不懂k8s和容器的关系?!这份k8s指南快拿走不谢!

观测云

云计算 k8s 云服务 知识星球

嵌入式软件架构设计之分层设计

cdhqyj

架构 软件 嵌入式 分层

区块链农产品溯源平台搭建,一物一码追溯系统

web前端面试题详细解析

yumibgt

面试

智慧党建平台建设--开拓新时期党建系统

13530558032

爱奇艺大数据生态的实时化建设

爱奇艺技术产品团队

大数据 实时数仓 数据流

阿里P7大牛整理!对Android开发的现状和未来发展的思考,吊打面试官系列!

欢喜学安卓

android 程序员 面试 移动开发

Instagram视频下载器: 4K Video Downloader

科技猫

软件 音视频 经验分享 资源分享 工具分享

谷歌这一新技术,不需要摄像头就能读懂你所有的肢体语言_AI&大模型_JULIAN CHOKKAT_InfoQ精选文章