10 月 23 - 25 日,QCon 上海站即将召开,现在大会已开始正式报名,可以享受 8 折优惠 了解详情
写点什么

从 Alexa 犯下的错说开去

  • 2018-08-05
  • 本文字数:3411 字

    阅读完需:约 11 分钟

AI 前线导读:最近各款智能音箱如雨后春笋涌现海内外,这些智能音箱都有个“唤醒词”,比如“Hey Google”、“Alexa”、“小爱同学”、“叮咚叮咚”等等。这很像平时人与人之间交流的方式对吧,有问有答的。智能音箱的工作方式是这样的:唤醒→响应→输入→理解→反馈。但是,在唤醒这个环节,却出现了一些问题,让我们看看事实真相到底如何?

虽然 Amazon 的“唤醒词”功能提高了用户的隐私,但它也带来了自身的挑战,比如 Alexa 录下一段私人对话,未经用户同意就发送出去。

最近,Amazon 的一款 Echo 设备记录了一名用户的私人谈话,并在未经用户知情和同意的情况下,将这段对话发送了他们的一个联系人。这起事件,再次引发了公众对智能音箱的安全性和隐私性的担忧。然而,后来真相大白,Alexa 的这一怪异行为并不是什么阴谋,而是由于智能音箱的工作方式带来的一系列故障引起的。

根据 Amazon 提供的一份报告称:“由于背景对话中有一个词听起来像‘Alexa’,结果 Echo 被触发唤醒了。然后,随后的对话内容就被当做是‘发送信息’的请求了。这时,Alexa 大声地问道:‘发给谁?’,然后背景对话就被解释为客户联系人名单中的一个名字。然后 Alexa 接着大声问道,‘某某某,对吗?’然后 Alexa 将背景对话解读为‘正确’。尽管这一系列事情不大可能发生,但我们正在评估各种选项,减少这一情况的出现。”

这是一种极端例子,这种情况很少发生。但这也是一项有趣的研究,研究的就是为 Echo 和其他所谓的“智能”设备赋能的人工智能技术的局限性。

对云端依赖过多

要理解语音命令,像 Echo 和 Google Home 等智能音箱依赖于深度学习算法,需要大量的计算能力。由于它们没有用于本地执行任务的计算资源,因此,它们必须将数据发送到制造商的云服务器,在云服务器中,人工智能算法将语音数据转换为文本并处理命令。

但是,智能音箱并不能把它们听到的所有内容一股脑都发到云服务器上,因为这样做的话,势必会要求制造商在服务器上存储过多的数据,而其中大部分数据都没有用。而且,意外地记录和存储用户家中发生的私人谈话也会对隐私构成挑战带来隐私风险,并可能给制造商带来麻烦,尤其是在新颁布的《通用数据保护条例》(General Data Protection Regulation,GDPR)对科技公司存储和使用数据的方式施加了严格限制的情况下。

这就是智能音箱为什么设计成这样:只有当用户说出“Alexa”或“Hey Google”之类的唤醒词才能触发智能音箱的唤醒。只有智能音箱听到唤醒词之后,它们才开始将麦克风的音频输入发送到云端进行分析和处理。

虽然这一功能可以改善隐私,但它也带来了自身的挑战,最近的 Alexa 事件就凸显了这一点。

Conversocial 的 CEO Joshua March 表示:“如果‘wake’一词,或者听起来非常像它的东西,在谈话途中被发送的话,那么 Alexa 就不会有任何之前的上下文内容。这个时候,对那些你所设置的技能(Alexa Skills)相关的任何命令(比如短信应用),它听起来就非常困难。在大多数情况下,通过限制 Alexa 关注的上下文内容(因为它没有记录或聆听你的任何正常对话),隐私可以得到极大的提高,虽然这种情况适得其反。”

译注: Alexa 技能(Alexa Skills),允许你将第三方应用添加到 Alexa,就好比将应用添加到你的智能手机一样,详情可参阅 The Best Amazon Alexa Skills https://www.pcmag.com/article/352136/the-best-amazon-alexa-skills

边缘计算技术的进步可能有助于环节这一问题。随着人工智能和深度学习进入越来越多的设备和应用,一些硬件制造商已经创建了专门用于执行人工智能任务的处理器,而不必过多依赖云资源。边缘人工智能处理器可以帮助 Echo 等设备更好地理解和处理对话,而不会将所有数据都发送到云端来侵犯用户的隐私。

语境和意图

除了能接收到不同的、零碎的音频之外,在理解人类对话中的细微差别中,Amazon 的人工智能颇有“力有未逮”之感。

March 说道:“虽然过去几年里,我们在深度学习方面取得了巨大的进步,但是,要想让软件比以前更好地理解语音和图像,仍然还是有很多限制的。虽然语音助理可以识别你所说的内容,但它们并不一定真正理解你所说的意思或者意图。这个世界是很复杂的,但今天,任何一个人工智能系统都还只能处理非常特定的、狭窄的用例。”

例如,就我们人类而言,有很多方法来确定一个句子是不是针对我们,比如语调,或者跟随视觉线索(如讲话者的目光方向)。

相比之下,Alexa 就会假定它是任何包含“A”字的句子的接收者。这就是用户经常意外触发它的原因。

部分问题在于,我们夸大了当前人工智能应用的能力,总是说它们与人类智力水平相当,甚至高于人类,并对它们给予了过多的信任。这就是为什么听到人工智能出现失败状况时,我们就会感到瞠目结舌的原因。

Starmind 创始人、神经学家 Pascal Kaufmann 表示:“这个问题的部分原因在于,‘人工智能’一词在市场上的营销力度如此之大,以至于消费者对这个词相关的产品产生了不应有的信心。这个故事说明,Alexa 有很多能力,并且对如何以及何时应用它们的理解相对有限。”

深度学习算法在面对偏离数据和训练场景的设置时很容易失败。Kaufmann 说:“人类水平的人工智能有一个关键特征,就是自给自足的能力和对内容的真正理解。这点就是真正认为人工智能是具备‘智能’的关键要素,对人工智能的发展至关重要。创造出具有自我意识的数字助理,让它们充分了解人性,将标志着它们从一个有趣的新奇事物转变为一个真正有用的工具。”

但是,创造出人类水平的人工智能(也称为通用人工智能)谈何容易!几十年来,我们一直认为它就是近在咫尺的事,只不过随着科技的进步显示出人类思维是多么复杂时,我们才因此感到了沮丧。许多专家甚至断言,实现通用人工智能是遥不可及的。

同时,狭义人工智能(如当前人工智能技术所描述的)仍然提供了许多机会,并且可以被修复以避免重复错误。需要说明的是,深度学习和机器学习仍处于萌芽阶段,像 Amazon 这样的公司还在不断更新他们的人工智能算法,以解决每次发生的极端例子。

我们需要做什么

Atomic X 的 CTO Eric Moller 说:“这是一个年轻的、新兴的领域。自然语言理解还处于起步阶段,因此,在这个领域中我们有很多事情可以去做。”

Moller 认为,语音分析人工智能算法可以更好地理解语调和音调变化。“在更广泛的句子中,使用‘Alexa’一词听起来不同于调用或命令。Alexa 就不该被触发唤醒,只是因为你顺便说出了它的名字。通过足够的训练,人工智能应该能够分辨出针对智能音箱的特定音调。”

科技公司也可以训练他们的人工智能,以便在接收背景噪音时能够分辨出它们的声音,而不是直接与它们说话。“背景谈话有一种独特的听觉‘特征’,人类非常善于接受并有选择性地排除干扰。我们没有理由不能训练人工智能模型也能做到这一点。”Moller 说。

作为一项预防措施,人工智能助理应该评估它们所做的决策的影响,并在它们想要做一些可能很敏感的事情的情况下参与人类决策。制造商应在他们的技术中加入更多保护措施,以防敏感信息在未经用户明确的同意下被发送。

Tonkean 的首席执行官 Sagi Eliyahi 说:“尽管 Amazon 报告称,Alexa 试图确认它所解释的行为,但有些行为需要更仔细地管理,并以更高的标准来确认用户的意图。人类也有同样的语音识别问题,偶尔会听到错误的请求。然而,与 Alexa 不同的是,人类更有可能确认他们是否理解不明确的请求,更重要的是,人类能够与过去的请求相比,判断请求的可能性有多大。”

结语

尽管科技公司正在优化他们的人工智能应用,以减少错误,但用户将不得不做出最终决定:他们希望自己的人工智能设备在多大程度上暴露于潜在的错误之中。

“这些故事表明,人们愿意分享的数据量与新人工智能技术的前景存在冲突,”数据科学专家 Doug Rose 表示。他曾出过几本关于人工智能和软件的书籍。“你可能会嘲笑 Siri 的迟钝。但是,让它更加智能的最好方法是让它侵入我们的私人谈话。因此,未来十年左右的一个关键问题是,我们将允许这些人工智能体在多大程度上窥探我们的行为呢?”

Starmind 的神经学家 Kaufmann 说,“哪个家庭会在客厅里放一个人类助理,让这个人一直聆听这个家庭任何类型的谈话呢?我们至少应该将同样的标准应用于所谓的‘人工智能’设备(如果不是更高级的话),我们在隐私、保密或可靠性方面也要应用于人工智能。”

原文链接: Learning From Alexa’s Mistakes

感谢陈利鑫对本文的审校。

2018-08-05 18:181777
用户头像

发布了 376 篇内容, 共 204.0 次阅读, 收获喜欢 949 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

拥抱云原生 2.0 时代,Tapdata 入选阿里云首期云原生加速器!

tapdata

数据库 实时数据服务平台

WMS是什么?

源字节1号

开源 后端开发

技术平台&应用开发专题月 | 业务上云后的调试利器—云机一体

用友BIP

用友 用友iuap

译文《Java并发编程之CAS》

潘大壮

乐观锁 并发编程 CAS 并发’ Java Concurrency

java编程技术FastDFS 安装和配置

编程江湖

TypeScript 2.0开启空值的严格检查

华为云开发者联盟

typescript js 空指针 ts

坐标PCB公司,想做实时数仓、推生产线看板,和Tapdata Cloud的偶遇来得就是这么凑巧

tapdata

实时数据

iuap助力三花控股集团打造主数据管理平台

用友BIP

用友 用友iuap

Figma禁封中国企业,下一个会是Postman吗?国产软件势在必行

Liam

后端 Postman Apifox API swagger

Java有了synchronized,为什么还要提供Lock

华为云开发者联盟

Java synchronized 死锁 lock 同步代码块

技术平台&应用开发专题月 | 如何保证业务服务稳定运行—用友云原生技术平台高可用能力介绍

用友BIP

用友 用友iuap

推荐算法!基于隐语义模型的协同过滤推荐之商品相似度矩阵

编程江湖

大数据 算法

基于 EventBridge 构建 SaaS 应用集成方案

阿里巴巴云原生

云原生 SaaS

龙蜥开发者说来了,来看看社区一周动态还有什么? | 3.07-3.11

OpenAnolis小助手

开源 开发者 龙蜥社区 一周动态

详细解读PolarDB HTAP的功能特性和关键技术

阿里云数据库开源

数据库 阿里云 开源 postgre polarDB

Docker Shim 被移除,K8s v1.24 升级该怎么办

Daocloud 道客

Docker Kubernetes CRI-Dockerd

天翼云供应链API安全治理实践获“优秀治理实践奖”

天翼云开发者社区

做开发这么久了,还不会搭建服务器Maven私有仓库?这也太Low了吧

冰河

系统架构 程序开发 程序员进阶 编程基础 Maven仓库

Web安全渗透测试基本流程

学神来啦

网络安全 Web 渗透测试 WEB安全 kali

阿里IM技术分享(七):闲鱼IM的在线、离线聊天数据同步机制优化实践

JackJiang

即时通讯 IM im开发

东数西算加快云网与数据融合天翼云架起云间高速

天翼云开发者社区

深入跨国互联网业务场景,看华为云数智融合元数据如何打破“数据墙”

华为云开发者联盟

大数据 数据仓库 华为云 元数据 数智融合

这是我见过最详细的Nginx 内存池分析

Linux服务器开发

nginx 线程池 Linux服务器开发 Linux后台开发 内存池

新一代对抗作战框架MITRE Engage V1版本正式发布

青藤云安全

网络安全 青藤 青藤云安全

技术平台&应用开发专题月 | 企业上云利器-YMS(Yon Middleware Service)

用友BIP

用友 用友iuap

flask POST请求,数据入库,文件上传,一文看懂,3天掌握Flask开发项目系列博客之三

梦想橡皮擦

3月月更

在线JSON格式化美化

入门小站

工具

一种小程序弱网离线优化的思路

阿里巴巴终端技术

小程序 弱网 体验优化

3天掌握Flask开发项目系列博客之二,操作数据库

梦想橡皮擦

3月月更

由Figma封停大疆,看国产IDE如何应对与突围?

Baihai IDP

人工智能 ide AI 基础软件 国产化

云原生中间件 -- Redis Operator 篇

Daocloud 道客

redis 云原生 中间件 云原生中间件

从Alexa犯下的错说开去_AI&大模型_Ben Dickson_InfoQ精选文章