写点什么

从 Alexa 犯下的错说开去

  • 2018-08-05
  • 本文字数:3411 字

    阅读完需:约 11 分钟

AI 前线导读:最近各款智能音箱如雨后春笋涌现海内外,这些智能音箱都有个“唤醒词”,比如“Hey Google”、“Alexa”、“小爱同学”、“叮咚叮咚”等等。这很像平时人与人之间交流的方式对吧,有问有答的。智能音箱的工作方式是这样的:唤醒→响应→输入→理解→反馈。但是,在唤醒这个环节,却出现了一些问题,让我们看看事实真相到底如何?

虽然 Amazon 的“唤醒词”功能提高了用户的隐私,但它也带来了自身的挑战,比如 Alexa 录下一段私人对话,未经用户同意就发送出去。

最近,Amazon 的一款 Echo 设备记录了一名用户的私人谈话,并在未经用户知情和同意的情况下,将这段对话发送了他们的一个联系人。这起事件,再次引发了公众对智能音箱的安全性和隐私性的担忧。然而,后来真相大白,Alexa 的这一怪异行为并不是什么阴谋,而是由于智能音箱的工作方式带来的一系列故障引起的。

根据 Amazon 提供的一份报告称:“由于背景对话中有一个词听起来像‘Alexa’,结果 Echo 被触发唤醒了。然后,随后的对话内容就被当做是‘发送信息’的请求了。这时,Alexa 大声地问道:‘发给谁?’,然后背景对话就被解释为客户联系人名单中的一个名字。然后 Alexa 接着大声问道,‘某某某,对吗?’然后 Alexa 将背景对话解读为‘正确’。尽管这一系列事情不大可能发生,但我们正在评估各种选项,减少这一情况的出现。”

这是一种极端例子,这种情况很少发生。但这也是一项有趣的研究,研究的就是为 Echo 和其他所谓的“智能”设备赋能的人工智能技术的局限性。

对云端依赖过多

要理解语音命令,像 Echo 和 Google Home 等智能音箱依赖于深度学习算法,需要大量的计算能力。由于它们没有用于本地执行任务的计算资源,因此,它们必须将数据发送到制造商的云服务器,在云服务器中,人工智能算法将语音数据转换为文本并处理命令。

但是,智能音箱并不能把它们听到的所有内容一股脑都发到云服务器上,因为这样做的话,势必会要求制造商在服务器上存储过多的数据,而其中大部分数据都没有用。而且,意外地记录和存储用户家中发生的私人谈话也会对隐私构成挑战带来隐私风险,并可能给制造商带来麻烦,尤其是在新颁布的《通用数据保护条例》(General Data Protection Regulation,GDPR)对科技公司存储和使用数据的方式施加了严格限制的情况下。

这就是智能音箱为什么设计成这样:只有当用户说出“Alexa”或“Hey Google”之类的唤醒词才能触发智能音箱的唤醒。只有智能音箱听到唤醒词之后,它们才开始将麦克风的音频输入发送到云端进行分析和处理。

虽然这一功能可以改善隐私,但它也带来了自身的挑战,最近的 Alexa 事件就凸显了这一点。

Conversocial 的 CEO Joshua March 表示:“如果‘wake’一词,或者听起来非常像它的东西,在谈话途中被发送的话,那么 Alexa 就不会有任何之前的上下文内容。这个时候,对那些你所设置的技能(Alexa Skills)相关的任何命令(比如短信应用),它听起来就非常困难。在大多数情况下,通过限制 Alexa 关注的上下文内容(因为它没有记录或聆听你的任何正常对话),隐私可以得到极大的提高,虽然这种情况适得其反。”

译注: Alexa 技能(Alexa Skills),允许你将第三方应用添加到 Alexa,就好比将应用添加到你的智能手机一样,详情可参阅 The Best Amazon Alexa Skills https://www.pcmag.com/article/352136/the-best-amazon-alexa-skills

边缘计算技术的进步可能有助于环节这一问题。随着人工智能和深度学习进入越来越多的设备和应用,一些硬件制造商已经创建了专门用于执行人工智能任务的处理器,而不必过多依赖云资源。边缘人工智能处理器可以帮助 Echo 等设备更好地理解和处理对话,而不会将所有数据都发送到云端来侵犯用户的隐私。

语境和意图

除了能接收到不同的、零碎的音频之外,在理解人类对话中的细微差别中,Amazon 的人工智能颇有“力有未逮”之感。

March 说道:“虽然过去几年里,我们在深度学习方面取得了巨大的进步,但是,要想让软件比以前更好地理解语音和图像,仍然还是有很多限制的。虽然语音助理可以识别你所说的内容,但它们并不一定真正理解你所说的意思或者意图。这个世界是很复杂的,但今天,任何一个人工智能系统都还只能处理非常特定的、狭窄的用例。”

例如,就我们人类而言,有很多方法来确定一个句子是不是针对我们,比如语调,或者跟随视觉线索(如讲话者的目光方向)。

相比之下,Alexa 就会假定它是任何包含“A”字的句子的接收者。这就是用户经常意外触发它的原因。

部分问题在于,我们夸大了当前人工智能应用的能力,总是说它们与人类智力水平相当,甚至高于人类,并对它们给予了过多的信任。这就是为什么听到人工智能出现失败状况时,我们就会感到瞠目结舌的原因。

Starmind 创始人、神经学家 Pascal Kaufmann 表示:“这个问题的部分原因在于,‘人工智能’一词在市场上的营销力度如此之大,以至于消费者对这个词相关的产品产生了不应有的信心。这个故事说明,Alexa 有很多能力,并且对如何以及何时应用它们的理解相对有限。”

深度学习算法在面对偏离数据和训练场景的设置时很容易失败。Kaufmann 说:“人类水平的人工智能有一个关键特征,就是自给自足的能力和对内容的真正理解。这点就是真正认为人工智能是具备‘智能’的关键要素,对人工智能的发展至关重要。创造出具有自我意识的数字助理,让它们充分了解人性,将标志着它们从一个有趣的新奇事物转变为一个真正有用的工具。”

但是,创造出人类水平的人工智能(也称为通用人工智能)谈何容易!几十年来,我们一直认为它就是近在咫尺的事,只不过随着科技的进步显示出人类思维是多么复杂时,我们才因此感到了沮丧。许多专家甚至断言,实现通用人工智能是遥不可及的。

同时,狭义人工智能(如当前人工智能技术所描述的)仍然提供了许多机会,并且可以被修复以避免重复错误。需要说明的是,深度学习和机器学习仍处于萌芽阶段,像 Amazon 这样的公司还在不断更新他们的人工智能算法,以解决每次发生的极端例子。

我们需要做什么

Atomic X 的 CTO Eric Moller 说:“这是一个年轻的、新兴的领域。自然语言理解还处于起步阶段,因此,在这个领域中我们有很多事情可以去做。”

Moller 认为,语音分析人工智能算法可以更好地理解语调和音调变化。“在更广泛的句子中,使用‘Alexa’一词听起来不同于调用或命令。Alexa 就不该被触发唤醒,只是因为你顺便说出了它的名字。通过足够的训练,人工智能应该能够分辨出针对智能音箱的特定音调。”

科技公司也可以训练他们的人工智能,以便在接收背景噪音时能够分辨出它们的声音,而不是直接与它们说话。“背景谈话有一种独特的听觉‘特征’,人类非常善于接受并有选择性地排除干扰。我们没有理由不能训练人工智能模型也能做到这一点。”Moller 说。

作为一项预防措施,人工智能助理应该评估它们所做的决策的影响,并在它们想要做一些可能很敏感的事情的情况下参与人类决策。制造商应在他们的技术中加入更多保护措施,以防敏感信息在未经用户明确的同意下被发送。

Tonkean 的首席执行官 Sagi Eliyahi 说:“尽管 Amazon 报告称,Alexa 试图确认它所解释的行为,但有些行为需要更仔细地管理,并以更高的标准来确认用户的意图。人类也有同样的语音识别问题,偶尔会听到错误的请求。然而,与 Alexa 不同的是,人类更有可能确认他们是否理解不明确的请求,更重要的是,人类能够与过去的请求相比,判断请求的可能性有多大。”

结语

尽管科技公司正在优化他们的人工智能应用,以减少错误,但用户将不得不做出最终决定:他们希望自己的人工智能设备在多大程度上暴露于潜在的错误之中。

“这些故事表明,人们愿意分享的数据量与新人工智能技术的前景存在冲突,”数据科学专家 Doug Rose 表示。他曾出过几本关于人工智能和软件的书籍。“你可能会嘲笑 Siri 的迟钝。但是,让它更加智能的最好方法是让它侵入我们的私人谈话。因此,未来十年左右的一个关键问题是,我们将允许这些人工智能体在多大程度上窥探我们的行为呢?”

Starmind 的神经学家 Kaufmann 说,“哪个家庭会在客厅里放一个人类助理,让这个人一直聆听这个家庭任何类型的谈话呢?我们至少应该将同样的标准应用于所谓的‘人工智能’设备(如果不是更高级的话),我们在隐私、保密或可靠性方面也要应用于人工智能。”

原文链接: Learning From Alexa’s Mistakes

感谢陈利鑫对本文的审校。

2018-08-05 18:181650
用户头像

发布了 376 篇内容, 共 199.8 次阅读, 收获喜欢 949 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

VMware Cloud Director 10.6 发布,新增功能概览

sysin

vmware Cloud Director

比特币矿工该如何选择矿池?请收下这份 2024 年六大比特币矿池指南

TechubNews

API自动化测试平台:企业API管理的得力助手

RestCloud

API接口 ipaas api自动化 api自动化测试平台

拼多多商品详情数据接口使用方法

tbapi

拼多多商品详情接口 拼多多API

测试热招职位技能要求拆解公开课 — 开启你的软件测试进阶之路

测试人

软件测试

Meta 最新 SPIRIT-LM:语音文本无缝转换还能懂情绪;字节回应实习生破坏大模型训练:网传损失不实丨 RTE 开发者日报

声网

一文彻底弄懂MySQL的MVCC多版本控制器

不在线第一只蜗牛

MySQL

智源发布原生多模态世界模型Emu3 实现图像、文本、视频大一统

智源研究院

低代码平台助力医疗业实现业务优化与合规管理:全面提升运营效率

天津汇柏科技有限公司

低代码平台

无需公网IP,贝锐花生壳内网穿透实现APP服务端API快速接入

贝锐

内网穿透 API 性能测试

望繁信科技荣获2022年度创新产品与解决方案大奖

望繁信科技

数字化转型 流程挖掘 流程资产 流程智能 数字北极星

VMware ESXi 8.0U3 macOS Unlocker & OEM BIOS 2.7 Dell HPE 定制版 9 月更新发布

sysin

macos windows esxi OEM 2.7

数字身份管理建设是传统社会向数字社会演进的核心关键

芯盾时代

数字身份 身份安全

【CCE Autopilot专栏】资源成本降低60%,Serverless的省钱秘籍

华为云原生团队

云计算 容器 云原生

探索阿里巴巴中国站商品详情API返回值的多样性

技术冰糖葫芦

API Explorer API 文档 API 测试 API 性能测试

几行代码带你用TinyEngine低代码引擎开发侧边栏插件

华为云开发者联盟

开源 前端开发 低代码 TinyEngine

按图搜索的智能化:拍立淘API返回值的算法解析

技术冰糖葫芦

API Explorer API 文档 API 测试 API 性能测试

CAE教程:HyperMesh概述与有限元分析简介

智造软件

仿真 hyperworks 有限元

Swap丨DAPP开发:兑换交易所质押项目LP分红系统

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 NFT开发 代币开发

DApp众筹项目互助模式系统开发详细步骤与功能设计

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 钱包开发 代币开发

Web网页端IM产品RainbowChat-Web的v7.2版已发布

JackJiang

即时通讯;IM;网络编程

喜报!Bonree ONE荣膺GOITI首个“可观测性领域年度明星产品奖”

博睿数据

Web3 游戏周报(10.13 - 10.19)

Footprint Analytics

链游

VMware ESXi 8.0U3 HPE (慧与) 定制版更新 OEM BIOS 2.7 支持 Windows Server 2025

sysin

macos windows esxi OEM 2.7

冲击美团!已成功 OC

王中阳Go

Go 面试 后端

2024年游戏买量应该怎么玩?

FinFish

小程序容器 游戏买量 小游戏技术 快平台游戏买量

华为云架构师深度解读Volcano云原生混部解决方案

华为云开发者联盟

云原生 Volcano 资源调度

租用海外云手机应注意些什么?

Ogcloud

云手机 云手机群控 云手机推荐 云手机养号 跨境电商运营

NFTScan | 10.14~10.20 NFT 市场热点汇总

NFT Research

NFT\ NFTScan

从Alexa犯下的错说开去_AI&大模型_Ben Dickson_InfoQ精选文章