【FCon上海】与行业领袖共话AI大模型、数字化风控等前沿技术。 了解详情
写点什么

从 Alexa 犯下的错说开去

  • 2018-08-05
  • 本文字数:3411 字

    阅读完需:约 11 分钟

AI 大模型超全落地场景&金融应用实践,8 月 16 - 19 日 FCon x AICon 大会联诀来袭、干货翻倍!

AI 前线导读:最近各款智能音箱如雨后春笋涌现海内外,这些智能音箱都有个“唤醒词”,比如“Hey Google”、“Alexa”、“小爱同学”、“叮咚叮咚”等等。这很像平时人与人之间交流的方式对吧,有问有答的。智能音箱的工作方式是这样的:唤醒→响应→输入→理解→反馈。但是,在唤醒这个环节,却出现了一些问题,让我们看看事实真相到底如何?

虽然 Amazon 的“唤醒词”功能提高了用户的隐私,但它也带来了自身的挑战,比如 Alexa 录下一段私人对话,未经用户同意就发送出去。

最近,Amazon 的一款 Echo 设备记录了一名用户的私人谈话,并在未经用户知情和同意的情况下,将这段对话发送了他们的一个联系人。这起事件,再次引发了公众对智能音箱的安全性和隐私性的担忧。然而,后来真相大白,Alexa 的这一怪异行为并不是什么阴谋,而是由于智能音箱的工作方式带来的一系列故障引起的。

根据 Amazon 提供的一份报告称:“由于背景对话中有一个词听起来像‘Alexa’,结果 Echo 被触发唤醒了。然后,随后的对话内容就被当做是‘发送信息’的请求了。这时,Alexa 大声地问道:‘发给谁?’,然后背景对话就被解释为客户联系人名单中的一个名字。然后 Alexa 接着大声问道,‘某某某,对吗?’然后 Alexa 将背景对话解读为‘正确’。尽管这一系列事情不大可能发生,但我们正在评估各种选项,减少这一情况的出现。”

这是一种极端例子,这种情况很少发生。但这也是一项有趣的研究,研究的就是为 Echo 和其他所谓的“智能”设备赋能的人工智能技术的局限性。

对云端依赖过多

要理解语音命令,像 Echo 和 Google Home 等智能音箱依赖于深度学习算法,需要大量的计算能力。由于它们没有用于本地执行任务的计算资源,因此,它们必须将数据发送到制造商的云服务器,在云服务器中,人工智能算法将语音数据转换为文本并处理命令。

但是,智能音箱并不能把它们听到的所有内容一股脑都发到云服务器上,因为这样做的话,势必会要求制造商在服务器上存储过多的数据,而其中大部分数据都没有用。而且,意外地记录和存储用户家中发生的私人谈话也会对隐私构成挑战带来隐私风险,并可能给制造商带来麻烦,尤其是在新颁布的《通用数据保护条例》(General Data Protection Regulation,GDPR)对科技公司存储和使用数据的方式施加了严格限制的情况下。

这就是智能音箱为什么设计成这样:只有当用户说出“Alexa”或“Hey Google”之类的唤醒词才能触发智能音箱的唤醒。只有智能音箱听到唤醒词之后,它们才开始将麦克风的音频输入发送到云端进行分析和处理。

虽然这一功能可以改善隐私,但它也带来了自身的挑战,最近的 Alexa 事件就凸显了这一点。

Conversocial 的 CEO Joshua March 表示:“如果‘wake’一词,或者听起来非常像它的东西,在谈话途中被发送的话,那么 Alexa 就不会有任何之前的上下文内容。这个时候,对那些你所设置的技能(Alexa Skills)相关的任何命令(比如短信应用),它听起来就非常困难。在大多数情况下,通过限制 Alexa 关注的上下文内容(因为它没有记录或聆听你的任何正常对话),隐私可以得到极大的提高,虽然这种情况适得其反。”

译注: Alexa 技能(Alexa Skills),允许你将第三方应用添加到 Alexa,就好比将应用添加到你的智能手机一样,详情可参阅 The Best Amazon Alexa Skills https://www.pcmag.com/article/352136/the-best-amazon-alexa-skills

边缘计算技术的进步可能有助于环节这一问题。随着人工智能和深度学习进入越来越多的设备和应用,一些硬件制造商已经创建了专门用于执行人工智能任务的处理器,而不必过多依赖云资源。边缘人工智能处理器可以帮助 Echo 等设备更好地理解和处理对话,而不会将所有数据都发送到云端来侵犯用户的隐私。

语境和意图

除了能接收到不同的、零碎的音频之外,在理解人类对话中的细微差别中,Amazon 的人工智能颇有“力有未逮”之感。

March 说道:“虽然过去几年里,我们在深度学习方面取得了巨大的进步,但是,要想让软件比以前更好地理解语音和图像,仍然还是有很多限制的。虽然语音助理可以识别你所说的内容,但它们并不一定真正理解你所说的意思或者意图。这个世界是很复杂的,但今天,任何一个人工智能系统都还只能处理非常特定的、狭窄的用例。”

例如,就我们人类而言,有很多方法来确定一个句子是不是针对我们,比如语调,或者跟随视觉线索(如讲话者的目光方向)。

相比之下,Alexa 就会假定它是任何包含“A”字的句子的接收者。这就是用户经常意外触发它的原因。

部分问题在于,我们夸大了当前人工智能应用的能力,总是说它们与人类智力水平相当,甚至高于人类,并对它们给予了过多的信任。这就是为什么听到人工智能出现失败状况时,我们就会感到瞠目结舌的原因。

Starmind 创始人、神经学家 Pascal Kaufmann 表示:“这个问题的部分原因在于,‘人工智能’一词在市场上的营销力度如此之大,以至于消费者对这个词相关的产品产生了不应有的信心。这个故事说明,Alexa 有很多能力,并且对如何以及何时应用它们的理解相对有限。”

深度学习算法在面对偏离数据和训练场景的设置时很容易失败。Kaufmann 说:“人类水平的人工智能有一个关键特征,就是自给自足的能力和对内容的真正理解。这点就是真正认为人工智能是具备‘智能’的关键要素,对人工智能的发展至关重要。创造出具有自我意识的数字助理,让它们充分了解人性,将标志着它们从一个有趣的新奇事物转变为一个真正有用的工具。”

但是,创造出人类水平的人工智能(也称为通用人工智能)谈何容易!几十年来,我们一直认为它就是近在咫尺的事,只不过随着科技的进步显示出人类思维是多么复杂时,我们才因此感到了沮丧。许多专家甚至断言,实现通用人工智能是遥不可及的。

同时,狭义人工智能(如当前人工智能技术所描述的)仍然提供了许多机会,并且可以被修复以避免重复错误。需要说明的是,深度学习和机器学习仍处于萌芽阶段,像 Amazon 这样的公司还在不断更新他们的人工智能算法,以解决每次发生的极端例子。

我们需要做什么

Atomic X 的 CTO Eric Moller 说:“这是一个年轻的、新兴的领域。自然语言理解还处于起步阶段,因此,在这个领域中我们有很多事情可以去做。”

Moller 认为,语音分析人工智能算法可以更好地理解语调和音调变化。“在更广泛的句子中,使用‘Alexa’一词听起来不同于调用或命令。Alexa 就不该被触发唤醒,只是因为你顺便说出了它的名字。通过足够的训练,人工智能应该能够分辨出针对智能音箱的特定音调。”

科技公司也可以训练他们的人工智能,以便在接收背景噪音时能够分辨出它们的声音,而不是直接与它们说话。“背景谈话有一种独特的听觉‘特征’,人类非常善于接受并有选择性地排除干扰。我们没有理由不能训练人工智能模型也能做到这一点。”Moller 说。

作为一项预防措施,人工智能助理应该评估它们所做的决策的影响,并在它们想要做一些可能很敏感的事情的情况下参与人类决策。制造商应在他们的技术中加入更多保护措施,以防敏感信息在未经用户明确的同意下被发送。

Tonkean 的首席执行官 Sagi Eliyahi 说:“尽管 Amazon 报告称,Alexa 试图确认它所解释的行为,但有些行为需要更仔细地管理,并以更高的标准来确认用户的意图。人类也有同样的语音识别问题,偶尔会听到错误的请求。然而,与 Alexa 不同的是,人类更有可能确认他们是否理解不明确的请求,更重要的是,人类能够与过去的请求相比,判断请求的可能性有多大。”

结语

尽管科技公司正在优化他们的人工智能应用,以减少错误,但用户将不得不做出最终决定:他们希望自己的人工智能设备在多大程度上暴露于潜在的错误之中。

“这些故事表明,人们愿意分享的数据量与新人工智能技术的前景存在冲突,”数据科学专家 Doug Rose 表示。他曾出过几本关于人工智能和软件的书籍。“你可能会嘲笑 Siri 的迟钝。但是,让它更加智能的最好方法是让它侵入我们的私人谈话。因此,未来十年左右的一个关键问题是,我们将允许这些人工智能体在多大程度上窥探我们的行为呢?”

Starmind 的神经学家 Kaufmann 说,“哪个家庭会在客厅里放一个人类助理,让这个人一直聆听这个家庭任何类型的谈话呢?我们至少应该将同样的标准应用于所谓的‘人工智能’设备(如果不是更高级的话),我们在隐私、保密或可靠性方面也要应用于人工智能。”

原文链接: Learning From Alexa’s Mistakes

感谢陈利鑫对本文的审校。

公众号推荐:

AIGC 技术正以惊人的速度重塑着创新的边界,InfoQ 首期《大模型领航者AIGC实践案例集锦》电子书,深度对话 30 位国内顶尖大模型专家,洞悉大模型技术前沿与未来趋势,精选 10 余个行业一线实践案例,全面展示大模型在多个垂直行业的应用成果,同时,揭秘全球热门大模型效果,为创业者、开发者提供决策支持和选型参考。关注「AI前线」,回复「领航者」免费获取电子书。

2018-08-05 18:181284
用户头像

发布了 370 篇内容, 共 174.7 次阅读, 收获喜欢 943 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

学习SAFe大规模敏捷开发培训有什么好处?

顿顿顿

Scrum 敏捷开发 SAFe框架

结合线上线下环境,提供产品的服务...

Bonaparte

产品 产品经理 产品设计 产品思维 产品服务

【专业 TypeScript 实战】15 个高级技巧,开创卓越开发之路!

汽车之家客户端前端团队

云环境与服务器的四大区别简单聊聊

行云管家

云计算 云服务器 云环境

大型企业采购云管平台的需求是什么?选择哪家厂商好?

行云管家

云计算 企业上云 云管平台

LLM Data Pipelines: 解析大语言模型训练数据集处理的复杂流程

Baihai IDP

人工智能 LLM 白海科技 数据集处理流程

几种验证端口开启的方法

林十二XII

点云标注在自动驾驶中的优化策略

来自四九城儿

拆解雪花算法生成规则 | 京东物流技术团队

京东科技开发者

算法 雪花算法 企业号 7 月 PK 榜

Ubuntu 18.04系统编译安装Tomcat教程。

百度搜索:蓝易云

云计算 tomcat Linux ubuntu 运维

IPQ4019 VS IPQ4018 as example-how to choose a suitable WiFi solution?

wifi6-yiyi

IPQ4019 ipq4029 wifi5

深入探析数智时代下的分布式系统架构设计

不在线第一只蜗牛

AI 低代码 分布式架构 数智时代

保护 TDengine 查询性能——3.0 如何大幅降低乱序数据干扰?

爱倒腾的程序员

数据库

如何更快地渲染?深入了解3D渲染性能的指南

Finovy Cloud

TE智库 |《中国通用大模型内容生成及安全性能力评测》报告发布,深度测评中国大模型玩家

TE智库

大数据实时链路备战——数据双流高保真压测 | 京东云技术团队

京东科技开发者

大数据 压测 企业号 7 月 PK 榜 双流 数据双流

文心大模型3.5国际评测拿下7个满分,大二学生1分钟AI作画估值百万!

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 文心大模型

Java框架——SSM框架增删改查

java易二三

SSM框架 java 编程

粗粮细作,铁合金行业的节能降耗

用友BIP

冶金

HashMap | 利用白话文讲解其底层知识点

派大星

java 编程

告别传统人肉运维,实现360°可观测!奇点云数据存算引擎DataKun R2.0发布

Geek_2d6073

IPQ5018|WIFI6|DR5018 vs DR5018M what's the difference?

wallyslilly

ipq5018

提升直播软件源码开发平台性能关键利器功能_山东布谷科技创作

山东布谷科技

源码 软件 软件开发 直播 源码搭建

深耕零售行业数字化,乐檬软件与华为云携手共进

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

Java的异常处理

java易二三

异常处理 java 编程 #编程

Python案例实现|租房网站数据表的处理与分析

TiAmo

Python 数据分析 爬虫

高性能网络 SIG 月度动态:再获认可!3 位成员成为 Linux 内核社区 reviewer

OpenAnolis小助手

Linux 内核 高性能网络 龙蜥sig smc

Ubuntu 18.04系统编译安装Pure-Ftpd教程。

百度搜索:蓝易云

云计算 Linux ubuntu 运维 Pure-FTPd

创业大赛|第二届“金靴奔跑”创新创业大赛!

科兴未来News

点云标注在自动驾驶中的难点

来自四九城儿

百度商业AI技术创新大赛区域赛落幕,各大高校科技新秀角逐复赛

百度Geek说

人工智能 百度 AIGC 企业号 7 月 PK 榜

从Alexa犯下的错说开去_AI&大模型_Ben Dickson_InfoQ精选文章