从Alexa犯下的错说开去

AI 前线导读：最近各款智能音箱如雨后春笋涌现海内外，这些智能音箱都有个“唤醒词”，比如“Hey Google”、“Alexa”、“小爱同学”、“叮咚叮咚”等等。这很像平时人与人之间交流的方式对吧，有问有答的。智能音箱的工作方式是这样的：唤醒→响应→输入→理解→反馈。但是，在唤醒这个环节，却出现了一些问题，让我们看看事实真相到底如何？

虽然 Amazon 的“唤醒词”功能提高了用户的隐私，但它也带来了自身的挑战，比如 Alexa 录下一段私人对话，未经用户同意就发送出去。

最近，Amazon 的一款 Echo 设备记录了一名用户的私人谈话，并在未经用户知情和同意的情况下，将这段对话发送了他们的一个联系人。这起事件，再次引发了公众对智能音箱的安全性和隐私性的担忧。然而，后来真相大白，Alexa 的这一怪异行为并不是什么阴谋，而是由于智能音箱的工作方式带来的一系列故障引起的。

根据 Amazon 提供的一份报告称：“由于背景对话中有一个词听起来像‘Alexa’，结果 Echo 被触发唤醒了。然后，随后的对话内容就被当做是‘发送信息’的请求了。这时，Alexa 大声地问道：‘发给谁？’，然后背景对话就被解释为客户联系人名单中的一个名字。然后 Alexa 接着大声问道，‘某某某，对吗？’然后 Alexa 将背景对话解读为‘正确’。尽管这一系列事情不大可能发生，但我们正在评估各种选项，减少这一情况的出现。”

这是一种极端例子，这种情况很少发生。但这也是一项有趣的研究，研究的就是为 Echo 和其他所谓的“智能”设备赋能的人工智能技术的局限性。

对云端依赖过多

要理解语音命令，像 Echo 和 Google Home 等智能音箱依赖于深度学习算法，需要大量的计算能力。由于它们没有用于本地执行任务的计算资源，因此，它们必须将数据发送到制造商的云服务器，在云服务器中，人工智能算法将语音数据转换为文本并处理命令。

但是，智能音箱并不能把它们听到的所有内容一股脑都发到云服务器上，因为这样做的话，势必会要求制造商在服务器上存储过多的数据，而其中大部分数据都没有用。而且，意外地记录和存储用户家中发生的私人谈话也会对隐私构成挑战带来隐私风险，并可能给制造商带来麻烦，尤其是在新颁布的《通用数据保护条例》（General Data Protection Regulation，GDPR）对科技公司存储和使用数据的方式施加了严格限制的情况下。

这就是智能音箱为什么设计成这样：只有当用户说出“Alexa”或“Hey Google”之类的唤醒词才能触发智能音箱的唤醒。只有智能音箱听到唤醒词之后，它们才开始将麦克风的音频输入发送到云端进行分析和处理。

虽然这一功能可以改善隐私，但它也带来了自身的挑战，最近的 Alexa 事件就凸显了这一点。

Conversocial 的 CEO Joshua March 表示：“如果‘wake’一词，或者听起来非常像它的东西，在谈话途中被发送的话，那么 Alexa 就不会有任何之前的上下文内容。这个时候，对那些你所设置的技能（Alexa Skills）相关的任何命令（比如短信应用），它听起来就非常困难。在大多数情况下，通过限制 Alexa 关注的上下文内容（因为它没有记录或聆听你的任何正常对话），隐私可以得到极大的提高，虽然这种情况适得其反。”

译注： Alexa 技能（Alexa Skills），允许你将第三方应用添加到 Alexa，就好比将应用添加到你的智能手机一样，详情可参阅 The Best Amazon Alexa Skills（ https://www.pcmag.com/article/352136/the-best-amazon-alexa-skills ）

边缘计算技术的进步可能有助于环节这一问题。随着人工智能和深度学习进入越来越多的设备和应用，一些硬件制造商已经创建了专门用于执行人工智能任务的处理器，而不必过多依赖云资源。边缘人工智能处理器可以帮助 Echo 等设备更好地理解和处理对话，而不会将所有数据都发送到云端来侵犯用户的隐私。

语境和意图

除了能接收到不同的、零碎的音频之外，在理解人类对话中的细微差别中，Amazon 的人工智能颇有“力有未逮”之感。

March 说道：“虽然过去几年里，我们在深度学习方面取得了巨大的进步，但是，要想让软件比以前更好地理解语音和图像，仍然还是有很多限制的。虽然语音助理可以识别你所说的内容，但它们并不一定真正理解你所说的意思或者意图。这个世界是很复杂的，但今天，任何一个人工智能系统都还只能处理非常特定的、狭窄的用例。”

例如，就我们人类而言，有很多方法来确定一个句子是不是针对我们，比如语调，或者跟随视觉线索（如讲话者的目光方向）。

相比之下，Alexa 就会假定它是任何包含“A”字的句子的接收者。这就是用户经常意外触发它的原因。

部分问题在于，我们夸大了当前人工智能应用的能力，总是说它们与人类智力水平相当，甚至高于人类，并对它们给予了过多的信任。这就是为什么听到人工智能出现失败状况时，我们就会感到瞠目结舌的原因。

Starmind 创始人、神经学家 Pascal Kaufmann 表示：“这个问题的部分原因在于，‘人工智能’一词在市场上的营销力度如此之大，以至于消费者对这个词相关的产品产生了不应有的信心。这个故事说明，Alexa 有很多能力，并且对如何以及何时应用它们的理解相对有限。”

深度学习算法在面对偏离数据和训练场景的设置时很容易失败。Kaufmann 说：“人类水平的人工智能有一个关键特征，就是自给自足的能力和对内容的真正理解。这点就是真正认为人工智能是具备‘智能’的关键要素，对人工智能的发展至关重要。创造出具有自我意识的数字助理，让它们充分了解人性，将标志着它们从一个有趣的新奇事物转变为一个真正有用的工具。”

但是，创造出人类水平的人工智能（也称为通用人工智能）谈何容易！几十年来，我们一直认为它就是近在咫尺的事，只不过随着科技的进步显示出人类思维是多么复杂时，我们才因此感到了沮丧。许多专家甚至断言，实现通用人工智能是遥不可及的。

同时，狭义人工智能（如当前人工智能技术所描述的）仍然提供了许多机会，并且可以被修复以避免重复错误。需要说明的是，深度学习和机器学习仍处于萌芽阶段，像 Amazon 这样的公司还在不断更新他们的人工智能算法，以解决每次发生的极端例子。

我们需要做什么

Atomic X 的 CTO Eric Moller 说：“这是一个年轻的、新兴的领域。自然语言理解还处于起步阶段，因此，在这个领域中我们有很多事情可以去做。”

Moller 认为，语音分析人工智能算法可以更好地理解语调和音调变化。“在更广泛的句子中，使用‘Alexa’一词听起来不同于调用或命令。Alexa 就不该被触发唤醒，只是因为你顺便说出了它的名字。通过足够的训练，人工智能应该能够分辨出针对智能音箱的特定音调。”

科技公司也可以训练他们的人工智能，以便在接收背景噪音时能够分辨出它们的声音，而不是直接与它们说话。“背景谈话有一种独特的听觉‘特征’，人类非常善于接受并有选择性地排除干扰。我们没有理由不能训练人工智能模型也能做到这一点。”Moller 说。

作为一项预防措施，人工智能助理应该评估它们所做的决策的影响，并在它们想要做一些可能很敏感的事情的情况下参与人类决策。制造商应在他们的技术中加入更多保护措施，以防敏感信息在未经用户明确的同意下被发送。

Tonkean 的首席执行官 Sagi Eliyahi 说：“尽管 Amazon 报告称，Alexa 试图确认它所解释的行为，但有些行为需要更仔细地管理，并以更高的标准来确认用户的意图。人类也有同样的语音识别问题，偶尔会听到错误的请求。然而，与 Alexa 不同的是，人类更有可能确认他们是否理解不明确的请求，更重要的是，人类能够与过去的请求相比，判断请求的可能性有多大。”

结语

尽管科技公司正在优化他们的人工智能应用，以减少错误，但用户将不得不做出最终决定：他们希望自己的人工智能设备在多大程度上暴露于潜在的错误之中。

“这些故事表明，人们愿意分享的数据量与新人工智能技术的前景存在冲突，”数据科学专家 Doug Rose 表示。他曾出过几本关于人工智能和软件的书籍。“你可能会嘲笑 Siri 的迟钝。但是，让它更加智能的最好方法是让它侵入我们的私人谈话。因此，未来十年左右的一个关键问题是，我们将允许这些人工智能体在多大程度上窥探我们的行为呢？”

Starmind 的神经学家 Kaufmann 说，“哪个家庭会在客厅里放一个人类助理，让这个人一直聆听这个家庭任何类型的谈话呢？我们至少应该将同样的标准应用于所谓的‘人工智能’设备（如果不是更高级的话），我们在隐私、保密或可靠性方面也要应用于人工智能。”

原文链接： Learning From Alexa’s Mistakes

感谢陈利鑫对本文的审校。

创作场景

从 Alexa 犯下的错说开去

对云端依赖过多

语境和意图

我们需要做什么

结语