写点什么

在亚马逊 Alexa 内部聊天室,你的录音可能正在被分享、传播

  • 2019-04-11
  • 本文字数:2887 字

    阅读完需:约 9 分钟

在亚马逊Alexa内部聊天室,你的录音可能正在被分享、传播

亚马逊智能助手传出窃听事件已不是一两次,这次,彭博社再次爆料亚马逊智能音箱 Alexa 的工作人员正在监听用户和智能音箱之间的对话,并深入 Alexa 罗马尼亚办事处,从内部审核人员口中得到更多不为人知的秘密。


亚马逊公司(Amazon.com Inc.)在全球拥有数千名员工,帮助改进 Alexa 数字助理,打造 Echo 音箱系列。这个团队会监听 Echo 在主人家中和办公室中的录音。录音被转录、注释,然后反馈到软件中,以消除 Alexa 对人类语音理解的误差,并帮助它更好地响应命令。


据 7 名参与该计划的人员描述,Alexa 语音审核流程突出了训练软件算法中经常被忽视的人类角色的功能。在营销材料中亚马逊表示,Alexa“活在云端,并且越来越聪明。”但是,就像许多为了从经验中学习而构建的软件工具一样,它们需要人类的教学。


据知情人士称,该团队由承包商和全职亚马逊员工组成,他们在从波士顿到哥斯达黎加、印度和罗马尼亚的第一线工作。他们签署了保密协议,禁止公开谈论该计划。亚马逊位于罗马尼亚首都布加勒斯特正在崛起的 Pipera 区的办公室,占据了 Globalworth 大楼最顶层的三层楼,据这里办事处的两名工作人员说,他们每天工作 9 小时,每位审核人员每次轮班解析多达 1,000 个音频片段。现代化的设施在周围破败的建筑物中十分显眼,但并没有宣示亚马逊存在的标志。


这项工程大多是平凡的工作组成。波士顿的一名工作人员表示,他负责为特定的词语(如“泰勒斯威夫特”)挖掘累积的语音数据,并对其进行注释,以保证搜索是指这位音乐艺术家。有时,他们会听到 Echo 主人更愿意保密的信息:一个女人在洗澡时唱着严重跑调的歌,或者一个孩子尖叫着寻求帮助。在需要帮助解析混乱的单词,或听到有趣的录音时,团队会在内部聊天室共享文件。



亚马逊在布加勒斯特的办事处 来源:Bloomberg


有时他们会听到令人不安或可能是犯罪的录音。其中两名工人表示他们听到了可能是性侵犯的行为。当这样的事情发生时,他们可能会在内部聊天室进行分享以缓解压力。亚马逊表示,他们设置了工作人员听到令人痛苦的事情时的处理程序,但两名罗马尼亚员工表示,在要求对此类事件提供指导后,他们被告知亚马逊不应该进行干预。


“我们认真对待客户个人信息的安全和隐私,”亚马逊发言人在一封电子邮件声明中表示。“我们只会注释一小部分 Alexa 录音,以便改善客户体验。例如,这些信息有助于我们训练语音识别和自然语言理解系统,让 Alexa 可以更好地了解您的请求,并确保服务适合每个人。”


“我们有严格的技术和操作保障措施,对滥用我们的系统采取零容忍政策。对于可以识别用户身份或帐户信息的工作流程,员工无法直接访问。所有信息都具有高度机密性,我们使用多因素身份验证、服务加密和审核控制环境来限制访问。“


亚马逊在其营销和隐私政策材料中没有明确表示员工正在监听 Alexa 收集的一些对话的录音。“我们使用您对 Alexa 的请求来训练我们的语音识别和自然语言理解系统,”该公司在一系列常见问题中回应。


在 Alexa 的隐私设置中,该公司为用户提供了禁止使用其录音来开发新功能的选项。彭博社的屏幕截图显示,发送给 Alexa 审核员的记录不包括用户的全名和地址,但有帐号、用户的名字和设备的序列号信息。


Intercept 今年早些时候报道称,亚马逊收购的智能家居公司 Ring 的员工可以手动识别门铃摄像头拍摄视频中的车辆和人,以更好地训练软件自主完成任务。


密歇根大学教授弗洛里安·绍布(Florian Schaub)曾研究过与智能音箱有关的隐私问题,他说:“你可能不知道,当你在家里和亲人谈话时,有另一个人正在监听。我认为我们已经习惯于[假设]这些机器正在进行某种神奇的机器学习。但事实是这仍然涉及手动处理。“


“这是否属于隐私问题取决于亚马逊和其他公司对其手动注释信息类型的谨慎程度,以及他们如何向某人提供这些信息,”他补充道。


当 Echo 于 2014 年首次亮相时,亚马逊的圆柱形智能音箱迅速让家庭智能语音软件流行起来。不久之后,Alphabet 公司推出 Google Home,其次是苹果的 HomePod。各种公司也在中国销售设备。据研究人员 Canalys 称,去年全球消费者购买了 7800 万智能音箱。还有数百万人使用语音软件与智能手机上的数字助理进行互动。


Alexa 软件的设计会让它持续记录音频片段,聆听唤醒词。默认情况下,唤醒词是“Alexa”,但人们可以将其更改为“Echo”或“computer”当检测到唤醒词时,Echo 顶部的灯环变为蓝色,表示设备正在录制并向亚马逊服务器发出命令。



Echo 智能音箱


大多数现代语音识别系统依赖于人脑上的图案神经网络。软件通过在大量数据中发现模式来学习。算法支持 Echo 和其他智能音箱使用概率模型进行有根据的猜测。如果有人问 Alexa 附近是否有希腊相关的场所,算法会猜测用户可能正在寻找餐馆,而不是教堂或社区中心。


但有时 Alexa 会弄错,尤其是在使用新的俚语、地方口音或英语以外的语言时。在法语中,avec sa 意为“和他/她在一起”,但发音可能会让软件误以为有人正在使用 Alexa 唤醒词。这就是为什么亚马逊招募人类助手来填补算法误差的空白。


苹果的 Siri 也有人类助手,他们负责评估数字助理对请求的解释是否与该人所说的相符。根据苹果安全白皮书,他们审查的录音不包括个人身份信息,存储信息只保留六个月并与随机标识符相关联。之后,数据中剥离随机识别信息,但会存储更长时间以改善 Siri 的语音识别。


该公司表示,在谷歌,一些审核人员可以从其助手访问一些音频片段,以帮助训练和改进产品,但信息与个人身份无关,音频也会失真。


亚马逊最近在布加勒斯特在招聘 Alexa 数据服务质量保证经理,该职位描述了人类在其中扮演的角色:“每天她[Alexa]会听到成千上万的人会用不同的语言与她谈论不同的话题,她需要我们的帮助来理解这一切。这是你从未见过的大型数据处理。我们每天都在制作、标记、阅读和分析大量的语音。“


据一位熟悉该计划设计的人士透露,亚马逊的语音数据审查流程始于 Alexa 随机抽取一小部分客户录音,并将音频文件发送给偏远地区的员工和承包商。



Echo Spot


一些 Alexa 审核人员的任务是转录用户的命令,比较录音与 Alexa 的自动转录的结果,或者注释用户和机器之间的互动。这个人的提问是什么?Alexa 提供了有效的回复吗?


其他人会记下智能音箱听到的一切,包括背景对话,即使是小孩说的话也不放过。有时智能音箱会听到用户讨论私人信息,如姓名或银行详细信息;在这种情况下,他们应该勾选一个表示“关键数据”的对话框。然后接着听下一个音频文件。


根据亚马逊网站,除非 Echo 检测到唤醒字或按下按钮激活,否则不会存储音频。但有时 Alexa 似乎没有任何提示就开始录音,音频文件开头可能会是电视的刺耳声音或难以理解的噪音。无论是否是误激活,审核人员都需要对其进行转录。其中一位人士表示,每天,审核人员都会录制多达 100 条 Alexa 没有收到任何唤醒命令或因意外触发的录音。


据两位审核人员称,在世界各地的家庭中,Echo 的主人常常会怀疑他们是否被偷听。“你是为国家安全局工作吗?”他们问道。“Alexa,有人在偷听我们讲话吗?”


参考链接:https://www.bloomberg.com/news/articles/2019-04-10/is-anyone-listening-to-you-on-alexa-a-global-team-reviews-audio


2019-04-11 11:573164
用户头像

发布了 98 篇内容, 共 65.4 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

Python代码阅读(第55篇):获取字典的所有键或所有值的列表

Felix

Python 编程 阅读代码 字典 Python初学者

加速拥抱支持开源生态 | OceanBase 开源版3.1.1正式发布

OceanBase 数据库

数据库 开源 开发者 成绩单 DTCC

新赛季集结!“百度AI创意派”正在寻找有创意的你

科技热闻

“你好,天津”网络短视频大赛月内启动

InfoQ 天津

个人项目管理软件解决方案

低代码小观

项目管理 管理系统 企业管理系统 项目管理工具 企业管理工具

腾讯大数据全场景在离线混部系统Caelus正式开源

科技热闻

出自清华大牛之手的Redis源码核心手册,已被列为GitHub首推书籍

Java redis 编程 程序员

周傲英:替代工程只是契机,转型升级才是大势所驱

OceanBase 数据库

数据库 开源 数字化转型 云栖大会

浪潮云说丨GPU云服务器,助力AI计划轻松实现

云计算

12 高可用的应用,微众银行java面试

Java 程序员 后端

Nocalhost 亮相 CD Foundation 国内首届 Meetup,Keith Chan 将出席致辞

CODING DevOps

Linux Nocalhost Meetup CDF

融合通信技术趋势和演进方向

网易云信

云通信 通信云 传输协议

OpenMLDB v0.3.0 正式发布,支持快速部署使用的单机模式

第四范式开发者社区

开源 第四范式 OpenMLDB

SAP x EMQ 碳中和方案亮相进博会,数据基础设施支撑低碳发展

EMQ映云科技

物联网 IoT mqtt 进博会 SAP

共筑数据库未来 | 2021 OceanBase 原生分布式数据库论坛回顾

OceanBase 数据库

开源 分布式 #数据库 云栖大会 圆桌论坛

13万字!腾讯高工手写JDK源码笔记 带你飙向实战,linux高级教程

Java 程序员 后端

腾讯架构师推荐架构电子书:多线程+JVM+Nginx+Redis+SpringBoot

nginx redis 程序员 Spring Boot JVM

解决大数据分布式计算痛点:腾讯正式开源分布式远程Shuffle服务Firestorm

科技热闻

git submodule 添加/删除

webrtc developer

如果明天交任务,自己做今晚能完成,而让下属做需要一周时间,怎么办?

石云升

职场经验 11月日更

去年今日我凭借这份文档,摇身一变成了被BAT大牛们看中的幸运儿

Java spring 程序员 JVM Kakfa

互联网+质量基础设施服务平台,NQI一站式服务平台搭建

电微13828808271

杨传辉:深挖 OceanBase 背后的技术逻辑,助力数据库核心系统升级

OceanBase 数据库

数据库 开源 分布式 数字化转型 核心系统

13 高可用的服务,字节跳动今日学习内容

Java 程序员 后端

OceanBase 创始人阳振坤 | 十余年打磨 国产数据库之路砥砺前行

OceanBase 数据库

数据库 开发者 趋势 1024 CSDN

开源项目|Go 开发的一款分布式唯一 ID 生成系统

AlwaysBeta

golang 开源 Go 语言

18 应用服务器集群的伸缩性设计,java面试多线程和分布式

Java 程序员 后端

CVE-2017-10271漏洞复现与分析

喀拉峻

网络安全 信息安全 渗透测试

京东三面(后端)凭借这份Java面试复盘手册,已斩获60K*15offer

Java spring 程序员 算法 JVM

杨冰:OceanBase助力数字化转型,原生分布式数据库成核心系统首选

OceanBase 数据库

数据库 开源 分布式 云栖大会 核心系统

OceanBase 3.2 正式发布 | 更硬核的 HTAP,TPC-H 性能提升6倍!

OceanBase 数据库

数据库 分布式 云栖大会 核心系统 一体化架构

在亚马逊Alexa内部聊天室,你的录音可能正在被分享、传播_AI&大模型_Matt Day_InfoQ精选文章