AICon日程100%就绪,9折倒计时最后一周 了解详情
写点什么

在亚马逊 Alexa 内部聊天室,你的录音可能正在被分享、传播

  • 2019-04-11
  • 本文字数:2887 字

    阅读完需:约 9 分钟

在亚马逊Alexa内部聊天室,你的录音可能正在被分享、传播

亚马逊智能助手传出窃听事件已不是一两次,这次,彭博社再次爆料亚马逊智能音箱 Alexa 的工作人员正在监听用户和智能音箱之间的对话,并深入 Alexa 罗马尼亚办事处,从内部审核人员口中得到更多不为人知的秘密。


亚马逊公司(Amazon.com Inc.)在全球拥有数千名员工,帮助改进 Alexa 数字助理,打造 Echo 音箱系列。这个团队会监听 Echo 在主人家中和办公室中的录音。录音被转录、注释,然后反馈到软件中,以消除 Alexa 对人类语音理解的误差,并帮助它更好地响应命令。


据 7 名参与该计划的人员描述,Alexa 语音审核流程突出了训练软件算法中经常被忽视的人类角色的功能。在营销材料中亚马逊表示,Alexa“活在云端,并且越来越聪明。”但是,就像许多为了从经验中学习而构建的软件工具一样,它们需要人类的教学。


据知情人士称,该团队由承包商和全职亚马逊员工组成,他们在从波士顿到哥斯达黎加、印度和罗马尼亚的第一线工作。他们签署了保密协议,禁止公开谈论该计划。亚马逊位于罗马尼亚首都布加勒斯特正在崛起的 Pipera 区的办公室,占据了 Globalworth 大楼最顶层的三层楼,据这里办事处的两名工作人员说,他们每天工作 9 小时,每位审核人员每次轮班解析多达 1,000 个音频片段。现代化的设施在周围破败的建筑物中十分显眼,但并没有宣示亚马逊存在的标志。


这项工程大多是平凡的工作组成。波士顿的一名工作人员表示,他负责为特定的词语(如“泰勒斯威夫特”)挖掘累积的语音数据,并对其进行注释,以保证搜索是指这位音乐艺术家。有时,他们会听到 Echo 主人更愿意保密的信息:一个女人在洗澡时唱着严重跑调的歌,或者一个孩子尖叫着寻求帮助。在需要帮助解析混乱的单词,或听到有趣的录音时,团队会在内部聊天室共享文件。



亚马逊在布加勒斯特的办事处 来源:Bloomberg


有时他们会听到令人不安或可能是犯罪的录音。其中两名工人表示他们听到了可能是性侵犯的行为。当这样的事情发生时,他们可能会在内部聊天室进行分享以缓解压力。亚马逊表示,他们设置了工作人员听到令人痛苦的事情时的处理程序,但两名罗马尼亚员工表示,在要求对此类事件提供指导后,他们被告知亚马逊不应该进行干预。


“我们认真对待客户个人信息的安全和隐私,”亚马逊发言人在一封电子邮件声明中表示。“我们只会注释一小部分 Alexa 录音,以便改善客户体验。例如,这些信息有助于我们训练语音识别和自然语言理解系统,让 Alexa 可以更好地了解您的请求,并确保服务适合每个人。”


“我们有严格的技术和操作保障措施,对滥用我们的系统采取零容忍政策。对于可以识别用户身份或帐户信息的工作流程,员工无法直接访问。所有信息都具有高度机密性,我们使用多因素身份验证、服务加密和审核控制环境来限制访问。“


亚马逊在其营销和隐私政策材料中没有明确表示员工正在监听 Alexa 收集的一些对话的录音。“我们使用您对 Alexa 的请求来训练我们的语音识别和自然语言理解系统,”该公司在一系列常见问题中回应。


在 Alexa 的隐私设置中,该公司为用户提供了禁止使用其录音来开发新功能的选项。彭博社的屏幕截图显示,发送给 Alexa 审核员的记录不包括用户的全名和地址,但有帐号、用户的名字和设备的序列号信息。


Intercept 今年早些时候报道称,亚马逊收购的智能家居公司 Ring 的员工可以手动识别门铃摄像头拍摄视频中的车辆和人,以更好地训练软件自主完成任务。


密歇根大学教授弗洛里安·绍布(Florian Schaub)曾研究过与智能音箱有关的隐私问题,他说:“你可能不知道,当你在家里和亲人谈话时,有另一个人正在监听。我认为我们已经习惯于[假设]这些机器正在进行某种神奇的机器学习。但事实是这仍然涉及手动处理。“


“这是否属于隐私问题取决于亚马逊和其他公司对其手动注释信息类型的谨慎程度,以及他们如何向某人提供这些信息,”他补充道。


当 Echo 于 2014 年首次亮相时,亚马逊的圆柱形智能音箱迅速让家庭智能语音软件流行起来。不久之后,Alphabet 公司推出 Google Home,其次是苹果的 HomePod。各种公司也在中国销售设备。据研究人员 Canalys 称,去年全球消费者购买了 7800 万智能音箱。还有数百万人使用语音软件与智能手机上的数字助理进行互动。


Alexa 软件的设计会让它持续记录音频片段,聆听唤醒词。默认情况下,唤醒词是“Alexa”,但人们可以将其更改为“Echo”或“computer”当检测到唤醒词时,Echo 顶部的灯环变为蓝色,表示设备正在录制并向亚马逊服务器发出命令。



Echo 智能音箱


大多数现代语音识别系统依赖于人脑上的图案神经网络。软件通过在大量数据中发现模式来学习。算法支持 Echo 和其他智能音箱使用概率模型进行有根据的猜测。如果有人问 Alexa 附近是否有希腊相关的场所,算法会猜测用户可能正在寻找餐馆,而不是教堂或社区中心。


但有时 Alexa 会弄错,尤其是在使用新的俚语、地方口音或英语以外的语言时。在法语中,avec sa 意为“和他/她在一起”,但发音可能会让软件误以为有人正在使用 Alexa 唤醒词。这就是为什么亚马逊招募人类助手来填补算法误差的空白。


苹果的 Siri 也有人类助手,他们负责评估数字助理对请求的解释是否与该人所说的相符。根据苹果安全白皮书,他们审查的录音不包括个人身份信息,存储信息只保留六个月并与随机标识符相关联。之后,数据中剥离随机识别信息,但会存储更长时间以改善 Siri 的语音识别。


该公司表示,在谷歌,一些审核人员可以从其助手访问一些音频片段,以帮助训练和改进产品,但信息与个人身份无关,音频也会失真。


亚马逊最近在布加勒斯特在招聘 Alexa 数据服务质量保证经理,该职位描述了人类在其中扮演的角色:“每天她[Alexa]会听到成千上万的人会用不同的语言与她谈论不同的话题,她需要我们的帮助来理解这一切。这是你从未见过的大型数据处理。我们每天都在制作、标记、阅读和分析大量的语音。“


据一位熟悉该计划设计的人士透露,亚马逊的语音数据审查流程始于 Alexa 随机抽取一小部分客户录音,并将音频文件发送给偏远地区的员工和承包商。



Echo Spot


一些 Alexa 审核人员的任务是转录用户的命令,比较录音与 Alexa 的自动转录的结果,或者注释用户和机器之间的互动。这个人的提问是什么?Alexa 提供了有效的回复吗?


其他人会记下智能音箱听到的一切,包括背景对话,即使是小孩说的话也不放过。有时智能音箱会听到用户讨论私人信息,如姓名或银行详细信息;在这种情况下,他们应该勾选一个表示“关键数据”的对话框。然后接着听下一个音频文件。


根据亚马逊网站,除非 Echo 检测到唤醒字或按下按钮激活,否则不会存储音频。但有时 Alexa 似乎没有任何提示就开始录音,音频文件开头可能会是电视的刺耳声音或难以理解的噪音。无论是否是误激活,审核人员都需要对其进行转录。其中一位人士表示,每天,审核人员都会录制多达 100 条 Alexa 没有收到任何唤醒命令或因意外触发的录音。


据两位审核人员称,在世界各地的家庭中,Echo 的主人常常会怀疑他们是否被偷听。“你是为国家安全局工作吗?”他们问道。“Alexa,有人在偷听我们讲话吗?”


参考链接:https://www.bloomberg.com/news/articles/2019-04-10/is-anyone-listening-to-you-on-alexa-a-global-team-reviews-audio


2019-04-11 11:572976
用户头像

发布了 98 篇内容, 共 64.3 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

阿里巴巴DevOps文化浅谈

阿里云云效

阿里巴巴 阿里云 DevOps 云原生 研发

分配任务的人才是团队的核心成员

panda

管理 限界上下文 任务分配

Ceph核心概念解读

总想做点什么

分布式存储 Ceph 云存储 云计算,

推荐学java——Spring与web项目

逆锋起笔

Spring web idea web web项目 idea spring

百度APP视频播放中的解码优化

百度Geek说

百度 性能优化 视频

如何解决Python项目在VScode中跨文件夹导包问题

IT蜗壳-Tango

IT蜗壳教学 2月月更

【高并发】一文解密诡异并发问题的第一个幕后黑手——可见性问题

冰河

Java 并发编程 多线程 异步编程 精通高并发系列

大数据开发之运维面试题汇总分享

@零度

面试题 大数据运维

探秘 k8e:极简 Kubernetes 发行版

张晓辉

Kubernetes 云原生

如何帮助金融客户“用好云”?

阿里云云效

阿里云 运维 云原生 云平台 阿里云混合云

vivo 评论中台的流量及数据隔离实践

vivo互联网技术

mongodb 中台 分布式

java开发之Spring集成MyBatis知识分享

@零度

Java spring mybatis

鸿蒙轻内核源码分析:文件系统LittleFS

华为云开发者联盟

鸿蒙 文件系统 Flash LittleFS LiteOS-M内核

新思科技BSIMM评估为安全团队提供“他山之石”

InfoQ_434670063458

汽车 新思科技 软件定义汽车 软件安全 BSIMM评估

百度爱番番实时CDP建设实践

百度Geek说

后端

从原理到操作,让你在 APISIX 中代理 Dubbo 服务更便捷

API7.ai 技术团队

微服务网关

Java11特性-效能翻倍的HttpClient

蜜糖的代码注释

Java 后端技术 2月月更

盘点冬奥会上的那些“黑科技”,你也可以掌握它!

博文视点Broadview

设备接入服务,看完这篇给你整的明明白白

华为云开发者联盟

物联网 IoT 华为云 设备接入服务 设备

在阿里,我们如何管理代码分支?

阿里云云效

阿里云 DevOps 云原生 研发 分支管理

前端开发之js栈内存和堆内存的区别

@零度

JAVA开发 堆内存 栈内存

如何让代码代码管理变的更安全更高效 | 云效开发篇

阿里云云效

阿里云 DevOps 云原生 代码管理 Codeup

Kubernetes HPA 基于 Prometheus 自定义指标的可控弹性伸缩

张晓辉

Kubernetes 弹性 HPA

永中软件加入龙蜥社区,共建开源新生态

OpenAnolis小助手

Linux 开源 永中

Java 字符串常见的操作

编程江湖

做了一份前端面试复习计划,保熟~

CRMEB

面试突击20:进程和线程有什么区别?

王磊

不断突破,稳中求进——我的移动端跨平台开发技术回顾与展望| 社区征文

No Silver Bullet

跨平台 移动端 新春征文 2月月更

“1天一朵云”,这是如何做到的?

华为云开发者联盟

数字化转型 软件架构 华为云 华为云Stack 全栈云平台

React Fragment介绍与使用

编程江湖

React

aPaaS将如何改变软件行业?

华为云开发者联盟

云计算 软件 软件开发 SaaS aPaaS

在亚马逊Alexa内部聊天室,你的录音可能正在被分享、传播_AI&大模型_Matt Day_InfoQ精选文章