四大 AI 虚拟助手哪家强?Siri、Alexa、谷歌助理和 Cortana 实测

  • 姚耀东

2017 年 1 月 23 日

话题:语言 & 开发架构AI

2016 年是主流科技公司迎接虚拟语音助理的发展元年,而近期在欧美持续走红的亚马逊 Echo 更是凸显了该趋势。涉及人工智能的主流科技公司普遍认为人工智能将成为人机互动的砥柱,同时也开始通过智能虚拟助理为切入点,布局他们的人工智能市场,如:苹果的 Siri,亚马逊的 Alexa,微软的 Cortana 以及谷歌的谷歌助理。

虽然智能虚拟助理技术已经历了较长时间的发展,但这些科技巨头都认为智能虚拟助理尚处发展期,未来智能助理发展的道路仍任重而道远。尽管如此,智能虚拟助理已开始逐步渗透入人们的生活之中。

为了更佳有效的验证各家公司智能虚拟助理的性能,本文对四款智能虚拟助理分别进行了测试。由于缺乏标准化、体系化的方法用于评测智能虚拟助理的综合能力,因此,实验中选取了尽可能多的基本话题,以达到最佳的测试效果, 包括:

  • 出行

  • 电子邮件

  • 信息

  • 体育运动

  • 翻译

  • 系统功能

  • 基本知识

  • 音乐

  • 天气

  • 日程

  • 生活服务

基于这十一项测试条目,对四类智能虚拟助理分别提出常见的问题和指令进行测试。

值得一提的是,本次测试所使用的设备:

  • Siri,测试设备为 iPhoneSE

  • 谷歌的助理,测试设备为 Goodgle Pixel XL

  • Cortana,测试设备为 ThinkPad X1 Yoga

  • Alexa,测试设备为 Amazon Echo Dot

Note:尽管亚马逊目前已面向 Kindle Fire 平板推出 Alexa,但在进行本测试前,Alexa 尚未在 Kindle Fire 上发布。

为了更佳有效的评估各类虚拟助理的功能性,TalkingData 从情景交互能力、知识库完整度、AI 智能功能完整度以及第三方应用功能整合能力四方面对四类智能虚拟助理进行评估。

测试 1:出行场景

(1)出行路径规划:从路径规划角度来看,谷歌助理的智能化能力最强。首先,从情景交互层面,谷歌助理与 Alexa 能够实现出行路径规划的全语音交互,语音交互具备实现上下文关联的识别能力;Siri 和 Cortana 在该情景的交互上,无法实现上下文的关联,深度交互依赖于手动触碰选择。在功能的智能化方面,谷歌助理依托于谷歌地图的强路径规划能力,能够主动规划路径,并提供不同交通方式的路径与耗时;Siri 与 Cortana 在语音匹配地址时通过模糊匹配,需用户二次确认才能进行后续的路径规划;Alexa 虽然能够依托 YelpData 计算与目的地的距离及行车耗时,但不具备路径规划的能力。

(2)航班预订:谷歌助理在航班预订的功能上也最为完善。首先,在情景交互层面:谷歌助理与 Alexa 在语音交互均未实现上下文关联的深度交互,需要配合触碰操作完成交互。其次,在功能的智能化方面,谷歌助理通过整合 Google Flights 支撑用户查阅、预定机票的功能(主要依赖触碰交互);Alexa 虽然整合了 Kayak 的航班查阅功能,但预定功能尚未开放。Siri 与 Cortana 未能语音识别航班预定的需求,其航旅出行的知识库仍有待完善。

(3)出租车预订:Siri、Cortana、Alexa 均能通过交互较好的实现出租车预订功能。首先在情景交互层面,Siri、Cortana、Alexa 均能与用户实现在目的地确认、车型选择、车辆预订的深层交互。其次,在功能方面,除了能够满足选型与预定功能,Siri、Cortana、Alexa 通过整合的地图功能,帮助用户实现路径规划以及乘车成本的估算。由于谷歌助理未整合第三方出租车应用,尚不具备这方面的交互能力;在语义识别能力方面,也无法识别打车语义。

总结:谷歌助理在已实现的出行场景功能方面表现的最好,主要体现在语音深度交互的体验以及基本功能的完善度;然而谷歌助理功能覆盖度尚不完善,主要表现在第三方的应用整合上。Siri 在已实现的功能上,整体表现较好,但在语义深度分析上,稍弱于谷歌助理;Alexa 在出行领域的功能覆盖面最全面,也尽可能的进行了第三方应用的整合,但显然第三方应用的功能整合并不完全;Cortana 出行功能的完善度与 Siri 基本一致,但在路径规划的精准语义分析方面稍弱于 Siri。

测试 2:邮件场景

需要注意的是,由于 Alexa 测试设备为 Amazon Echo Dot,无可视化界面,不具备邮件发送功能。

(1)邮件发送:谷歌助理与 Siri 在邮件发送的交互与功能最为完善。在情景交互层面,谷歌助理与 Siri 均能实现邮件发送场景下通过语音交互,实现上下文的的关联,并且对姓名有很高的语义识别度,只是谷歌助理的交互界面相比 Siri 更加丰富一些;相比之下,Cortana 虽然能够实现深度语音交互,但其对语音姓名的识别度较差,错误率高。在功能方面,谷歌助理、Siri、Cortana 都较为完善,均能够实现邮件新建、编辑与发送。最后,从应用的整合角度来看,Cortana 表现的最佳,能够关联任何 Windows 自定义的邮件;相比之下,谷歌助理与 Siri 分别只支持各自的邮箱 Gmail 和 Apple Mail。

(2)未读邮件查阅:Siri 是唯一能够正确语音识别新邮件查阅并进行交互的智能虚拟助理。在情感交互层面,Siri 能够理解语义,调用邮箱未读邮件与用户交互;在功能层面,Siri 能够较好的整合 Apple mail 的功能,主动调出未读邮件箱。谷歌助理虽然能够看出在邮件查阅功能上确实有所应用,但在交互能力以及智能化的功能实现(理解语义并调用未读邮件箱)以及应用的整合方面(Gmail)都未完善。Cortana 面对知识库无对应解决方案时,会调用 Bing 搜索解决问题。

(3)查阅最近邮件:同样,只有 Siri 能够正确的完成最近邮件的查阅。在情感交互层面,Siri 能够理解语义,并正确调用最近未读邮件进行交互;在功能层面,Siri 同样能够按照时间序列 / 排序很好的筛选出最近未读的邮件,展现并实现查阅邮件的跳转(至 Apple Mail)。谷歌助理和 Cortana 存在的问题同上。

总结: Siri 在邮件场景的情景交互以及功能最为完善,主要原因可能在于苹果作为手机厂商的许多默认内置应用的优势,尤其在应用功能整合的成本要比其他助理小得多。同样,谷歌助理在已实现的功能上(邮件发送)表现最为优秀,但其功能完整度问题仍然较大,而且值得注意的是,谷歌助理与 Gmail 在打通整合方面存在一定问题。Cortana 很直观的表现出其知识库以及智能化能力不足的问题,将无法识别的问题直接调用 Bing 搜索。

测试 3:信息场景

需要注意的是,由于 Alexa 测试设备为 Amazon Echo Dot,不具备手机的短信功能。

(1)信息发送:谷歌助理与 Siri 在信息发送的交互与功能最为完善。在情景交互层面,谷歌助理与 Siri 均能实现上下文的语义关联,通过语音全流程实现交互(甚至包括内容输入),并且对姓名有很高的语义识别度;相比之下,Cortana 虽然能够实现语音交互,但在信息输入无法通过语音交互,且在语音的姓名识别度较差,错误率高。在功能方面,谷歌助理、Siri、Cortana 都较为完善,均能够实现邮件新建、编辑与发送。

(2)未读信息查阅:仅有 Siri 能够识别并很好的完成本项功能。在情景交互层面,Siri 几乎支撑全流程的语音深度交互(查阅、咨询是否回复、信息回复)并配合可视化展现正确的短信功能;在功能上,Siri 也做得十分完善,能够智能的筛选未读短信、语音支持短信文本编辑,信息回复等。

(3)阅读推特信息:Alexa 在推特信息阅读的功能最为完善。在情景交互层面,Alexa 能够实现全流程的语音深度交互,语音交互具备上下文关联能力,且很好的识别、播放每一类需求;Siri 虽然回应其无法查阅推文,但其在某些语境下(如推特热点),仍能调用正确推特的功能。在功能上,Alexa 除了能够正常的调用推文的阅读需求,还在语义分析上做了多维度细分,如最近 Like 的推文、最近被提及的推文、最近发送的推文等等。

总结:在信息功能方面,Siri 的表现最为优秀,不仅在于功能覆盖的广度,还在于其语音全流程深度交互,这也得益于手机设备内置的短息功能的整合与打通;谷歌助理与先前一致,在能够实现的短息功能方面表现的很好,但功能覆盖度仍有所欠缺;Cortana 在语音交互上稍微逊色,同时,在语音识别的问题上,存在较大的错误率。Alexa 虽然不具备短息功能,但在第三方推特功能的整合和实现上十分优秀,还进行了深度的语义区分,满足各类需求。

测试 4:系统基本功能

测试的基本功能包括:应用(App)的开启、系统设备、闹钟设置、备忘录建立与修改、锁屏等设备自带的系统功能。

经过测试,Siri 与 Alexa 在各自系统功能的交互与功能调用最强。首先,在情景交互层面,四类智能虚拟助理在能够识别和支撑的语义的条件下,基本都能正常打开系统应用能够,但 Alexa 在部分系统功能的调用上,设置了深度交互的功能(如设置系统时间时,Alexa 会咨询具体情况,而非直接调用时间设置功能)。在功能的智能实现上,Siri 与 Alexa 能够覆盖的功能最为广泛;谷歌助理和 Cortana 有许多系统功能无法调用,尤其是谷歌助理,甚至连 Google 下的 chrome 都无法调用。

测试 5:翻译场景

经过测试,仅有谷歌助理与 Cortana 具备跨语种翻译的功能。在情景交互层面,谷歌助理和 Cortana 均能实现翻译的需求,并通过语音回复翻译需求。从功能智能度的层面来看,谷歌助理无论是对语义的理解还是语法的理解都远强于 Cortana,虽然并未直接调用谷歌翻译,但鉴于谷歌助理较强的翻译功能,可以推断谷歌助理在翻译功能上整合了谷歌翻译的功能。

测试 6:基本知识场景

(1)基本知识:面对基本知识语音问题处理最佳的是 Alexa。首先在情景交互层面,四类智能虚拟助理在能够理解的范围内,都能实现正常的交互以及应答。但在功能的智能度方面,Alexa 所覆盖的知识库最为全面,并且能够准确的回答问题;谷歌助理,Siri,Cortana 的知识库都有各自的局限,其中谷歌助理的功能能够识别的基本知识问题最为局限;面对无法解答的基本知识时,都会调用其相应的搜索引擎。

(2)新闻:新闻方面的交互和功能实现谷歌助理处理的最好。在情景交互方面,谷歌助理、Cortana 和 Alexa 均能很好的识别用户的新闻需求问题,并将正确的查询结果返回。在智能化方面,各智能虚拟助理均能实现语义的精准匹配新闻内容(依赖搜索引擎);但从第三方整合来看,谷歌助理支持的新闻搜索范围最广。

总结:在基础知识问题的解决方面,Alexa 对应的知识库最为广泛,能够识别不同领域的基础知识问题,并精准搜索给出答案;同时也体现了 Amazon 在基础知识库搭建上下了较重的功夫;而谷歌助理、Siri、Cortana 在基础知识的语义理解上时常存在一定偏差,给出的结果未必准确。在新闻话题方面,谷歌助理仍是保持其精品化的特征,相比其他智能虚拟助理,谷歌助理在新闻话题整合了大量的第三方新闻媒体作为信息源,很好的提升了用户体验。

测试 7:体育场景

(1)查询当前赛况(比分):谷歌助理、Siri 和 Alexa 都能很好的完成该项任务。在情景交互层面,能够正常识别语音并返回结果。在功能的智能化层面,能够精准定位棒球比赛,并对棒球各类比赛进行细分,寻找当前赛事的实时比分。

(2)查询比赛赛程与球队现状:四类助理在比赛赛程的查询上均表现很好,但都不具备该话题深度交互的能力,最糟的是,除了谷歌助理,其他助理均无法识别“scorer”的语义,词库完善度还有待提升。

(3)查询赛季冠军:四类助理对于足球赛事的识别能力都较弱,无法正确关联“获胜者”与“英超赛事”。

总结:谷歌助理、Siri、Alexa 在篮球与棒球的体育话题表现较好,基本可以准确查询赛程和赛况,但体育话题的深度交互上,存在一定的上下文关联问题;Cortana 在赛况的标签不如另外三者,证明其对体育赛事的实时性支撑还有待提升。值得注意的是,四类智能虚拟助理在足球赛事的表现都较弱,这可能与美国地区更偏好篮球和棒球相关(四类助理均由美国开发)。

测试 8:音乐场景

(1)播放指定歌曲:所有的智能虚拟助理都能识别音乐播放需求,并调用音乐媒体播放,但谷歌和 Alexa 支撑使用的媒体更为丰富。另外,值得一提的是 Alexa 是唯一一款具备交互播放器设置的助理。

(2)播放新音乐:仅有 Alexa 对“新音乐”的语义理解较为正确,能够自动扫描并播放最近添加的新音乐。虽然与测试预期不一致(主要原因在于开发者对新音乐与测试者理解的不一致性),但相比其他助理错误的语义理解,已好出许多。

(3)识别外播放器歌曲:Siri 与 Cortana 在识别以及深度交互处理得较好。在智能化功能层面,Siri,Cortana 和 Alexa 均能通过外播放器的音乐,语音识别成歌曲。然而,仅有 Siri 和 Cortana 具备进一步情景交互的能力,帮助用户搜索歌曲并交互确认是否播放。

总结: Alexa 在音乐主题整体表现的较高,主要表现在语义理解以及交互功能的完整性上。Siri 和 Cortana 整体功能也较为完善,但在语义理解方面稍有不足。谷歌助理在音乐主题上,表现并不理想,优势在于其整合的第三方音乐流媒体最为丰富。

测试 9:天气场景

(1)天气预报:谷歌助理与 Cortana 在天气预报的功能最为完善。在情景交互层面,四类助理都能交互并预测具体某一天的天气,但在信息回复上,Siri 无法实现完全语音的交互。在智能化上,仅有谷歌助理和 Cortana 能够实现上下文语法的关联,支撑深度的交互。

(2)天气查询:谷歌助理在天气查询的功能上最为完善。在智能化方面,谷歌助理,Siri 以及 Alexa 都能实现语义的深度理解,能够从带伞映射到天气情况;但在天气预报方面,只有谷歌助理能够实现精准的天气预报,Siri 与 Alexa 只能问官答官。在情景感知方面,三者基本一致,能够通过语音进行交互,并正常播报相关天气信息。

总结: 谷歌助理在天气场景的处理能力最强,尤其在于其语义分析的能力,不仅能够很好的实现上下文关联,给出语音回复,还能够对一些语义下的问题进行延伸。Alexa 的语义分析能力引导的智能化功能稍弱于谷歌,但基本功能都能实现。Siri 在智能化以及情景交互能力,都弱与谷歌助理。Cortana 则有一些极端,在天气预报场景效果与谷歌助理基本一致,但在天气查询话题上,由于无法关联其“带伞”与天气的关系导致无法识别此类问题。

场景 10:日程场景

(1)日程查询:四款助理均能较好的实现日常的查询,但只有 Siri 做到了上下文的关联,能够基于已有语境,进行深度的日程交互查询。

(2)日程安排修订:Siri 日程修订方面表现的最佳。在情景交互层面,Siri,谷歌助理以及 Alexa 都实现了语音的深度交互(Cortana 需要依赖触碰选择)。但在功能智能度方面,Siri 和 Cortana 才能实现添加与删除的功能均能支撑。值得注意的是,Siri 甚至还能从日程场景识别姓名,关联到用户的通讯录。

总结: Siri 在日程场景的智能度,以及功能完善性最为优秀,这需要再次得益于 Siri 作为苹果手机厂商开发的优势,能够很好的整合设备内部,由苹果开发的其他功能。Cortana 基本能够实现日程功能,但在语音交互层面稍微弱于 Siri。谷歌助理与 Alexa 在日程场景则表现一般,部分功能无法实现。

场景 11:生活服务场景

(1)周边事件:Cortana 和 Alexa 都能较好的实现周边事件的发掘,并调用相关信息,通过信息选择,可以进一步查看相关活动信息。谷歌助理与 Siri 则表现得较弱。

(2)周边餐厅:Siri 在周边餐厅功能方面作为较为完善。在智能化层面,Siri 除了能够实现另外三款的周边餐厅信息查阅的功能外,还支持餐厅预定、餐厅评价参考、更多餐厅选择等功能,对应的情景交互功能也更加丰富。

(3)周边住宿:只有 Siri 能够很好的完成周边住宿问题的回复。Siri 不仅支持周边酒店的信息查阅,还支持酒店预定,酒店当前状态确认(是否可预定)等功能,并且在情景交互层面,都具备较好的语义与触碰的互动,完成全流程的功能实现。

总结: Siri 在明确指向的生活服务,具备很强的功能完整性及交互性,同时,也需要注意的是,Siri 在生活服务方面,整合了大量的第三方应用来实现其功能。相比之下,Cortana 和 Alexa 在非指向性的生活服务功能表现得较好,另外也可以发现,Cortana 调用 Bing 搜索时,有时也经过了一定的语义理解与翻译。

总结

可以看见,谷歌助理与 Siri 的在场景的取胜次数,以及得分次数基本一致。值得注意的是,Alexa 紧随其后,甚至在某些话题上超过了谷歌助理和 Siri,Cortana 的功能覆盖度较弱,仍有较大提升空间。

(1)谷歌助理:在已实现并已整合谷歌其他应用的测试场景中,谷歌助理表现得极为优秀,尤其在深度语义理解,会稍强于其他虚拟助手。但可以发现,谷歌助理的功能覆盖度并非十分齐全,问题主要出现在对其他应用的整合上;尚且不提及对第三方应用,谷歌助理还有许多谷歌体系内的应用功能都未能整合完全。相信随着对更多应用的整合,谷歌助理的功能将更加强大与完善。

(2)Siri:Siri 在已实现的功能模块,标签得也极为出色。虽然在个别场景的深度语义理解上稍弱于谷歌助理,但基于语义理解后的功能模块,比其他智能虚拟助理要更纵深一些,这归功于对第三方应用的整合以及整合后的功能调用。另外,值得一提的是,得益于手机厂商的优势,Siri 在手机基本功能、系统功能的智能实现度都强于其他智能虚拟助理。第三方应用的接入,也将助理 Siri 功能完善度更上一层。

(3)Cortana:相比其他三款智能虚拟助理,Cortana 就稍显逊色,一是智能知识库建立的不完善,很多语义无法理解,只能直接调用 Bing 搜索处理;二是在能够实现功能的纵深度上,也不及其他智能虚拟助理。Cortana 作为一款智能虚拟助理,还有很长的路要走,包括语义知识库的建立,以及功能的建设,第三方应用的整合等等。

(4)Alexa:Alexa 的生态最为开放,大多数功能都依赖于第三方插件的,未来在功能完善度上,Alexa 有极大的空间。但值得注意的是,Alexa 虽然在特定场景能够准确的调用第三方插件,但在第三方插件的功能整合上,会稍弱于 Siri,在出行以及生活服务场景这个特点尤为明显;在语义的深度分析上,也稍弱于谷歌助理。未来 Alexa 的发展,如果能强化其语义深度分析能力,并提升第三方插件在功能模块的整合,相信 Alexa 将成优秀的智能虚拟助理。

总体来说,TalkingData 认为智能虚拟助理发展的核心在于以下三点:

  1. 交互层的情景感知:语音智能助理需要能够对大量非结构化的语音进行识别,并基于其 AI 网络进行响应。交互层的网络深度,同样也决定了智能助理功能的完整性,尤其是在基于已有交互的深层次交互。

  2. 知识库的构建:知识库的规模和类型决定了智能助理能够响应的场景以及在各场景能够决策响应的颗粒度。其提供的大量分类的数据集,将作为情感交互层学习的重要输入。

  3. 应用能力的整合:智能助理的功能主要用户交互,但功能的进一步实现需要通过其他应用实现。这要求智能助理能够很好地与第一方其他应用或其他第三方应用进行整合,才能确保智能助理实际场景化的应用。

作者简介:

姚耀东,毕业于澳大利亚国立大学,获金融硕士学位与计算机学士学位。深耕 TMT 行业多年,具有丰富的 TMT 行业咨询经验。目前就职于 TalkingData,主要负责金融科技与人工智能行业研究与相关行业合作伙伴产业链整合工作。先后于德国电信、德勤咨询等公司任职,在面向 TMT 行业的企业战略规划、产业链分析、商业模式创新与科技创新有较丰富的经验。


    感谢朱昊冰对本文的审校。

    给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们。

    语言 & 开发架构AI