阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

从百度度秘看对话式 AI 发展:个性化定制和通用技术的增强并不矛盾

  • 2019-11-17
  • 本文字数:3418 字

    阅读完需:约 11 分钟

从百度度秘看对话式AI发展:个性化定制和通用技术的增强并不矛盾

最近几年,对话式人工智能市场呈现爆发态势,随着语音识别、语义理解、NLP 等技术的创新和进步,对话式 AI 已在智能家居、智能车载等场景实现了广泛落地。全球科技大厂也纷纷加码该领域,百度的 DuerOS 对话式 AI 平台是其中的代表性力量。


近日, InfoQ 有幸采访了百度度秘算法团队技术负责人谢剑,他结合 DuerOS 系统介绍了百度在对话式 AI 方面取得的进展和背后的技术力量。采访中,谢剑还展望了对话式 AI 未来的发展趋势,他认为,定制化和通用技术的增强不是矛盾的,反而是通用技术的增强能够促进更好的达到个性化的体验,接下来,他和团队还会在将“个性化贯穿到整个系统”上做更多探索。


如果你对该话题有进一步的兴趣,谢剑还将在即将召开的ArchSummit全球架构师峰会上2019(北京站)上担任「算法应用」专题的出品人。


以下为 InfoQ 与谢剑对话全文:


InfoQ:谢老师,您好,首先请您做一下自我介绍,您自何时加入百度,现在主要负责哪一块业务?


谢剑:我是 2012 年硕士毕业后加入百度的,从硕士开始就一直在从事机器学习相关的工作。现在百度智能生活业务群组担任 AI 算法团队的技术负责人,负责的 DuerOS 算法出口包括我们第一方的小度音箱、小度在家、小度支架、小度电视伴侣以及输出给很多手机和硬件厂商的语音对话式交互能力。


InfoQ:目前,百度对话式 AI 的产品生态格局是怎样的,度秘在其中处于什么角色?


谢剑:百度对话式 AI 技术应用的主要产品出口从大的逻辑维度上和整个对话式技术的出口一致,主要分为两大块:


1)ToC 的语音对话式交互,其中包括百度地图导航时的语音交互,另外就是度秘背后的 DuerOS inside 的智能硬件(包括在家场景的音箱、车载场景中由车联网输出的车载系统的语音交互、电视、手机等)。


2)ToB 的场景,包括智能的销售以及客服,这部分主要以云服务为出口。


InfoQ: NLP 技术的突破是对话式 AI 发展的关键,可否具体介绍一下 NLP、智能语音等 AI 技术在度秘中的运用?


谢剑:NLP 技术在对话式 AI 中的应用比较显而易见,包含对经过语音识别后的文本进行基础 Query 分析、纠错/改写、意图识别、槽位解析等,以达到最透彻的理解用户需求。


但是,实际这个描述不太准确,对话式 AI 其实也是一个集大成的技术系统,不仅仅包含了语音、传统的 NLP,也包含了检索、推荐、知识图谱等各个维度的技术。比如:你需要借助对大量垂直领域的实体、实体属性等有深刻的理解才能更好的帮助你理解用户的需求;再比如,在你理解完用户的需求之后还要能够结合搜索的方法在一些内容型的需求中找到对应的结果。


InfoQ:在今年的百度 AI 开发者大会上,小度助手 5.0(DuerOS 5.0)正式发布,5.0 版本在核心层架构的算法方面有哪些升级?


谢剑:DuerOS 5.0 在算法的很多维度都有了比较大的升级,大的方面主要包括但不限于以下:


  1. 持续优化口语化的语言理解能力,基于百度的海量搜索、知识图谱数据预训练的深度理解模型,继续提升我们在长尾、口语化、识别错误等复杂的交互环境下的理解精度。

  2. 打造针对复杂远场语音交互下的"知之为知之,不知为不知"的智能满足结果预判以及多轮对话引导能力,帮助用户进一步提升获得满足的效率。

  3. 全双工免唤醒的持续交互能力

  4. 个性化的家庭信息流推荐能力


InfoQ:该版本最大的技术革新是具有全双工免唤醒能力,另一项关键能力是全球首创的家庭信息流和家庭通讯与通知功能,这两项能力背后运用到了哪些关键技术,在算法上有哪些创新之处?


谢剑:其中全双工的一次唤醒持续交互的能力是我们联合百度语音技术部一起研发的突破性技术,其中在系统架构上要实现能够持续聆听,在算法上基于上下文的场景、语音信号等进行是否是人机对话(是否是对小度说话)进行判别,而后在理解和满足上依赖多轮理解能力来实现满足。这个是我们在业界首次将这种能力上线并提供用户去使用。


而其中家庭信息流背后则包括个性化的家庭画像技术、个性化的推荐内容召回、排序等技术。我们的算法创新利用声纹、用户交互习惯等构建家的个性化画像,从而实现更精准的信息流推荐。


InfoQ:今年对话式 AI 进展较快,如百度的 ERNIE、阿里的 Enriched BERT base、微软 Mt-dnn、Uber 的 Plato,Facebook 推出的 RoBERTa 等,与友商相比, ERNIE 的优势在哪?


谢剑:ERNIE 是百度 NLP 今年的重要技术突破,我们在度秘场景下也和百度 NLP 部门深度合作应用,其相对于友商的重要优势在几个方面:首先,我们有最大的中文全网知识库和语料。第二,在算法上,在 BERT 无知识感知的结构上充分的利用 KG 进行 pre-train,能够大大的提升 pre-train 模型的泛化能力。第三,Paddle 近期针对这个模型做了非常大的性能和效果优化,尤其是性能上有很大的提升。


InfoQ:现在对话式人工智能发展的一个趋势是向定制化方向发展,通用技术越来越强,但与此同时人们的需求也越来越个性化,如何看待这种矛盾?如果要做到个性化的对话式 AI,在算法层面,需要做些什么?


谢剑:定制化和通用技术的增强是不矛盾的,反而是通用技术的增强能够促进更好的达到个性化的体验,我们已经在做很多个性化的对话体验的探索以及有很多已经落地到产品上,算法层面的话,大致可以分为几个部分:首先需要有很好的个性化画像和特征提取,此外要在全模块上引入个性化的 feature。但是实际在对话中需要关注的是上下文(短期关注点)、个性化(长期历史关注点)等多个信号应用的综合和平衡的考虑。


InfoQ:算法是 AI 的根基,近几年,深度学习算法的突破加速 AI 在各行业的落地应用,尽管“AI+”应用火热,但在底层算法能力方面,仍然面临不少挑战,在对话式 AI 智能方面,这些挑战主要表现在哪些方面,原因是什么?


谢剑: 对话式 AI 智能的挑战是多方面的,首先从目标上来看,这个事的目标是像人,甚至比人更聪明地去和用户交流(比如要比一个普通人更懂音乐等),这件事本身就是一个通用智能的问题,而当前的技术状态在实现通用智能上还是有很大一段距离的


具体来说落地到实际中的挑战,比如在音箱的场景中还以下几个方面的问题。


1)远场的语音交互下,有各种复杂的环境,噪声、多人讲话等等,很多已经超出语音识别的技术范畴,还要考虑是否是人机的对话等等。


2)由于 1 中的原因以及口语交互的问题,会有大量歧义、长尾甚至是部分识别错误的文本需要去做语义理解和满足,这就意味着原先规整的文本下就会遇到 NLP 的很多经典问题,在这个场景下会遇到,同时还有大量上述问题带来的理解挑战


3)对话是一个多轮的过程,一旦到了多轮之后整个问题空间会大大增大,结合 2 中遇到的问题就会变得更大。


InfoQ:如何解决?


谢剑:解决的方法也大致可以分为两大块:1)在算法应用上:充分的利用百度已有的海量搜索、知识图谱等先验知识提升算法的先验语义理解能力,同时充分建设对话场景下的用户数据反馈闭环,形成大数据驱动下的深度模型优化;2)在基础的底层算法突破上,和百度内部的 AI 部门联合进行很多底层技术的突破,包括大规模的预训练等。


InfoQ:预训练模型 BERT 的出现是今年 NLP 领域的重大进展,带来了里程碑式的改变。InfoQ 此前接触到的一位专家曾作出如下预测,BERT + Transformer 有可能在未来几年替代掉 NLP 各个不同应用领域之前五花八门的具体技术,或可成为 NLP 领域的大一统模型,对于这个观点,您是否同意,是或者不是,请说明理由?


谢剑: 首先 Transformer 和 BERT 还不算一回事,Transformer 是一个很好的网络 block,BERT 基于 Transformer 实际还提出了 pre-train+fine tune 的大框架,能够适用于大部分的 NLP 任务。对于这个观点,我的回答是:是,也不是。


赞同的是 pre-train+fine tune 的这个框架从思想和实践上都是一个非常好的框架,应该会逐步的被广泛的在各个任务中应用,甚至会变成一个基本的 baseline。但实际上 pre-train 还挺贵,尤其是要针对某一些场景特定的 pre-train,真正特别有效的 pre-train 也依赖大量的语料以及强大的算力,这个会导致市场实际能玩得动、且真正取得大收益的公司并不多。


不赞同的点是,在 BERT 之后的短短半年之内在 pre-train+fine tune 的大框架下,Google、Facebook 等此起彼伏的又有大量的优化甚至是不同的模型。相信未来还会有继续改进的空间,尤其 pre-train 如何能够更好的刻画知识。


InfoQ:接下来,您所负责的业务及团队还将有哪些规划?


谢剑:在未来的规划上,有一个非常重要的方面就如你上面提到的“充分考虑个性化”的因素,而且不单单是个性化的推荐上,而是要把个性化贯穿到整个系统上,包括语义理解上充分的考虑 user model 等。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-11-17 23:254083
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 492.7 次阅读, 收获喜欢 1966 次。

关注

评论

发布
暂无评论
发现更多内容

VMware Fusion Pro 13 for Mac(VM虚拟机)v13.5.0中文激活版

影影绰绰一往直前

LockBit勒索攻击大杀四方,超千家企业被攻击,金融、能源等成重灾区

德迅云安全_初启

SD-WAN:解决Office 365卡顿问题的新途径

Ogcloud

网络 组网

喜讯|极狐GitLab 通过信通院汽车软件研发效能成熟度模型能力评估,荣获全面级!

极狐GitLab

Dynamic Wallpaper for Mac(Mac动态壁纸桌面)v17.0中文版

影影绰绰一往直前

哪些关键供应链指标的数据集成可以提高智能商品系统决策支持效果

第七在线

一文讲透基于感知超分模型的实时视频抗弱网技术

中关村科金

人工智能 音视频

IBM SPSS Statistics 27 for Mac(spss数据统计分析软件) v27.0.1中文版

影影绰绰一往直前

深入探究音视频开源库WebRTC中NetEQ音频抗网络延时与抗丢包的实现机制 | 主赛道

TiDB故障处理之让人迷惑的Region is Unavailable

不在线第一只蜗牛

数据库 架构 TiDB 集群库

移动图形工作站有哪些价格实惠的推荐?

青椒云云电脑

图形工作站

WorkPlus:实现即时通讯的理想之选,专为企业打造的高效工具

WorkPlus

2024年科技行业十大经济预测

这我可不懂

人工智能 科技 发展趋势

Microsoft Office LTSC 2021 for Mac(office全家桶)v16.80中文正式版

影影绰绰一往直前

移动图形工作站电脑配置攻略

青椒云云电脑

图形工作站

企业云桌面解决方案

青椒云云电脑

云桌面 云桌面解决方案

基于图卷积神经网络和卷积注意力模块的癫痫检测

Proxifier for Mac(全局代理客户端) v3.11注册版

影影绰绰一往直前

JNPF开发平台--初体验

互联网工科生

低代码 JNPF

【第七在线】为什么智能商品管理是对传统商品管理模式的颠覆?

第七在线

sublime text for Mac(代码编辑器) v4.0(4169)中文注册版

影影绰绰一往直前

Axure RP 9 for Mac(快速原型设计软件) v9.0.0.3731正式版

影影绰绰一往直前

Premiere Pro 2024 for Mac(PR 2024视频编辑软件) v24.1中文激活版

影影绰绰一往直前

ARBT阿尔比特质押挖矿系统开发丨源码详情

l8l259l3365

开发人员都在用的数据可视化工具

2D3D前端可视化开发

大数据 数据分析 数据可视化 数据可视化工具 可视化图表

QCN9274 QCN6274|A Comprehensive Guide for Wallys WiFi7 Offering

wallyslilly

Navicat Premium 16 for Mac(数据库管理软件)v16.3.4中文激活版

影影绰绰一往直前

Java-springboot整合activiti实际项目案例(源代码)

金陵老街

海外营销推广难?看看这款外贸人强推的海外云手机!

Ogcloud

跨境电商 外贸

ERP与智能商品系统在供应链管理上有哪些区别和优势?

第七在线

Magnet for mac(macOS窗口管理软件)v2.14.0中文免激活版

影影绰绰一往直前

从百度度秘看对话式AI发展:个性化定制和通用技术的增强并不矛盾_AI&大模型_刘燕_InfoQ精选文章