【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

百度技术沙龙第 41 期回顾:自然语言处理技术及互联网应用解析 (含资料下载)

  • 2013-08-20
  • 本文字数:2955 字

    阅读完需:约 10 分钟

在 8 月 17 日由 @百度主办、 @InfoQ 负责策划组织和实施的第 41 期百度技术沙龙活动上,中国科学院自动化所博士、现任百度主任研究员、百度自然语言处理技术负责人吴华和出门问问 CEO、自然语言处理专家李志飞分享了各自在自然语言处理技术方面的经验,话题涉及“互联网上 NLP 技术及其应用”和“自然语言处理如何落地互联网”等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。

主题一:互联网上 NLP 技术及其应用 (下载讲稿

百度的吴华博士从搜索引擎的用户需求出发,她说道目前用户的搜索需求已经不限定在关键词的搜索,而是一些有语义的内容搜索,提到了目前互联网应用中的趋势:

  1. 基于知识网络的全面搜索需求,其中包括知识、语义搜索(精确的需求理解、直接答案满足)以及对话式搜索(智能交互)。
  2. 主动推荐,不搜即得
  3. 精准的个性化服务

面对这样的搜索需求时,给 NLP 带来了还大的挑战,主要表现在四个方面:

  1. 需求识别,输入复杂、需求多样
  2. 知识挖掘,来源自暗网,数据形式不单一,而且具有各种层次的知识
  3. 用户引导方面,如何建议、扩展以及交互
  4. 结果组织与展现方面,采用直接答案、聚类或是关系图都需要考虑

由于百度是以搜索作为主营的业务,所以在各个系统中都能看到 NLP 的身影,例如百度翻译等。NLP 其实做的就是对于文本理解和用户理解的工作。

文本理解包括用户需求的蓝屏以及广义的理解,用户理解就是给用户建模知道他要做什么。基础的技术角度设计语法分析、句法分析、语义分析、ML 模型,在应用中对应了知识图谱、Query 分析、智能交互等。随后她从实际的案例来讲解这些方面的知识与关联:

  1. 实体挖掘,例如用户在搜索“中国合伙人”时,将会从 Query Log 挖掘、URL pattern 挖掘以及从 title 中挖掘
  2. Ontology 建设,主要是上下位知识挖掘、三元组知识挖掘、相关实体挖掘以及语义标签挖掘
  3. 语义计算

随后她提到了 Query 理解的内容,Query 理解的一个展现就在框计算时理解用户的意图给出精确的答案,主要涉及三个方面的内容:

  1. Query 改写
  2. 意图归一
  3. 复杂 Query 理解

当用户输入有误时,一般使用机器翻译模型来进行 Query 改写;对于一个 Query 的多种表达方式,使用 Query Pair 文本语义匹配计算,目前的准确率是 90%,比基线高出绝对值高出 10%;针对复杂的 query,通过依存分析结果、查询逻辑表达式以及知识库推理进行处理。

语用分析用户智能交互部分,吴华博士以语音助手为例进行了实例的分析,在对话管理中,需要通过置信度、信息重要性以及历史信息来处理来自 ASR 和 SLU 结果的不确定性,然后根据用户提供的新信息来确定下一步行为。在对话管理中主要设计对话控制和对话环境建模两个模块。对话控制策略是基于框架的控制策略,即框架定义完成指定任务需要的信息、根据已知的信息确定之后要问的问题。而更加复杂的对话管理方法是基于 AI 或者统计学的方法来实现。

接下来她谈到了基于用户理解的个性化服务,即“主动推荐,不搜即得”,它需要根据特征选择和参数选择的用户消费判定模型,根据用户的搜索点击日志调整消费者意图特征空间,进而进行参数设定、数据抽取模型训练等,最后获取模型最优参数组。

最后,吴华博士谈到:

如果互联网是个金矿,那么 NLP 是炼金术!

主题二:自然语言处理如何落地互联网(下载讲稿

出门问问 CEO、自然语言处理专家李志飞第二个为大家做分享,他首先谈到了目前 NLP 在互联网上最成功的应用:谷歌翻译,以谷歌翻译从理论到落地的过程来谈 NLP 的应用。

李志飞以“垫子上的猫”为例,逐步讲解了机器翻译的步骤,包括 Word Alignment、Phrase Extraction、Decpdomg a Test Sentence 和 Translation Ambiguity 等,虽然是一句很简单的话,在实际的应用中却需要几千万的语言对来进行训练,并且还需要亿级条目进行 Phrase Dictionary,进而建立亿级 ngrams 的语言模型。

随后他说机器学习在分类器中的实现,它需要通过最大熵、SVM 和神经网络等对输入特征进行处理进而实现类别的输出。随后他对 Structured Prediction as Classification 进行了介绍,他指出:

由于类别的个数随着输入的长度而指数级增长,而且类别内部、之间都有着联系导致 SP 的难度增大,尤其是算法上的难度。许多分类上特别简单的算法(如解码)在 SP 上变得很复杂。

在谈到机器翻译为何复杂时,李志飞谈到:

给定一个句子,解码过程中要考虑各种歧义,例如分割的歧义、翻译的歧义和排序的歧义,每一种歧义都会导致组合的爆炸,这时穷举是不可能的,需要非常复杂的动态规划。

李志飞指出一个成功的工业界翻译系统包含 :算法、数据和工具三个方面的内容,他认为一切都应该工具化、自动化,好的架构和工具能够大大加速迭代,例如谷歌翻译系统可以在一天之内重新训练所有语言。

为什么 IBM Research 是许多 NLP 核心算法的开创者、Microsoft Research 拥有豪华的 NLP 科研团队,反倒是 Google 能第一个把翻译做成大规模互联网产品?李志飞指出:

  1. 团队基因:科学家 + 工程师
  2. 整个谷歌大环境是实用至上
  3. 大数据,中英系统用几千万对句子
  4. 云架构:GFS、Map-reduce、BigTable

由于现成的理论和模型,他认为一个 10 个人的开发团队 +16 个人的产品团队完全可以做一个谷歌翻译。

Open Space(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。

在 Open Space 的总结环节,几位话题小组长分别对讨论的内容进行了总结。

吴华,讨论 NLP 的实现细节,同时还讨论了目前 NLP 比较前沿的内容,然后还讨论了语音理解在百度具体实现,最后我们讨论了 Deep Learning 在刚才架构中的具体使用等。

李志飞,主要讨论语音技术、后台数据等,同时还对于出门问问的商业模式都进行了讨论和沟通,然后我们对于深度学习、神经网络的可行性做了简单的交流。

张全,主要讲解了 DeepLearning,首先谈论了一些基础架构的构想,然后讨论了在汽车行业的运用等。

魏勇鹏,根据自己的经验与大家分享人机交互的模式,同时还交流了商业模式等的具体设计等。

会后,一些参会者也通过新浪微博分享了他们的参会感受:

张帆 NLP :百度的自然语言处理吴华老师在分享搜索的新趋势,随着用户查询方式的变化,百度使用了知识图谱,对话式搜索,不搜即得等新技术来满足这部分需求。

静默风信子:张全博士说的很好,NLP 关注的就是自然语言中的层次关系,难点就是要正确的获取语言所含有的深层含义。

rickjin :出门问问 @李志飞 在教大家如何从一个 nlp 菜鸟开始搭建起 google translate 类似地机器翻译系统,step-by-step 的讲解。学会了就 NB 了,机器翻译可是 NLP 塔顶的明珠。

Rinch :很多模型对于我们做垂直搜索也很有帮助,开拓了将 NLP 应用到实际场景中的思路,受益匪浅。

钱钤也是个好青年:数据结构与机器翻译:超图 hyper graph,在这种数据结构的抽象编码的支持下,可以利用计算机做不同的事,比如将带权重的超图转化为概率超图等等。–李志飞说〜博士的讲解深入浅出哦〜

有关百度技术沙龙的更多信息,可以通过新浪微博关注 @百度技术沙龙,或者关注 InfoQ 官方微信:infoqchina,InfoQ 上也总结了过往 40 期所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第42 期百度技术沙龙将在9 月14 日,在北京车库咖啡举行,欢迎关注 @InfoQ @百度技术沙龙获取后续的活动信息。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2013-08-20 01:104153
用户头像

发布了 89 篇内容, 共 31.1 次阅读, 收获喜欢 4 次。

关注

评论

发布
暂无评论
发现更多内容

技术分享 | Web测试方法与技术之JavaScript 讲解

霍格沃兹测试开发学社

技术分享 | Web测试方法与技术之CSS讲解

霍格沃兹测试开发学社

技术分享 | Web自动化之Selenium安装

霍格沃兹测试开发学社

如何快速开发灵活自定义报表

力软低代码开发平台

阿里分布式全栈手册,整整1000页,太顶了

程序知音

Java 架构 分布式 阿里 后端技术

经典面试题-Appium原理

霍格沃兹测试开发学社

技术分享 | web前端的HTML浅析

霍格沃兹测试开发学社

Linux下使用LVM方式进行文件系统创建,详细教程

阿柠xn

Linux 运维 文件系统 lvm 9月月更

如何通过C#/VB.NET在Excel中隐藏或显示网格线

在下毛毛雨

C# .net Excel

技术分享 | 什么是软件缺陷

霍格沃兹测试开发学社

经典面试题-Python装饰器

霍格沃兹测试开发学社

技术分享 | Selenium 测试用例编写

霍格沃兹测试开发学社

一道有趣的大厂测试面试题,你能用 Python or Shell 解答吗?

霍格沃兹测试开发学社

拼多多、蚂蚁、字节2022届(大三)后端研发暑期实习

Java-fenn

Java

如何成为一个好的设计师 or 程序员?

宇宙之一粟

读书笔记 设计 技巧 知识 9月月更

技术分享 | 白盒测试方法论

霍格沃兹测试开发学社

技术分享 | WEB 端常见 Bug 解析

霍格沃兹测试开发学社

测试人生 | 40+的年龄50W+的年薪,2线城市入职名企,他曾想放弃测试?

霍格沃兹测试开发学社

技术分享 | SeleniumIDE用例录制

霍格沃兹测试开发学社

一道大厂测试开发面试真题,你需要几分钟解答?

霍格沃兹测试开发学社

技术分享 | 常用测试策略与测试手段

霍格沃兹测试开发学社

技术分享 | 黑盒测试方法论—因果图

霍格沃兹测试开发学社

技术分享 | Bug定位方法

霍格沃兹测试开发学社

技术分享 | 测试环境搭建

霍格沃兹测试开发学社

经典面试题-显式等待与隐式等待

霍格沃兹测试开发学社

经典面试题-定位不到元素

霍格沃兹测试开发学社

技术分享 | Web测试方法与技术实战演练

霍格沃兹测试开发学社

经典面试题-平时用的测试框架是什么?pytest框架下怎么入参?

霍格沃兹测试开发学社

测试人生 | 入行3年,年薪36W+,从外包到知名互联网公司,疫情之下薪资不止翻倍~

霍格沃兹测试开发学社

经典面试题-元组和列表的区别

霍格沃兹测试开发学社

LED显示屏人屏互动未来已来

Dylan

户外LED显示屏 led显示屏厂家

百度技术沙龙第41期回顾:自然语言处理技术及互联网应用解析 (含资料下载)_百度_水羽哲_InfoQ精选文章