NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

百度技术沙龙第 41 期回顾:自然语言处理技术及互联网应用解析 (含资料下载)

  • 2013-08-20
  • 本文字数:2955 字

    阅读完需:约 10 分钟

在 8 月 17 日由 @百度主办、 @InfoQ 负责策划组织和实施的第 41 期百度技术沙龙活动上,中国科学院自动化所博士、现任百度主任研究员、百度自然语言处理技术负责人吴华和出门问问 CEO、自然语言处理专家李志飞分享了各自在自然语言处理技术方面的经验,话题涉及“互联网上 NLP 技术及其应用”和“自然语言处理如何落地互联网”等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。

主题一:互联网上 NLP 技术及其应用 (下载讲稿

百度的吴华博士从搜索引擎的用户需求出发,她说道目前用户的搜索需求已经不限定在关键词的搜索,而是一些有语义的内容搜索,提到了目前互联网应用中的趋势:

  1. 基于知识网络的全面搜索需求,其中包括知识、语义搜索(精确的需求理解、直接答案满足)以及对话式搜索(智能交互)。
  2. 主动推荐,不搜即得
  3. 精准的个性化服务

面对这样的搜索需求时,给 NLP 带来了还大的挑战,主要表现在四个方面:

  1. 需求识别,输入复杂、需求多样
  2. 知识挖掘,来源自暗网,数据形式不单一,而且具有各种层次的知识
  3. 用户引导方面,如何建议、扩展以及交互
  4. 结果组织与展现方面,采用直接答案、聚类或是关系图都需要考虑

由于百度是以搜索作为主营的业务,所以在各个系统中都能看到 NLP 的身影,例如百度翻译等。NLP 其实做的就是对于文本理解和用户理解的工作。

文本理解包括用户需求的蓝屏以及广义的理解,用户理解就是给用户建模知道他要做什么。基础的技术角度设计语法分析、句法分析、语义分析、ML 模型,在应用中对应了知识图谱、Query 分析、智能交互等。随后她从实际的案例来讲解这些方面的知识与关联:

  1. 实体挖掘,例如用户在搜索“中国合伙人”时,将会从 Query Log 挖掘、URL pattern 挖掘以及从 title 中挖掘
  2. Ontology 建设,主要是上下位知识挖掘、三元组知识挖掘、相关实体挖掘以及语义标签挖掘
  3. 语义计算

随后她提到了 Query 理解的内容,Query 理解的一个展现就在框计算时理解用户的意图给出精确的答案,主要涉及三个方面的内容:

  1. Query 改写
  2. 意图归一
  3. 复杂 Query 理解

当用户输入有误时,一般使用机器翻译模型来进行 Query 改写;对于一个 Query 的多种表达方式,使用 Query Pair 文本语义匹配计算,目前的准确率是 90%,比基线高出绝对值高出 10%;针对复杂的 query,通过依存分析结果、查询逻辑表达式以及知识库推理进行处理。

语用分析用户智能交互部分,吴华博士以语音助手为例进行了实例的分析,在对话管理中,需要通过置信度、信息重要性以及历史信息来处理来自 ASR 和 SLU 结果的不确定性,然后根据用户提供的新信息来确定下一步行为。在对话管理中主要设计对话控制和对话环境建模两个模块。对话控制策略是基于框架的控制策略,即框架定义完成指定任务需要的信息、根据已知的信息确定之后要问的问题。而更加复杂的对话管理方法是基于 AI 或者统计学的方法来实现。

接下来她谈到了基于用户理解的个性化服务,即“主动推荐,不搜即得”,它需要根据特征选择和参数选择的用户消费判定模型,根据用户的搜索点击日志调整消费者意图特征空间,进而进行参数设定、数据抽取模型训练等,最后获取模型最优参数组。

最后,吴华博士谈到:

如果互联网是个金矿,那么 NLP 是炼金术!

主题二:自然语言处理如何落地互联网(下载讲稿

出门问问 CEO、自然语言处理专家李志飞第二个为大家做分享,他首先谈到了目前 NLP 在互联网上最成功的应用:谷歌翻译,以谷歌翻译从理论到落地的过程来谈 NLP 的应用。

李志飞以“垫子上的猫”为例,逐步讲解了机器翻译的步骤,包括 Word Alignment、Phrase Extraction、Decpdomg a Test Sentence 和 Translation Ambiguity 等,虽然是一句很简单的话,在实际的应用中却需要几千万的语言对来进行训练,并且还需要亿级条目进行 Phrase Dictionary,进而建立亿级 ngrams 的语言模型。

随后他说机器学习在分类器中的实现,它需要通过最大熵、SVM 和神经网络等对输入特征进行处理进而实现类别的输出。随后他对 Structured Prediction as Classification 进行了介绍,他指出:

由于类别的个数随着输入的长度而指数级增长,而且类别内部、之间都有着联系导致 SP 的难度增大,尤其是算法上的难度。许多分类上特别简单的算法(如解码)在 SP 上变得很复杂。

在谈到机器翻译为何复杂时,李志飞谈到:

给定一个句子,解码过程中要考虑各种歧义,例如分割的歧义、翻译的歧义和排序的歧义,每一种歧义都会导致组合的爆炸,这时穷举是不可能的,需要非常复杂的动态规划。

李志飞指出一个成功的工业界翻译系统包含 :算法、数据和工具三个方面的内容,他认为一切都应该工具化、自动化,好的架构和工具能够大大加速迭代,例如谷歌翻译系统可以在一天之内重新训练所有语言。

为什么 IBM Research 是许多 NLP 核心算法的开创者、Microsoft Research 拥有豪华的 NLP 科研团队,反倒是 Google 能第一个把翻译做成大规模互联网产品?李志飞指出:

  1. 团队基因:科学家 + 工程师
  2. 整个谷歌大环境是实用至上
  3. 大数据,中英系统用几千万对句子
  4. 云架构:GFS、Map-reduce、BigTable

由于现成的理论和模型,他认为一个 10 个人的开发团队 +16 个人的产品团队完全可以做一个谷歌翻译。

Open Space(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。

在 Open Space 的总结环节,几位话题小组长分别对讨论的内容进行了总结。

吴华,讨论 NLP 的实现细节,同时还讨论了目前 NLP 比较前沿的内容,然后还讨论了语音理解在百度具体实现,最后我们讨论了 Deep Learning 在刚才架构中的具体使用等。

李志飞,主要讨论语音技术、后台数据等,同时还对于出门问问的商业模式都进行了讨论和沟通,然后我们对于深度学习、神经网络的可行性做了简单的交流。

张全,主要讲解了 DeepLearning,首先谈论了一些基础架构的构想,然后讨论了在汽车行业的运用等。

魏勇鹏,根据自己的经验与大家分享人机交互的模式,同时还交流了商业模式等的具体设计等。

会后,一些参会者也通过新浪微博分享了他们的参会感受:

张帆 NLP :百度的自然语言处理吴华老师在分享搜索的新趋势,随着用户查询方式的变化,百度使用了知识图谱,对话式搜索,不搜即得等新技术来满足这部分需求。

静默风信子:张全博士说的很好,NLP 关注的就是自然语言中的层次关系,难点就是要正确的获取语言所含有的深层含义。

rickjin :出门问问 @李志飞 在教大家如何从一个 nlp 菜鸟开始搭建起 google translate 类似地机器翻译系统,step-by-step 的讲解。学会了就 NB 了,机器翻译可是 NLP 塔顶的明珠。

Rinch :很多模型对于我们做垂直搜索也很有帮助,开拓了将 NLP 应用到实际场景中的思路,受益匪浅。

钱钤也是个好青年:数据结构与机器翻译:超图 hyper graph,在这种数据结构的抽象编码的支持下,可以利用计算机做不同的事,比如将带权重的超图转化为概率超图等等。–李志飞说〜博士的讲解深入浅出哦〜

有关百度技术沙龙的更多信息,可以通过新浪微博关注 @百度技术沙龙,或者关注 InfoQ 官方微信:infoqchina,InfoQ 上也总结了过往 40 期所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第42 期百度技术沙龙将在9 月14 日,在北京车库咖啡举行,欢迎关注 @InfoQ @百度技术沙龙获取后续的活动信息。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2013-08-20 01:104157
用户头像

发布了 89 篇内容, 共 31.1 次阅读, 收获喜欢 4 次。

关注

评论

发布
暂无评论
发现更多内容

低代码是什么意思?

优秀

低代码

分布式服务高可用实现:复制 | 京东物流技术团队

京东科技开发者

数据库 复制 高可用设计 分布式服务 企业号 8 月 PK 榜

NFTScan 正式上线 zkSync NFTScan 浏览器和 NFT API 数据服务

NFT Research

NFT\

一种轻量级定时任务实现 | 京东云技术团队

京东科技开发者

定时任务 系统稳定性 轻量级 企业号 8 月 PK 榜

什么是数字化?数字化转型概念是怎么兴起的?

优秀

数字化转型 数字化

方法论揭秘|研发数字化转型,这家保险企业做对了什么?

万事ONES

获取 NGINX QUIC+HTTP/3 预览版的二进制包

NGINX开源社区

nginx HTTP QUIC http3

数智引领,涛思数据与拾贝云携手赋能工业数字化转型

爱倒腾的程序员

华为云第二期线下meetup·北理工站圆满落幕

华为云开源

开源

LED透明屏清晰度受什么影响

Dylan

广告 案例 信息 LED显示屏 屏幕

提升你的前端技能:掌握 Axios 的 GET 请求

Apifox

程序员 前端 前端开发 HTTP axios

盘点一对一直播源码iOS系统维持平台稳定功能(一):弹性扩缩容

山东布谷科技

软件开发 源码搭建 iOS SDK 一对一直播源码 弹性扩缩容

网心科技:AI重新定义音视频生产力“新范式”

网心科技

AI 边缘计算 边缘云

数据智能:加速企业数字化转型

软通咨询

数据智能 #人工智能 数字化咨询

使用轻量级 CDC debezium-server-databend 构建实时数据同步

Databend

数据库,主键为何不宜太长长长长长长长长?

java易二三

Java 数据库 编程 程序员 计算机

华为开发者大会2023即将召开:HarmonyOS 4 小艺或将迎来全新升级

最新动态

权威认证 I ONES 连续5年通过可信云企业级 SaaS 服务评估

万事ONES

LangChain:打造自己的LLM应用 | 京东云技术团队

京东科技开发者

langchain LLM模型 企业号 8 月 PK 榜

华为云与医药企业共话AI 助力医药行业数字化转型和创新发展

新消费日报

高性能网络建设指南,《智算中心网络架构白皮书》开放下载

Baidu AICLOUD

大模型训练 高性能网络 RDMA

蓝牙智能设备数据采集平台化方案 | 京东云技术团队

京东科技开发者

数据采集 企业号 8 月 PK 榜 蓝牙智能设备

数字化转型背景下经管大数据课程教学能力进阶提升训练营,线下培训圆满收官!

ModelWhale

人才培养 学科交叉 师资培训 教育数字化

中国出海企业如何防范恶意退货欺诈

Geek_2d6073

EPM时代,国产化替代夺回话语权

智达方通

企业管理软件 EPM 智达方通 全面预算管理 智达方通EPM

Spring 容器原始 Bean 是如何创建的?

江南一点雨

Java spring

【MySQL技术专题】「问题实战系列」深入探索和分析MySQL数据库的数据备份和恢复实战开发指南(8.0版本升级篇)

洛神灬殇

MySQL MySQL8.0 版本升级 服务调整

MobPush Android SDK 厂商推送限制

MobTech袤博科技

前端 App 前端开发 前端开发工具

医疗知识图谱问答——文本分类解析

北桥苏

Python 聊天机器人 neo4j 图数据库 知识图谱

etl engine 监控面板 为管理者掌握平台运行情况,决策执行方案提供即时数据支撑

weigeonlyyou

数据交换 物联网 数据采集 ETL Kafka ETL

GaussDB技术解读系列之SQL Audit,面向应用开发的SQL审核工具

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

百度技术沙龙第41期回顾:自然语言处理技术及互联网应用解析 (含资料下载)_百度_水羽哲_InfoQ精选文章