写点什么

百度技术沙龙第 51 期回顾:语义分析技术(含资料下载)

  • 2014-07-07
  • 本文字数:1820 字

    阅读完需:约 6 分钟

2014 年 6 月 28 日,在由 @百度主办、 @InfoQ 负责策划组织和实施的第 51 期百度技术沙龙活动上,来自百度自然语言处理部高级研究员赵世奇,和中国科学院软件研究所计算机科学国家重点实验室副研究员韩先培,中国科学院计算技术研究所助理研究员姜文斌,各自分享了语义分析技术方面的实战经验。

三位语义技术方面的博士分享的话题分别为:《自然语言对话式搜索——打开智能生活的钥匙》、《实体链接:从文本到概念》和《标注适应:以中文分词和依存分析为例》,本文将对两位专家各自的分享做简单的回顾,同时提供相关资料的下载。

主题一:自然语言对话式搜索——打开智能生活的钥匙(下载讲稿

赵世奇通过百度考霸这款轻应用产品,向观众解释了如何通过语义分析技术,辅助高考学生填报志愿。

“像这种北京大学的分数线,紧接着从人的交互中会出现这样的语言,那清华的,清华大学的分数线呢?这就是在自然语言处理中一种典型的技术叫消解,他要消解的是清华,你要的是清华大学的分数线。”赵世奇针对考霸的这个功能解释说,这是人的对话中不经意的行为,需要通过技术让计算机也学会和人交流。

像需求补全的环节,要判断这里面缺省的部分,以及这里面的代词指代的是前文中的什么东西,最后是对用户在整个聊天过程中他全局信息的抽取利用和修改。

赵世奇最后总结,“我们很多的事情其实都是围绕着知识库来展开的。无论是语义的解析,还是需求的满足,都可以围绕知识库展开。所以自然语言交互式搜索,其实是NLP 技术集成的体现,这中间涉及到大量的技术的融合和联合的过程”。

主题二:实体链接:从文本到概念(下载讲稿

韩先培的研究方向是信息抽取、知识库构建,以及知识集成。他在沙龙上介绍了实体链接的任务、关键技术、现有水平和关键挑战,并展示实体链接的相关应用。以及在计算机上构建相应的实体链接系统,从而实现文本到概念的转换。

语言的歧义性是指什么,就是同一个词语、词组、句子在不同的上下文中有多种不同的意义。韩先培解释了自然语言表达的多样性,统一意语言可以以多种不同的方式表达,很难找全信息,首先第一个自然语言表达是富有弹性的。

我们用的知识是水果苹果和苹果电脑的上下文,以及中关村和水果苹果的相关度,基于这些知识,我们需要推测出中关村的苹果不错是指苹果电脑,而不是水果苹果。现在主流的方法有两种,一种是局部推理,一种是全局推理。

韩先培总结说,实体链接是一项解决自然语言歧义和多样性的有效技术,性能在一定程度上达到了实用水平,我们之所以说在一定程度上,它可以在很多应用中直接应用。但是不能在所有的应用中都可以直接使用。

主题三:标注适应- 以词法分析和句法分析为例(下载讲稿

最后一位分享的是姜文斌博士,他阐述了标注适应问题以及解决方案的本质原理,并提出了一系列渐进增强的标注适应算法。

姜文斌总结,标注适应的问题和方法,问题就是适应或融合不同标注标准的语料库的知识,方法就是基于经典分类器进行切换。在词法分析和句法分析问题上验证,显著提升词法分析和句法分析的性能,在大家的产业化做实用的产品需要处理大规模语料的时候有用途。应用场景是融合不同的人工标注语料,联合领域适应和标注适应,它的应用场景应该是非常广泛的。

OpenSpace(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。在 Open Space 的总结环节,几位话题小组长分别对讨论的内容进行了总结。

会上,一些参会者也通过新浪微博分享了他们的参会感受:

小丁-unisound :举办的不错,很少有广告啰嗦忽悠的话,最重要的是课件实时的更新供大家下载

快乐闪光灯:希望了解如何合并实体不同的名称,比如公司各种简写,子公司,甚至在截取了部分名称 等等情况

屌丝小混混:百度知道回答的问题错误答案很多啊,知识库挖掘怎么去伪?

有关百度技术沙龙的更多信息,可以通过新浪微博关注 @百度技术沙龙,或者关注 InfoQ 官方微信:infoqchina,InfoQ 上也总结了过往所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第52 期百度技术沙龙将在7 月26 日在车库咖啡举行,主题为跨界的“百度语音合成 ,欢迎关注 @InfoQ @百度技术沙龙获取后续的活动信息。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-07-07 04:262800

评论

发布
暂无评论
发现更多内容

Java培训高并发之线程的6种状态

@零度

线程 JAVA开发 状态

方舟开发框架容器类API的介绍与使用

HarmonyOS开发者

方舟 HarmonyOS 开发框架

【BBC learningenglish】with Tango

IT蜗壳-Tango

3月月更

CNCF Serverless工作流社区携手华为云FunctionGraph,开拓Serverless编排新时代

华为云开发者联盟

json Serverless 华为云 FunctionGraph CNCF Serverless Workflow

ScrollView 和 RelativeLayout两个布局技巧

逆锋起笔

android xml 3月月更 android布局

3月技术专题月火热开启!快来一睹为快!

用友BIP

用友 用友iuap

基于小熊派开发板设计的云端绿化管理系统

DS小龙哥

IoT 3月月更

财富管理2.0时代,券商数字营销突围之路

Speedoooo

数字化转型 解决方案 营销数字化 数字化业务战略 数字营销

Python二分查找,字符串模板,textwrap模块,每天写写Python自然就会了,每日Python第2天

梦想橡皮擦

3月月更

MVCC 时光机:在 TiDB 的时空自由穿梭丨渡渡鸟复兴会赛队访谈

PingCAP

一图了解龙蜥社区 2 月运营大事件

OpenAnolis小助手

Linux 开源 操作系统 运营

安全大讲堂 | 2022产业趋势洞察:网络安全的下一个十年

腾讯安全云鼎实验室

网络安全 未来发展

iuap 助力鹏鹞环保打造智慧水务大数据运营管理平台

用友BIP

用友 用友iuap

列存Delta表是个什么东东

华为云开发者联盟

存储 GaussDB(DWS) 列存表 delta表

数据分析不能落地?快来围观,学会数据分析应用,一起升职加薪!

博文视点Broadview

几种如何判断环境是否连上网方法!推荐最后一种

华为云开发者联盟

网络 nodejs ipv4 上网 网络接口

千万级学生管理系统的考试试卷存储方案

Geek_8d5fe5

「架构实战营」

黄东旭: 关于基础软件产品价值的思考

PingCAP

强大的JSON.stringify,你真的会使用吗?

战场小包

JavaScript 前端 3月月更

大数据培训:RDD、DataFrame的区别

@零度

大数据 spark

3 月亚马逊云科技培训与认证课程,精彩不容错过!

亚马逊云科技 (Amazon Web Services)

架构师 培训

uni-app技术分享| uni-app常见问题(二)

anyRTC开发者

uni-app 音视频 WebRTC 移动开发 视频通话

为什么说程序猿也要有产品思维

慕枫技术笔记

技术思维 内容合集 3月月更

分布式数据库排序及优化

vivo互联网技术

分布式数据库

如何在windows下成功的编译和安装python组件hyperscan

华为云开发者联盟

正则表达式 windows hyperscan python组件 正则表达式引擎

测性能,拿周边|OceanBase 3.1.2版本邀你来玩

OceanBase 数据库

oceanbase OceanBase 开源 OceanBase 社区版

web前端培训:React 核心调度功能的实现

@零度

前端开发 React

构建 Go 应用 docker 镜像的十八种姿势

万俊峰Kevin

微服务 web开发 go-zero docker image Go 语言

Java 中线程池的 7 种创建方式!

王磊

Java 面试

功效护肤理念增强,透明质酸继续引领护肤热点

易观分析

护肤 医美 透明质酸

前端实现word、excel、pdf、ppt、mp4、图片、文本等文件的预览

CRMEB

百度技术沙龙第51期回顾:语义分析技术(含资料下载)_语言 & 开发_景琦_InfoQ精选文章