【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

百度技术沙龙第 51 期回顾:语义分析技术(含资料下载)

  • 2014-07-07
  • 本文字数:1820 字

    阅读完需:约 6 分钟

2014 年 6 月 28 日,在由 @百度主办、 @InfoQ 负责策划组织和实施的第 51 期百度技术沙龙活动上,来自百度自然语言处理部高级研究员赵世奇,和中国科学院软件研究所计算机科学国家重点实验室副研究员韩先培,中国科学院计算技术研究所助理研究员姜文斌,各自分享了语义分析技术方面的实战经验。

三位语义技术方面的博士分享的话题分别为:《自然语言对话式搜索——打开智能生活的钥匙》、《实体链接:从文本到概念》和《标注适应:以中文分词和依存分析为例》,本文将对两位专家各自的分享做简单的回顾,同时提供相关资料的下载。

主题一:自然语言对话式搜索——打开智能生活的钥匙(下载讲稿

赵世奇通过百度考霸这款轻应用产品,向观众解释了如何通过语义分析技术,辅助高考学生填报志愿。

“像这种北京大学的分数线,紧接着从人的交互中会出现这样的语言,那清华的,清华大学的分数线呢?这就是在自然语言处理中一种典型的技术叫消解,他要消解的是清华,你要的是清华大学的分数线。”赵世奇针对考霸的这个功能解释说,这是人的对话中不经意的行为,需要通过技术让计算机也学会和人交流。

像需求补全的环节,要判断这里面缺省的部分,以及这里面的代词指代的是前文中的什么东西,最后是对用户在整个聊天过程中他全局信息的抽取利用和修改。

赵世奇最后总结,“我们很多的事情其实都是围绕着知识库来展开的。无论是语义的解析,还是需求的满足,都可以围绕知识库展开。所以自然语言交互式搜索,其实是NLP 技术集成的体现,这中间涉及到大量的技术的融合和联合的过程”。

主题二:实体链接:从文本到概念(下载讲稿

韩先培的研究方向是信息抽取、知识库构建,以及知识集成。他在沙龙上介绍了实体链接的任务、关键技术、现有水平和关键挑战,并展示实体链接的相关应用。以及在计算机上构建相应的实体链接系统,从而实现文本到概念的转换。

语言的歧义性是指什么,就是同一个词语、词组、句子在不同的上下文中有多种不同的意义。韩先培解释了自然语言表达的多样性,统一意语言可以以多种不同的方式表达,很难找全信息,首先第一个自然语言表达是富有弹性的。

我们用的知识是水果苹果和苹果电脑的上下文,以及中关村和水果苹果的相关度,基于这些知识,我们需要推测出中关村的苹果不错是指苹果电脑,而不是水果苹果。现在主流的方法有两种,一种是局部推理,一种是全局推理。

韩先培总结说,实体链接是一项解决自然语言歧义和多样性的有效技术,性能在一定程度上达到了实用水平,我们之所以说在一定程度上,它可以在很多应用中直接应用。但是不能在所有的应用中都可以直接使用。

主题三:标注适应- 以词法分析和句法分析为例(下载讲稿

最后一位分享的是姜文斌博士,他阐述了标注适应问题以及解决方案的本质原理,并提出了一系列渐进增强的标注适应算法。

姜文斌总结,标注适应的问题和方法,问题就是适应或融合不同标注标准的语料库的知识,方法就是基于经典分类器进行切换。在词法分析和句法分析问题上验证,显著提升词法分析和句法分析的性能,在大家的产业化做实用的产品需要处理大规模语料的时候有用途。应用场景是融合不同的人工标注语料,联合领域适应和标注适应,它的应用场景应该是非常广泛的。

OpenSpace(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。在 Open Space 的总结环节,几位话题小组长分别对讨论的内容进行了总结。

会上,一些参会者也通过新浪微博分享了他们的参会感受:

小丁-unisound :举办的不错,很少有广告啰嗦忽悠的话,最重要的是课件实时的更新供大家下载

快乐闪光灯:希望了解如何合并实体不同的名称,比如公司各种简写,子公司,甚至在截取了部分名称 等等情况

屌丝小混混:百度知道回答的问题错误答案很多啊,知识库挖掘怎么去伪?

有关百度技术沙龙的更多信息,可以通过新浪微博关注 @百度技术沙龙,或者关注 InfoQ 官方微信:infoqchina,InfoQ 上也总结了过往所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第52 期百度技术沙龙将在7 月26 日在车库咖啡举行,主题为跨界的“百度语音合成 ,欢迎关注 @InfoQ @百度技术沙龙获取后续的活动信息。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-07-07 04:262428

评论

发布
暂无评论
发现更多内容

LeetCode题解:2618. 检查是否是类的对象实例,迭代和递归

Lee Chen

JavaScript LeetCode

将DAST集成到CI/CD管道中的优势和实施步骤

互联网工科生

CI/CD DAST web 服务

在云计算环境中,保护Java应用程序可用的有效措施和工具

高端章鱼哥

Java 云计算

点云标注中的隐私保护和数据安全问题

来自四九城儿

国内市场知名的数据可视化工具

2D3D前端可视化开发

数据分析 数据可视化 商业智能 数据可视化工具 可视化大屏

软件测试/测试开发丨Python 数据类 dataclass 学习笔记

测试人

Python 软件测试 dataclass

开鸿智谷与华秋达成生态共创合作,共同打造硬件生态

华秋电子

点云标注在自动驾驶中的实践应用与挑战

来自四九城儿

软件测试/测试开发丨Linux常用命令之性能统计

测试人

Python Linux 程序员 性能 软件测试

aspera替代方案:可靠和高效的企业文件传输工具

镭速

aspera替代方案 企业文件传输工具

先楫半导体与华秋达成生态共创合作,共建技术生态社区

华秋电子

直播预告 | 博睿学院:让Arthas带你玩转jvm

博睿数据

JVM 可观测性 智能运维 博睿数据 博睿学院

低代码和无代码平台可以加速应用程序现代化

这我可不懂

软件开发 低代码 无代码 应用程序

MES1.0.0正式发布|万界星空推出免费的MES系统

万界星空科技

开源 MES系统 制造业生产管理系统

IBM收购数据可观测性厂商 Databand.ai

乘云 DataBuff

软件测试 | Java语言的特点

测吧(北京)科技有限公司

测试

应对突发流量,如何快速为自建 K8s 添加云上弹性能力

阿里巴巴云原生

阿里云 Kubernetes 云原生

在《比特与瓦特》的交点,藏着未来能源的一些真相

脑极体

新能源

HashData:让大模型“飞入寻常百姓家”

酷克数据HashData

不懂代码也不用怕!10款无代码网站搭建平台

高端章鱼哥

前端 工具 开发工具 设计师

软通动力与华秋达成生态共创合作,共同推动物联网硬件创新

华秋电子

实现大文件远程传输、备份和共享的小秘诀

镭速

大文件远程传输

如何使用API网关和OPA实现RBAC

这我可不懂

API rbac OPA

华秋慕尼黑上海电子展圆满收官,数字化赋能智能制造!

华秋电子

深开鸿与华秋达成生态共创合作,共同打造硬件生态

华秋电子

润和软件与华秋达成生态共创合作,共同推动物联网硬件创新

华秋电子

向量检索在大模型应用场景的技术和实践

Baidu AICLOUD

向量检索 大模型

有哪些好用的远程传输大文件的软件

镭速

远程传输大文件

低代码技术分享官丨BPMN 2.0简介

inBuilder低代码平台

流程 低代码平台

阿里云蝉联 FaaS 领导者,产品能力获最高分

阿里巴巴云原生

阿里云 云原生 函数计算

百度技术沙龙第51期回顾:语义分析技术(含资料下载)_语言 & 开发_景琦_InfoQ精选文章