发布在即!企业 AIGC 应用程度测评,3 步定制专属评估报告。抢首批测评权益>>> 了解详情
写点什么

百度技术沙龙第 51 期回顾:语义分析技术(含资料下载)

  • 2014-07-07
  • 本文字数:1820 字

    阅读完需:约 6 分钟

2014 年 6 月 28 日,在由 @百度主办、 @InfoQ 负责策划组织和实施的第 51 期百度技术沙龙活动上,来自百度自然语言处理部高级研究员赵世奇,和中国科学院软件研究所计算机科学国家重点实验室副研究员韩先培,中国科学院计算技术研究所助理研究员姜文斌,各自分享了语义分析技术方面的实战经验。

三位语义技术方面的博士分享的话题分别为:《自然语言对话式搜索——打开智能生活的钥匙》、《实体链接:从文本到概念》和《标注适应:以中文分词和依存分析为例》,本文将对两位专家各自的分享做简单的回顾,同时提供相关资料的下载。

主题一:自然语言对话式搜索——打开智能生活的钥匙(下载讲稿

赵世奇通过百度考霸这款轻应用产品,向观众解释了如何通过语义分析技术,辅助高考学生填报志愿。

“像这种北京大学的分数线,紧接着从人的交互中会出现这样的语言,那清华的,清华大学的分数线呢?这就是在自然语言处理中一种典型的技术叫消解,他要消解的是清华,你要的是清华大学的分数线。”赵世奇针对考霸的这个功能解释说,这是人的对话中不经意的行为,需要通过技术让计算机也学会和人交流。

像需求补全的环节,要判断这里面缺省的部分,以及这里面的代词指代的是前文中的什么东西,最后是对用户在整个聊天过程中他全局信息的抽取利用和修改。

赵世奇最后总结,“我们很多的事情其实都是围绕着知识库来展开的。无论是语义的解析,还是需求的满足,都可以围绕知识库展开。所以自然语言交互式搜索,其实是NLP 技术集成的体现,这中间涉及到大量的技术的融合和联合的过程”。

主题二:实体链接:从文本到概念(下载讲稿

韩先培的研究方向是信息抽取、知识库构建,以及知识集成。他在沙龙上介绍了实体链接的任务、关键技术、现有水平和关键挑战,并展示实体链接的相关应用。以及在计算机上构建相应的实体链接系统,从而实现文本到概念的转换。

语言的歧义性是指什么,就是同一个词语、词组、句子在不同的上下文中有多种不同的意义。韩先培解释了自然语言表达的多样性,统一意语言可以以多种不同的方式表达,很难找全信息,首先第一个自然语言表达是富有弹性的。

我们用的知识是水果苹果和苹果电脑的上下文,以及中关村和水果苹果的相关度,基于这些知识,我们需要推测出中关村的苹果不错是指苹果电脑,而不是水果苹果。现在主流的方法有两种,一种是局部推理,一种是全局推理。

韩先培总结说,实体链接是一项解决自然语言歧义和多样性的有效技术,性能在一定程度上达到了实用水平,我们之所以说在一定程度上,它可以在很多应用中直接应用。但是不能在所有的应用中都可以直接使用。

主题三:标注适应- 以词法分析和句法分析为例(下载讲稿

最后一位分享的是姜文斌博士,他阐述了标注适应问题以及解决方案的本质原理,并提出了一系列渐进增强的标注适应算法。

姜文斌总结,标注适应的问题和方法,问题就是适应或融合不同标注标准的语料库的知识,方法就是基于经典分类器进行切换。在词法分析和句法分析问题上验证,显著提升词法分析和句法分析的性能,在大家的产业化做实用的产品需要处理大规模语料的时候有用途。应用场景是融合不同的人工标注语料,联合领域适应和标注适应,它的应用场景应该是非常广泛的。

OpenSpace(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。在 Open Space 的总结环节,几位话题小组长分别对讨论的内容进行了总结。

会上,一些参会者也通过新浪微博分享了他们的参会感受:

小丁-unisound :举办的不错,很少有广告啰嗦忽悠的话,最重要的是课件实时的更新供大家下载

快乐闪光灯:希望了解如何合并实体不同的名称,比如公司各种简写,子公司,甚至在截取了部分名称 等等情况

屌丝小混混:百度知道回答的问题错误答案很多啊,知识库挖掘怎么去伪?

有关百度技术沙龙的更多信息,可以通过新浪微博关注 @百度技术沙龙,或者关注 InfoQ 官方微信:infoqchina,InfoQ 上也总结了过往所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第52 期百度技术沙龙将在7 月26 日在车库咖啡举行,主题为跨界的“百度语音合成 ,欢迎关注 @InfoQ @百度技术沙龙获取后续的活动信息。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2014-07-07 04:262417

评论

发布
暂无评论
发现更多内容

一文读懂ChatGPT的工作原理:大语言模型是个啥?它到底咋工作的?

禅道项目管理

#人工智能 ChatGPT AI 2022

Java 内存与缓存管理:应对大数据场景的优雅高效策略

xfgg

Java 6 月 优质更文活动

细说敏捷测试-敏捷实战中的探索 | 京东云技术团队

京东科技开发者

敏捷开发 测试 敏捷测试 企业号 6 月 PK 榜

xenomai内核解析--实时linux概述

沐多

RTOS 实时linux xenomai

前端如何处理「并发」问题?

不叫猫先生

并发 axios 6 月 优质更文活动

如何评估大型语言模型(LLM)?

Baihai IDP

人工智能 深度学习 大模型 白海科技 大模型评估

海外交友源码平台搭建:基础功能的实现(一)

山东布谷科技

软件开发、 源码搭建 海外市场 语音交友源码

AI关于AI民主化的高见

FN0

AIGC

Vue3中常用的Composition(组合)API-watch(监视)函数

不觉心动

6 月 优质更文活动

使用华为云AstroZero,不用一行代码,制作端午节加班申请模板

华为云PaaS服务小智

云计算 零代码 华为云

Vue3中常用的Composition(组合)API-ref(引用)函数

不觉心动

6 月 优质更文活动

在人工智能冲击下,IT部门的生存价值在哪里?

FN0

AIGC

C语言编程—语法练习

攻城狮Wayne

C语言 语法 6 月 优质更文活动

基于STM32的铁路自动围栏系统设计

DS小龙哥

6 月 优质更文活动

在 Go 中使用 sqlx 替代 database/sql 操作数据库

江湖十年

数据库 后端 sql Go 语言

培育开源人才,助力开源生态发展|2023开放原子全球开源峰会校源行分论坛圆满落幕

开放原子开源基金会

开源 开放原子全球开源峰会 开放原子 校源行

Airtest图像识别测试工具原理解读&最佳实践 | 京东云技术团队

京东科技开发者

图像识别 移动开发 UI自动化测试 企业号 6 月 PK 榜 Airtest

Vue3中常用的Composition(组合)API-初识setup

不觉心动

6 月 优质更文活动

Vue3中常用的Composition(组合)API-ref(引用)函数

不觉心动

6 月 优质更文活动

随机2D形状周围层流预测!基于飞桨实现图形神经网络

飞桨PaddlePaddle

人工智能 百度 飞桨

微服务中「组件」集成

Java 架构

漫谈 SAP 产品里页面上的 Checkbox 设计与实现

Jerry Wang

SAP 前端设计 思爱普 6 月 优质更文活动

数字化扶乩的最佳语言是英语?

FN0

AIGC

CSS小技巧之悬停3D发光效果

南城FE

CSS 前端 动画 3D 交互

300行代码模拟cdn访问过程

蓝胖子的编程梦

CDN DNS CDN加速 CDN技术 #DNS

手牵手带你实现mini-vue | 京东云技术团队

京东科技开发者

Vue 数据绑定 vue2 企业号 6 月 PK 榜 双向数据绑定

万字详解常用设计模式

越长大越悲伤

设计模式

Backdata.net 搜索引擎

Larry

搜索引擎 导航网站

基础设施SIG月度动态:ABS新增ISO、VHD镜像构建,自动热补丁制作流程正式上线

OpenAnolis小助手

镜像 基础设施 龙蜥社区 sig abs

做好演讲表达的道法术器(《如何激活你的表达思维》-- 培训收获)(68/100)

hackstoic

领导力 演讲 沟通

华为云CodeArts Build快速上手编译构建-进阶玩家体验

华为云PaaS服务小智

云计算 编译 开发 华为云

百度技术沙龙第51期回顾:语义分析技术(含资料下载)_语言 & 开发_景琦_InfoQ精选文章