2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

信息抽取的关键技术和挑战

  • 2014-06-18
  • 本文字数:2195 字

    阅读完需:约 7 分钟

信息抽取技术对于垂直搜索引擎、决策制定等方面的应用都非常重要,本文采访了中国科学院软件研究所基础软件国家工程研究中心 / 计算机科学国家重点实验室副研究员韩先培博士,重点介绍了信息抽取的关键技术和挑战。

InfoQ: 能否介绍一下您的研究方向,及其应用领域?

韩先培:我的主要研究方向是信息抽取和知识库构建,具体来说就是研究如何从文本中抽取结构化知识(例如从句子“苹果发布了新编程语言 Swift”中抽取 IS-A(编程语言, Swift), 发布 (苹果公司,Swift) 等等语义关系),分析这些知识之间的结构,并将这些知识与现有的知识库进行集成。

信息抽取技术有许多不同的用途。一种典型的应用是使用信息抽取技术构建面向特定任务的知识库(如学术论文库、商品库、旅游景点库、电影库、音乐库等等),并在此基础上实现智能知识服务(如垂直搜索引擎)。另外一种典型应用是特定目标信息的发现和识别(如发现所有与“编程语言 Swift”相关的新闻)。在现在的 Web 中,相关的信息往往被无关的信息淹没。而信息抽取技术可以发现并整合蕴含在海量信息中的特定目标信息,为正确决策提供大量的相关情报,大大降低其中需要的人工。

InfoQ: 目前这个领域最关键的技术是什么?

韩先培:目前信息抽取领域最核心的技术还是基于统计的结构化模型,如隐马尔科夫模型(HMM),条件随机场模型(CRF),马尔科夫逻辑网络(MLN)等等。

InfoQ: 研究过程中遇到了哪些技术挑战?有没有解决方案?

韩先培:主要的技术挑战来自于两方面:第一是自然语言本身的复杂性,第二是信息抽取任务的开放属性。

自然语言本身的复杂性主要指的是:1)自然语言的歧义性,也就是一个自然语言表达在不同的上下文中通常有不同的意义(例如“苹果”在“我买了一斤苹果”和“我买了一台苹果”中有不同的意义,前面的“苹果”指的是吃的苹果,而后面的“苹果”指的是苹果电脑);2)自然语言的多样性,也就是一个意思可以以不同的说法进行表达(例如“苹果发布了新编程语言 Swift”和“苹果公开了其新语言 Swift”表达的是同样的意思);3)自然语言句子具有内在的语法结构,而现有自然语言技术难于完美的发现自然语言句子的内在语法结构。

信息抽取任务本身的开放性指的是:1)信息抽取面向的任务是多种多样的。例如,我们抽取的可以是药名、电影名、导演和电影之间的关系等等不同的对象; 2)信息抽取使用的网页的开放性。例如,信息抽取可以从 Amazon 上利用后台数据库自动生成的页面上抽取知识,也可能从百度百科这样半结构化的页面上抽取知识,当然也经常从搜狐新闻这样完全非结构化的文章上抽取知识。对不同类别的网页,使用的信息抽取技术往往并不相同。

上述问题的解决是一个长期的研究问题。目前主要的解决方案是使用弱监督或无监督技术。其中的代表性工作包括 Bootstrapping 技术和 Distant Supervision 技术。Bootstrapping 技术可以从很少的种子知识出发自动抽取目标知识,而 Distant Supervision 技术则可以充分利用大规模知识库(如 Freebase,谷歌的知识图谱等等)中的非直接监督知识构建大规模信息抽取系统。

InfoQ:大数据对信息抽取有何影响?

韩先培:对信息抽取任务来说,大数据主要的影响是“冗余性”。冗余性可以带来有两方面的好处:

1) 首先,由于冗余性的存在,一条知识会以多种不同的方式表达。这样信息抽取技术就可以专注于抽取以简单方式表达的知识,而忽略掉那些以复杂方式表达的知识;

2) 其次,冗余性可以用来验证知识。一条正确的知识通常会比错误的知识出现更多次,因此知识出现的次数就可以用来作为知识准确性的一个度量。

InfoQ:实体链接系统的如何构建?当前有没有一些比较成熟的模型?

韩先培:实体链接系统主要包括三部分:1)从名字到候选实体的对照表;2)实体的上下文知识模型;3)基于上下文知识模型的链接推理算法。目前已经有一些比较成熟的模型。

名字到候选实体的对照表包含一个名字所有可能指向的实体,例如“苹果”这个名字可能指向水果苹果,苹果公司,苹果电脑,电影苹果等等不同的实体。

实体的上下文通常表示为一个词的分布,例如苹果公司的上下文知识可以被表示为{P(iPhone) = 0.1, P(iPad)=0.1, P(乔布斯)=0.05,…},其中 P(iPhone) = 0.1 表示 iPhone 这个词出现在苹果公司上下文中的概率为 10%,而 P(乔布斯)=0.05 表示乔布斯出现在苹果公司周围的概率是 5%,等等。

最后,推理算法确定一段文本中的名字到底指向哪一个实体。通常推理算法使用上下文的匹配程度来做决定。例如“苹果发布了 iPad mini”这句话与“苹果公司”的上下文比“水果苹果”的上下文匹配程度更高,那么推理算法就确定“苹果公司”是上述句子中苹果所表达的实体。

InfoQ:您下一步的研究重点是什么?

韩先培:下一步主要研究关系抽取技术和自然语言文本上的语义推理技术。

韩先培博士简介:中国科学院软件研究所基础软件国家工程研究中心 / 计算机科学国家重点实验室副研究员。韩先培的研究方向是信息抽取、知识库构建,以及知识集成。在 ACL、SIGIR 等重要国际会议发表论文 20 余篇。韩先培是中国中文信息学会会员及中国中文信息学会青年工作委员会委员。

韩先培博士6 月28 日在百度技术沙龙演讲:实体链接:从文本到概念


感谢杨赛对本文的审校,唐蓉对本文的策划。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-06-18 09:597479

评论

发布
暂无评论
发现更多内容

故障分析 | 从慢日志问题看 MySQL 半一致性读的应用场景

爱可生开源社区

MySQL innodb 事务

龙蜥白皮书精选:面向芯片研发和验证的操作系统 SiliconFastOS

OpenAnolis小助手

开源 操作系统 芯片 龙蜥社区 SiliconFastOS

深度分析:企业大数据分析的选型需要关注哪些能力

对不起该用户已成仙‖

精选|Dubbo异步化实践

得物技术

一个斜杠引发的CDN资源回源请求量飙升

互联网工科生

CDN

打破孤岛运营,增强企业凝聚力

智达方通

数据孤岛 全面预算管理 企业绩效管理 信息孤岛 预算管理

国产替代,本质是价值替代

用友BIP

浅显易懂传统开发与低代码开发的区别

互联网工科生

低代码 JNPF 传统开发

AI 2.0来袭,AIGC如何重新定义招聘?

用友BIP

AI 招聘

RocketMQ on openEuler 提供高性能消息队列的稳定性解决方案

openEuler

Linux cpu 操作系统 openEuler 内核

体验超凡速度的美国独立IP虚拟主机服务!

一只扑棱蛾子

美国主机 美国独立IP虚拟主机 美国虚拟主机

跑得更快!华为云GaussDB以出色的性能守护“ERP的心脏”

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

11个开源项目,5位技术大咖…华为云亮相2023开放原子全球开源峰会

华为云开发者联盟

开源 后端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

企业需要什么样的全面预算管理?

用友BIP

全面预算

国内高校最大的云上科研智算平台在复旦大学正式上线

新云力量

智能 计算 复旦大学 云上科研智算平台

Bean生命周期的扩展点:Bean Post Processor

华为云开发者联盟

后端 开发 华为云 华为云开发者联盟 企业号 6 月 PK 榜

支撑 “千万设备日活” 的创米数联 7 年微服务架构演进之路

阿里巴巴云原生

阿里云 微服务 云原生

用友BIP全球司库十问之资金结算如何统一管理?

用友BIP

全球司库 资金管理

如何在 NGINX 中安全地分发 SSL 私钥

NGINX开源社区

nginx ssl

英特尔以领先产品,为AI领域客户提供高性能和高性价比

E科讯

免费沉浸式Twitter翻译工具 ZipZapAI用AI打破语言障碍

Ricky

ChatGPT GPT-4 ChatGPT4 chatgpt插件

有奖问卷 | 2023 中国软件研发效能调查问卷即将截止

CODING DevOps

软件测试 | 性能工具规划

测吧(北京)科技有限公司

测试

云原生应用交付平台 Orbit 主要功能与核心能力

CODING DevOps

Orbit gitops 应用管理

Zilliz Cloud 明星级功能详解|解锁多组织与角色管理功能,让你的权限管理更简单!

Zilliz

SaaS 非结构化数据 Zilliz AIGC zillizcloud

数据交换不失控:华为云EDS,让你的数据你做主

华为云开发者联盟

云计算 华为云 华为云开发者联盟 企业号 6 月 PK 榜

人脸识别技术的原理及其应用

数据堂

信息抽取的关键技术和挑战_大数据_唐蓉_InfoQ精选文章