【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

信息抽取的关键技术和挑战

  • 2014-06-18
  • 本文字数:2195 字

    阅读完需:约 7 分钟

信息抽取技术对于垂直搜索引擎、决策制定等方面的应用都非常重要,本文采访了中国科学院软件研究所基础软件国家工程研究中心 / 计算机科学国家重点实验室副研究员韩先培博士,重点介绍了信息抽取的关键技术和挑战。

InfoQ: 能否介绍一下您的研究方向,及其应用领域?

韩先培:我的主要研究方向是信息抽取和知识库构建,具体来说就是研究如何从文本中抽取结构化知识(例如从句子“苹果发布了新编程语言 Swift”中抽取 IS-A(编程语言, Swift), 发布 (苹果公司,Swift) 等等语义关系),分析这些知识之间的结构,并将这些知识与现有的知识库进行集成。

信息抽取技术有许多不同的用途。一种典型的应用是使用信息抽取技术构建面向特定任务的知识库(如学术论文库、商品库、旅游景点库、电影库、音乐库等等),并在此基础上实现智能知识服务(如垂直搜索引擎)。另外一种典型应用是特定目标信息的发现和识别(如发现所有与“编程语言 Swift”相关的新闻)。在现在的 Web 中,相关的信息往往被无关的信息淹没。而信息抽取技术可以发现并整合蕴含在海量信息中的特定目标信息,为正确决策提供大量的相关情报,大大降低其中需要的人工。

InfoQ: 目前这个领域最关键的技术是什么?

韩先培:目前信息抽取领域最核心的技术还是基于统计的结构化模型,如隐马尔科夫模型(HMM),条件随机场模型(CRF),马尔科夫逻辑网络(MLN)等等。

InfoQ: 研究过程中遇到了哪些技术挑战?有没有解决方案?

韩先培:主要的技术挑战来自于两方面:第一是自然语言本身的复杂性,第二是信息抽取任务的开放属性。

自然语言本身的复杂性主要指的是:1)自然语言的歧义性,也就是一个自然语言表达在不同的上下文中通常有不同的意义(例如“苹果”在“我买了一斤苹果”和“我买了一台苹果”中有不同的意义,前面的“苹果”指的是吃的苹果,而后面的“苹果”指的是苹果电脑);2)自然语言的多样性,也就是一个意思可以以不同的说法进行表达(例如“苹果发布了新编程语言 Swift”和“苹果公开了其新语言 Swift”表达的是同样的意思);3)自然语言句子具有内在的语法结构,而现有自然语言技术难于完美的发现自然语言句子的内在语法结构。

信息抽取任务本身的开放性指的是:1)信息抽取面向的任务是多种多样的。例如,我们抽取的可以是药名、电影名、导演和电影之间的关系等等不同的对象; 2)信息抽取使用的网页的开放性。例如,信息抽取可以从 Amazon 上利用后台数据库自动生成的页面上抽取知识,也可能从百度百科这样半结构化的页面上抽取知识,当然也经常从搜狐新闻这样完全非结构化的文章上抽取知识。对不同类别的网页,使用的信息抽取技术往往并不相同。

上述问题的解决是一个长期的研究问题。目前主要的解决方案是使用弱监督或无监督技术。其中的代表性工作包括 Bootstrapping 技术和 Distant Supervision 技术。Bootstrapping 技术可以从很少的种子知识出发自动抽取目标知识,而 Distant Supervision 技术则可以充分利用大规模知识库(如 Freebase,谷歌的知识图谱等等)中的非直接监督知识构建大规模信息抽取系统。

InfoQ:大数据对信息抽取有何影响?

韩先培:对信息抽取任务来说,大数据主要的影响是“冗余性”。冗余性可以带来有两方面的好处:

1) 首先,由于冗余性的存在,一条知识会以多种不同的方式表达。这样信息抽取技术就可以专注于抽取以简单方式表达的知识,而忽略掉那些以复杂方式表达的知识;

2) 其次,冗余性可以用来验证知识。一条正确的知识通常会比错误的知识出现更多次,因此知识出现的次数就可以用来作为知识准确性的一个度量。

InfoQ:实体链接系统的如何构建?当前有没有一些比较成熟的模型?

韩先培:实体链接系统主要包括三部分:1)从名字到候选实体的对照表;2)实体的上下文知识模型;3)基于上下文知识模型的链接推理算法。目前已经有一些比较成熟的模型。

名字到候选实体的对照表包含一个名字所有可能指向的实体,例如“苹果”这个名字可能指向水果苹果,苹果公司,苹果电脑,电影苹果等等不同的实体。

实体的上下文通常表示为一个词的分布,例如苹果公司的上下文知识可以被表示为{P(iPhone) = 0.1, P(iPad)=0.1, P(乔布斯)=0.05,…},其中 P(iPhone) = 0.1 表示 iPhone 这个词出现在苹果公司上下文中的概率为 10%,而 P(乔布斯)=0.05 表示乔布斯出现在苹果公司周围的概率是 5%,等等。

最后,推理算法确定一段文本中的名字到底指向哪一个实体。通常推理算法使用上下文的匹配程度来做决定。例如“苹果发布了 iPad mini”这句话与“苹果公司”的上下文比“水果苹果”的上下文匹配程度更高,那么推理算法就确定“苹果公司”是上述句子中苹果所表达的实体。

InfoQ:您下一步的研究重点是什么?

韩先培:下一步主要研究关系抽取技术和自然语言文本上的语义推理技术。

韩先培博士简介:中国科学院软件研究所基础软件国家工程研究中心 / 计算机科学国家重点实验室副研究员。韩先培的研究方向是信息抽取、知识库构建,以及知识集成。在 ACL、SIGIR 等重要国际会议发表论文 20 余篇。韩先培是中国中文信息学会会员及中国中文信息学会青年工作委员会委员。

韩先培博士6 月28 日在百度技术沙龙演讲:实体链接:从文本到概念


感谢杨赛对本文的审校,唐蓉对本文的策划。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-06-18 09:596686

评论

发布
暂无评论
发现更多内容

单例模式

knight

上手深度学习之前,我们先聊聊“数学”

华为云开发者联盟

神经网络 学习 数学

全文!马云对数字时代全球化的全新解读

CECBC

全球化 数字时代

LeetCode题解:242. 有效的字母异位词,数组排序,JavaScript,详细注释

Lee Chen

大前端 LeetCode

区块链掀起全民创业热潮!数字资产是未来全球最具前景和价值的!

CECBC

区块链 数字货币

从三个产业侧影,打开万物智能的应用之匙

脑极体

极光无限:用AI赋能安全 解决安全行业人才紧缺难题

风向标

人工智能

国内上市进程或将提速!百度宣布小度科技独立融资

脑极体

数据库选型入门必读:如何在眼花缭乱的产品中挑出最适合业务的?

华为云开发者联盟

数据库 数据库选择 关系型

中秋佳节,程序员教你AI三步成诗,秒变“李白”

华为云开发者联盟

AI 中秋

在vue2中使用ts

正经工程师

typescript vue.js

一周信创舆情观察(9.21~9.27)

统小信uos

甲方日常 25

句子

生活 随笔杂谈 日常

阿里内部超流行的“SpringBoot+ 微服务指南”,理论与实战双管齐下

Java架构之路

Java 程序员 微服务 Spring Boot 编程语言

代码重构 - 课后作业

Nick~毓

java安全编码指南之:死锁dead lock

程序那些事

java安全编码 java安全 java安全编码指南

第三周学习代码重构总结

三板斧

极客大学架构师训练营

技术解读丨目标检测之RepPoints系列算法

华为云开发者联盟

算法 神经 目标检查

第三课代码重构课后作业

Geek_michael

极客大学架构师训练营

不是我不小心

escray

Java ruby ruby-on-rails 面试 面经

架构师训练营 1 期第 3 周:代码重构 - 作业

piercebn

极客大学架构师训练营

2020HC大会上,这群人在讨论云原生…

华为云开发者联盟

华为 华为云 大会

GitHub上标星68k,基于SpringBoot+Netty分布式开源的即时通讯系统项目

Java架构之路

Java 程序员 编程语言 Netty 项目实战

一个草根的日常杂碎(9月29日)

刘新吾

随笔杂谈 生活记录 社会百态

关于 UML 类图

西贝

UML 图表

架构师训练营 - 作业 - 第二周

Max2012

软件架构(2)-框架设计

Zeke

极客大学架构师训练营

重塑产业+价值共识,区块链助力供应链金融数字化

CECBC

区块链 供应链物链

谈谈测试

BigBang!

测试的价值 测试文化 测试落地

开源=免费?

Philips

开源 开源社区

深入剖析 | Java15语法特性

九叔(高翔龙)

Java 架构 Java 分布式 java15新特性

信息抽取的关键技术和挑战_大数据_唐蓉_InfoQ精选文章