NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

姜文斌谈自然语言处理:将文本结构化

  • 2014-06-22
  • 本文字数:2009 字

    阅读完需:约 7 分钟

“我对自然语言处理将怀有终身的兴趣,自我感觉,我一直是一个百学不厌的学生而非老师。我会大胆地说一些我在自然语言处理方面的看法,肯定是会存在不正确或疏漏的地方,还请看到这些文字的朋友们见谅”

——中国科学院计算技术研究所 姜文斌博士

在统计方法盛行的时代,大多数自然语言处理系统的性能,受限于人工标注语料的质量和规模。在第五十一期百度技术沙龙开始之前, InfoQ 针对词法分析、句法分析以及语义技术的落地实践以及未来发展方向,特别采访了中国科学院计算技术研究所的姜文斌博士。以下为采访实录:

InfoQ:请您先介绍一下自然语言处理研究组的团队规模和关注的领域。

姜文斌:中科院计算所自然语言研究组团队带头人是我的导师刘群教授,在刘教授不在国内的几年,我将协助老师具体管理和推进研究组的各项事务。研究组现有学生约 20 人,员工 6 人,另外还有确定将要入职的员工 2 人。研究组自刘群教授创立之初就坚持做机器翻译,至今已有十多年的历史了,机器翻译研究还将一如既往地做下去。研究组的具体工作包括机器翻译和为机器翻译提供支撑的各种语言处理技术,如词法分析、句法分析和语义分析等。近几年我们的一个重要的研究方向,是国内少数民族和重要周边国家语言的处理和翻译。

InfoQ:文本数据分析为大数据、互联网技术做了哪些理论方面的铺垫,能否做一个简单的讲解和阐述。

姜文斌:互联网相关的大数据应用,首先需要对大数据的采集和处理。对其中文本数据的处理,离不开词法分析、依存分析、句法分析和机器翻译等自然语言处理任务。普通的文本是无结构的数据,进行进一步的分析和理解,需要将无结构化的文本进行“有结构化”,这是词法分析、句法分析和语义分析等任务的目的。机器翻译实现的是语言之间自动化的翻译,往文化层面说是人类沟通交流的桥梁,往技术层面说是不同语言的数据和知识之间的桥梁。对于大数据应用,机器翻译的作用将是为不同语言的文本数据之间架设桥梁,支撑大数据应用中的跨语言环节。

InfoQ大数据技术对语义分析有哪些影响?

姜文斌:大数据和语义分析,在不同的角度看其实是互为基础的。如果想做更好的大数据应用,那么人们就会想借用语义分析技术处理数据。而如果想做更好的语义分析,则可以考虑从大数据中自动挖掘可供改进语义分析精度的知识。无论从哪个角度,大数据对语义分析的影响都是正面的。第一个角度,大数据为语义分析提供了更好的发挥空间;第二个角度,大数据为语义分析提供了潜在的知识宝藏。

InfoQ:就自然语言处理技术的实际落地,姜老师能否为我们列举几个实际案例。

姜文斌:自然语言处理技术实际上已经有一些成熟的应用了。较为简单的如拼音输入法,当前智能程度较高的输入法如搜狗一般是基于大规模语言模型进行的音字转换算法。较复杂的如机器翻译,虽然目前无法实现人所期望的“信达雅”,但百度和谷歌等公司提供的在线翻译系统已经能够为人们提供可供初步理解原文意义的翻译服务了。

InfoQ:语义分析技术今后将朝哪个方向发展?

姜文斌:语义分析是自然语言处理的终极梦想之一,近来也已成为国内外学者孜孜寻求突破的重点方向。但是,要想让计算机实现自动化的语义分析,既需要更能描述语义及推理的算法,又需要大量的世界常识知识,而目前两者都很难做好。可预见的将来,我觉得针对特定领域和应用场景的语义分析是一个较易“落地”的方向。对于更具挑战性的通用领域语义分析,从大数据中自动学习用以改进语义分析的知识,可能也是一个有希望的发展方向。

InfoQ能否具体分享一些您在 ACL 大会和 CL 期刊上的技术成果。

姜文斌:今年最开心的事情之一,是投往 CL 的长文被录用了。该工作专注于标注标准适应,意在能自动地适应和转换不同标注标准的语料库知识,用以改进自然语言处理系统的质量。“适应”是自然语言处理领域广泛存在的需求。领域适应是被研究的较为充分的问题,但是仅仅关注“领域”是不够的,现实世界需要更多的适应。我们 CL 的工作关注的是标注适应,与领域适应不同,标注适应的动机是不同知识类型之间的自动适应或转化。我们的另外一个系列工作,跨语言的词法和句法知识映射也已经基本成型,我们称呼这一系列的工作为语言适应。领域适应、标注适应和语言适应一起,都将对改进自然语言处理具有重要的意义。在今年的 COLING 会议上,我的导师刘群教授和我将就标注适应和语言适应给一个邀请报告,更详细地介绍这些适应问题和技术。

近期由于需要协助导师负责研究组的各项事务,在个人具体的研究方向上有些力不从心,很遗憾的是没能在今年的 ACL 会议上发表论文。随着研究组管理工作的更加得心应手,我有了更多的可支配时间。接下来,在指导学生和师弟妹研究工作的同时,也将继续亲自进行研究实践,期望我能够在机器翻译上带来突破。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-06-22 23:239147

评论

发布
暂无评论
发现更多内容

支持HDMI-IN接口的安卓工控主板有哪些?

双赞工控

第一波场DAPP系统搭建|DAPP介绍

Geek_23f0c3

DAPP智能合约交易系统开发 波场链DAPP开发 第一波场

终于有阿里P8从开发、运维两个角度总结出了Redis实战手册

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

Pandas教程-3-DataFrame数据筛选(上)

Peter

Python 数据分析 pandas

源码大放送:基于Pyecharts的苏州旅游攻略

Peter

Python 数据分析 爬虫

炸裂!阿里十年老兵总结出SpringCloud入门到实战手册

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

二叉树层次遍历及应用

高性能架构探索

面试 二叉树 遍历

mycat入门:简介和安装

小鲍侃java

9月日更

☕【JVM技术指南】「难点-核心-遗漏」TLAB内存分配+锁的碰撞(技术串烧)!

洛神灬殇

JVM TLAB 锁升级 内存分配 9月日更

遭GitHub封杀!百万人竟跪求这份阿里内部Java面试手册

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

谈谈PhxSQL的设计和实现哲学(下)

OpenIM

我靠!都金三银四了还有人没看过阿里这份Java面试核心手册?

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

极狐GitLab 和 ArgoCD 的集成实践

极狐GitLab

Kubernetes gitlab 极狐GitLab ArgoCD

五岳核心版上线!这份阿里开发手册核心版又将被多少人疯狂转载?

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

硬科技热度有增无减,现在入局能否搭上赛道快车?

创业邦

Pandas教程-2-10种方式创建DataFrame

Peter

Python 机器学习 pandas

合约量化策略系统搭建,合约策略交易软件开发

Pandas教程-4-DataFrame数据筛选(中)

Peter

Python 数据分析 pandas

云行·数治·慧用丨边缘云一体机赋能基层实现边缘侧数据智能

浪潮云

云计算

configparser 配置文件解析器

林十二XII

谈谈PhxSQL的设计和实现哲学(上)

OpenIM

拒不外传!阿里内部耗重金找人总结出这份并发编程手册(全彩版)

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

Pandas教程-1-Series类型数据

Peter

Python 数据分析 pandas

元宇宙基础设施提供商【时空云】将承办【博鳌亚洲论坛区块链分论坛】

时空云

分布式存储 IPFS Filecoin 元宇宙

【GaussDB精品课第1期】GaussDB(for openGauss)数据库,打造自研世界级产品

华为云数据库小助手

GaussDB 课程 GaussDB(for openGauss) 华为云视频 华为云数据库

史上最强!这份在各大平台获百万推荐的Java核心手册实至名归

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

Application.mk

Changing Lin

9月日更

Tapdata肖贝贝:实时数据引擎系列(三) - 流处理引擎对比

tapdata

上线几小时下载量破百万!无价的这份阿里并发编程图册就这么强势

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

震撼!多名阿里资深专家联合撰写深入理解Redis设计源码手册

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

源码 | 解析 Redo Log 实现方式

RadonDB

MySQL 数据库 RadonDB

姜文斌谈自然语言处理:将文本结构化_语言 & 开发_景琦_InfoQ精选文章