【QCon】精华内容上线92%,全面覆盖“人工智能+”的典型案例!>>> 了解详情
写点什么

姜文斌谈自然语言处理:将文本结构化

  • 2014-06-22
  • 本文字数:2009 字

    阅读完需:约 7 分钟

“我对自然语言处理将怀有终身的兴趣,自我感觉,我一直是一个百学不厌的学生而非老师。我会大胆地说一些我在自然语言处理方面的看法,肯定是会存在不正确或疏漏的地方,还请看到这些文字的朋友们见谅”

——中国科学院计算技术研究所 姜文斌博士

在统计方法盛行的时代,大多数自然语言处理系统的性能,受限于人工标注语料的质量和规模。在第五十一期百度技术沙龙开始之前, InfoQ 针对词法分析、句法分析以及语义技术的落地实践以及未来发展方向,特别采访了中国科学院计算技术研究所的姜文斌博士。以下为采访实录:

InfoQ:请您先介绍一下自然语言处理研究组的团队规模和关注的领域。

姜文斌:中科院计算所自然语言研究组团队带头人是我的导师刘群教授,在刘教授不在国内的几年,我将协助老师具体管理和推进研究组的各项事务。研究组现有学生约 20 人,员工 6 人,另外还有确定将要入职的员工 2 人。研究组自刘群教授创立之初就坚持做机器翻译,至今已有十多年的历史了,机器翻译研究还将一如既往地做下去。研究组的具体工作包括机器翻译和为机器翻译提供支撑的各种语言处理技术,如词法分析、句法分析和语义分析等。近几年我们的一个重要的研究方向,是国内少数民族和重要周边国家语言的处理和翻译。

InfoQ:文本数据分析为大数据、互联网技术做了哪些理论方面的铺垫,能否做一个简单的讲解和阐述。

姜文斌:互联网相关的大数据应用,首先需要对大数据的采集和处理。对其中文本数据的处理,离不开词法分析、依存分析、句法分析和机器翻译等自然语言处理任务。普通的文本是无结构的数据,进行进一步的分析和理解,需要将无结构化的文本进行“有结构化”,这是词法分析、句法分析和语义分析等任务的目的。机器翻译实现的是语言之间自动化的翻译,往文化层面说是人类沟通交流的桥梁,往技术层面说是不同语言的数据和知识之间的桥梁。对于大数据应用,机器翻译的作用将是为不同语言的文本数据之间架设桥梁,支撑大数据应用中的跨语言环节。

InfoQ大数据技术对语义分析有哪些影响?

姜文斌:大数据和语义分析,在不同的角度看其实是互为基础的。如果想做更好的大数据应用,那么人们就会想借用语义分析技术处理数据。而如果想做更好的语义分析,则可以考虑从大数据中自动挖掘可供改进语义分析精度的知识。无论从哪个角度,大数据对语义分析的影响都是正面的。第一个角度,大数据为语义分析提供了更好的发挥空间;第二个角度,大数据为语义分析提供了潜在的知识宝藏。

InfoQ:就自然语言处理技术的实际落地,姜老师能否为我们列举几个实际案例。

姜文斌:自然语言处理技术实际上已经有一些成熟的应用了。较为简单的如拼音输入法,当前智能程度较高的输入法如搜狗一般是基于大规模语言模型进行的音字转换算法。较复杂的如机器翻译,虽然目前无法实现人所期望的“信达雅”,但百度和谷歌等公司提供的在线翻译系统已经能够为人们提供可供初步理解原文意义的翻译服务了。

InfoQ:语义分析技术今后将朝哪个方向发展?

姜文斌:语义分析是自然语言处理的终极梦想之一,近来也已成为国内外学者孜孜寻求突破的重点方向。但是,要想让计算机实现自动化的语义分析,既需要更能描述语义及推理的算法,又需要大量的世界常识知识,而目前两者都很难做好。可预见的将来,我觉得针对特定领域和应用场景的语义分析是一个较易“落地”的方向。对于更具挑战性的通用领域语义分析,从大数据中自动学习用以改进语义分析的知识,可能也是一个有希望的发展方向。

InfoQ能否具体分享一些您在 ACL 大会和 CL 期刊上的技术成果。

姜文斌:今年最开心的事情之一,是投往 CL 的长文被录用了。该工作专注于标注标准适应,意在能自动地适应和转换不同标注标准的语料库知识,用以改进自然语言处理系统的质量。“适应”是自然语言处理领域广泛存在的需求。领域适应是被研究的较为充分的问题,但是仅仅关注“领域”是不够的,现实世界需要更多的适应。我们 CL 的工作关注的是标注适应,与领域适应不同,标注适应的动机是不同知识类型之间的自动适应或转化。我们的另外一个系列工作,跨语言的词法和句法知识映射也已经基本成型,我们称呼这一系列的工作为语言适应。领域适应、标注适应和语言适应一起,都将对改进自然语言处理具有重要的意义。在今年的 COLING 会议上,我的导师刘群教授和我将就标注适应和语言适应给一个邀请报告,更详细地介绍这些适应问题和技术。

近期由于需要协助导师负责研究组的各项事务,在个人具体的研究方向上有些力不从心,很遗憾的是没能在今年的 ACL 会议上发表论文。随着研究组管理工作的更加得心应手,我有了更多的可支配时间。接下来,在指导学生和师弟妹研究工作的同时,也将继续亲自进行研究实践,期望我能够在机器翻译上带来突破。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2014-06-22 23:239109

评论

发布
暂无评论
发现更多内容

参加人气创作者的一些感悟

石云升

28天写作 4月日更 1 周年盛典

飞桨中国行落地合肥,与当地企业共话产业智能化升级

百度大脑

智能化 飞桨中国行

SpringCloud-技术专题-Feign组件基本使用(1)

洛神灬殇

Configuration Hystrix spring-cloud Fegin Ribbon

让宝妈宝爸告别安全顾虑,区块链构建母婴行业新生态

CECBC

母婴

新人小白福利来啦!精简版java知识总结,阿里P8大牛看完都说绝了

牛哄哄的java大师

Java

博睿数据DataView标准化指标管理,助力企业快速制定SLO

博睿数据

数据中台 博睿数据 dataview

让电影票房飞一会儿,五一换个姿势重温经典

华为云开发者联盟

音视频 电影修复 视频超分 媒体处理 混合失真

带你温习一下webpack配置

IT皮皮蟹

npm nodejs webpack

极光开发者周刊【No.0430】

极光JIGUANG

量化策略倍投系统搭建,马丁策略交易

抵制羊毛党,图计算“加持”互联网电商风控

华为云开发者联盟

风控 图计算 互联网电商 羊毛党

流水线成功涨薪到年薪30W 只有努力才能成功

学Java关注我

Java 架构 程序人生 编程语言

浙江宁波市区块链研究机构发布首个全国性公证联盟运营链

CECBC

区块链

Boss直聘转发超100W次Java面试突击手册 火遍全网

比伯

Java 编程 程序员 架构 计算机

群英荟萃 | UINO优锘科技ThingJS平台亮相华为开发者大会

ThingJS数字孪生引擎

物联网 3D可视化 数字孪生

我与写作平台的初次接触

Aldeo

1 周年盛典 我和写作平台的故事

云原生除了K8S、微服务,还有...?

浪潮云

云计算

中国区块链产业全景图

CECBC

技术应用

GitHub开源的中国亲戚关系计算器

不脱发的程序猿

GitHub 开源 程序员 4月日更 中国亲戚关系

迪安精选:那些好用的浏览器扩展

迪安

浏览器 插件 扩展

聪明人的训练(三十)

Changing Lin

4月日更

CloudQuery v1.3.7版本更新,新增「导出限制」

BinTools图尔兹

数据库 sql 数据安全 数据库管理

2.8W字Java基础学习和书籍推荐,真正意义上的从0到1学Java,才不是培训机构那种大纲文

北游学Java

面向对象 线程 集合 java基础 IO流

科技赋能 博睿数据引领教育行业走入“服务可达”时代

博睿数据

在线教育 博睿数据 服务可达

yarn的applicationMaster介绍

五分钟学大数据

YARN

什么,你管这叫“线程安全”?

Java大蜗牛

Java 程序员 编程语言 后端 线程安全

弱密码会毁灭物联网(IoT)吗?

龙归科技

密码管理

软件 IT专业的高校大学生是否写文调查问卷

Bob

问卷调查 行业分析能力考核 高校大学生 写文

SpringSecurity+JWT认证流程解析

学Java关注我

Java 编程 程序人生 计算机 架构】

云图说|ModelArts Pro,为企业级AI应用打造的专业开发套件

华为云开发者联盟

AI 企业应用 ModelArts Pro 开发套件

阿里码农肝了2晚,整理的Java语法总结,网友:考试复习全靠它了

飞飞JAva

姜文斌谈自然语言处理:将文本结构化_语言 & 开发_景琦_InfoQ精选文章