写点什么

NLP 文本分类缺少训练数据?IBM 提出基于语言模型的数据增强新方法

  • 2019-11-15
  • 本文字数:1652 字

    阅读完需:约 5 分钟

NLP文本分类缺少训练数据?IBM提出基于语言模型的数据增强新方法

VentureBeat消息,IBM Research 的研究人员在近期发表的一篇论文中,提出了一种文本分类任务的数据扩充新方法。该方法被研究人员称为基于语言模型的数据增强(LAMBADA),原理是使用一个预先训练过的机器学习模型来合成文本分类任务所需要的标记数据。IBM 研究人员声称,LAMBADA 可以提高分类器在各种数据集上的性能,并显著地改进了数据扩充的最新技术,特别是那些适用于数据很少的文本分类任务的技术。



文本分类是 NLP 中的一个基础研究领域。它包含有很多其他的任务,比如意图分类、情感分析、话题分类、关系分类等。想要为分类器模型获得一个良好的拟合,需要大量的标记数据。然而,在很多情况下,尤其是在为特定应用开发人工智能系统时,带标签的数据往往是稀缺且昂贵的。


那么,怎样才能拥有足够多且可供深度学习模型训练用的数据呢?


IBM 研究人员在近期发表的一篇论文中给出了一个有些“特别”的答案。

预训练模型是解决文本数据扩充的新途径?

当数据不足时,数据扩充是处理该情况的常用策略,它从现有的训练数据中合成新的数据,借此提高下游模型的性能。然而扩充训练数据在文本领域往往比在视觉领域更具挑战性。


文本数据扩充时,所采用的通常方法(如:用同义词替换单个单词、删除一个单词、改变词序等),往往会使文本无效或者产生歧义,在语法和语义上都有可能出现错误。


对此,IBM 研究人员表示:尽管在这种情况下通过使用深度学习方法来改善文本分类看起来有些自相矛盾,但预训练模型为解决该任务开辟了新途径。


IBM 研究人员在近期的论文中提出了一种新的方法——基于语言模型的数据扩充(LAMBADA)。该方法可以用于综合标记数据,进而改进文本分类任务。研究人员声称,当只有少量标记数据可用时,LAMBADA 的表现非常优秀。


据了解,LAMBADA 利用了一个生成模型(OpenAI 的 GPT),它预先训练了大量的文本,使自身能够捕获语言的结构,从而产生连贯的句子。研究人员会在现有的小数据集上对模型进行微调,并使用微调后的模型合成新的标记句。再然后,研究人员会在相同的原始小型数据集上训练分类器,并让它过滤合成数据语料库,只保留那些看起来“足够定性”的数据,然后在“现有的”以及“合成后的数据”上重新训练分类器。

测试结果

IBM 研究人员使用三种不同的分类器(BERT、LSTM、SVM)将 LAMBADA 方法与 Baseline 进行比较,同时也对比了在训练样本数量不同的情况下分类器的表现(每个类别分别为 5、10、20、50 和 100)。



为了进一步验证结果的准确性,IBM 的研究人员在 5 个样本的前提下,将 Baseline 与 LAMBADA 在三个数据集(ATIS、TREC、WVA)和三个分类器(每个类别使用五个样本)进行了比较,并得到下面的数据。



Airline Travel Information Systems (ATIS)

提供有关语言理解研究中广泛使用的与飞行有关的信息的查询的数据集。 由于大多数数据属于航班类别,因此 ATIS 被描述为不平衡数据集。

Text Retrieval Conference (TREC)

信息检索社区中用于问题分类的著名数据集,由基于事实的开放域问题组成,分为广泛的语义类别。

IBM Watson Virtual Assistant (WVA) 

用于意图分类的商业数据集,包括来自电信客户支持聊天机器人系统的数据。


接下来,研究人员又将 LAMBADA 与其他的数据扩充方法进行了比较。结果显示,LAMBADA 的测试结果明显优于 ATIS 和 WVA 数据集中的其他生成算法。


在带有 BERT 分类器的数据集中,LAMBADA 的测试结果明显优于其他方法;在带有 SVM 分类器的 TREC 数据集上,LAMBADA 的测试结果与 EDA 相当;在具有 LSTM 分类器的 TREC 数据集,LAMBADA 的测试结果与 CVAE 相当。


总结

“LAMBADA 不需要额外的未标记数据……令人惊讶的是,与简单的弱标记方法相比,对于大多数分类器来说,LAMBADA 实现了更好的准确性,”IBM 研究人员在论文中写道。“显然,生成的数据集比从原始数据集提取的样本更有助于提高分类器的准确性。”


总而言之,LAMBADA 的作用主要体现在三个方面:


  1. 统计上提高分类器的准确性。

  2. 在缺乏数据的情况下,性能优于最先进的数据扩充方法。

  3. 当不存在未标记的数据时,建议使用一种更令人信服的方法替代半监督技术。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-11-15 18:453143
用户头像
张之栋 前InfoQ编辑

发布了 91 篇内容, 共 46.4 次阅读, 收获喜欢 159 次。

关注

评论

发布
暂无评论
发现更多内容

什么是低代码(Low-Code)?

优秀

低代码 低代码Low-Code 低代码是什么

低代码赛道拥挤 生态聚合成为破局关键

力软低代码开发平台

破防了!阿里用17个真实企业级项目阐述Java系统分析与架构设计

互联网架构师小马

Java 架构设计 系统分析

【有奖调研】互联网新型社交,华为在找“元服务搭子”,快来集合!

HMS Core

HMS Core

一文走进 SQL 编译-语义解析

KaiwuDB

KaiwuDB SQL编译

集结开发者力量,6月17日华为开发者联创日·深圳站即将启航!

说山水

人民日报:天翼云持续拓展云网基础设施覆盖广度和深度

天翼云开发者社区

云计算

如何修复 Mac 上的“未找到匹配的密钥交换方法”

背包客

macos SSH Mac 软件 mac电脑 macOS 13 Ventura

正式启动|2023中国高校计算机大赛—大数据挑战赛火热报名中!

云智慧AIOps社区

大数据 AI 算法 运维 智能运维

微服务高并发:授权与系统自适应功能的实现原理

互联网架构师小马

授权 系统自适应

程序员晋升指南!13年顶级架构设计经验的锦囊妙计与实践分享

互联网架构师小马

Java 架构

执行器-Query 执行详解

KaiwuDB

KaiwuDB Query执行

QCon高分演讲:火山引擎容器技术在边缘计算场景下的应用实践与探索

火山引擎边缘云

边缘计算 容器技术 实践 火山引擎边缘云

AIGC时代,设计软件应该做什么?丨AIGC X 企业服务

ToB行业头条

KW 新闻 | KaiwuDB 亮相数字中国并发布离散制造场景解决方案

KaiwuDB

数字中国 KaiwuDB 离散制造业解决方案

瓴羊Quick BI:轻松实现数据可视化大屏

对不起该用户已成仙‖

在币圈不想被割韭菜?学习怎么当一个成功的项目方

加密先生

CloudOps自动化运维套件助力企业更好上云、用云、管云

阿里云弹性计算

云计算 大数据 阿里云 物联网

开发一次、运行多端:Weex与小程序容器的卓越优势解析

FinFish

Weex 跨端开发 小程序容器 跨端框架 跨端技术

Java获取本机IP

代码的路

传统软件如何SaaS化改造,10个问答带你掌握最优解

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 6 月 PK 榜

政务云建设提速,天翼云夯实智慧政务数字底座

天翼云开发者社区

云计算 大数据

十年磨一剑,超级人工智能如果出现,人类将如何应对挑战?

这我可不懂

人工智能 AI AGI

如何理解 REST 和 RPC 之间的差异?

Apifox

程序员 RPC Rest 协议 RPC调用

在百度生态用达人营销赋能品牌生意增长 | 度星选白皮书

说山水

AI在线问题回答输出

xushuanglu

AI

当GaussDB遇上了毕昇编译器

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

参与赢大奖!阿里云机器学习平台PAI助力开发者激发AIGC潜能

阿里云大数据AI技术

阿里云 AIGC

面试官:如何实现开关降级

互联网架构师小马

Java sentinel aop 开关降级

低代码崛起:让程序员饭碗不保?人工智能或成“帮凶”

加入高科技仿生人

人工智能 低代码 数智化

万字长文解析,领域驱动设计(DDD)落地设计

codebee

NLP文本分类缺少训练数据?IBM提出基于语言模型的数据增强新方法_AI&大模型_张之栋_InfoQ精选文章