“AI 技术+人才”如何成为企业增长新引擎?戳此了解>>> 了解详情
写点什么

NLP 文本分类缺少训练数据?IBM 提出基于语言模型的数据增强新方法

  • 2019-11-15
  • 本文字数:1652 字

    阅读完需:约 5 分钟

NLP文本分类缺少训练数据?IBM提出基于语言模型的数据增强新方法

VentureBeat消息,IBM Research 的研究人员在近期发表的一篇论文中,提出了一种文本分类任务的数据扩充新方法。该方法被研究人员称为基于语言模型的数据增强(LAMBADA),原理是使用一个预先训练过的机器学习模型来合成文本分类任务所需要的标记数据。IBM 研究人员声称,LAMBADA 可以提高分类器在各种数据集上的性能,并显著地改进了数据扩充的最新技术,特别是那些适用于数据很少的文本分类任务的技术。



文本分类是 NLP 中的一个基础研究领域。它包含有很多其他的任务,比如意图分类、情感分析、话题分类、关系分类等。想要为分类器模型获得一个良好的拟合,需要大量的标记数据。然而,在很多情况下,尤其是在为特定应用开发人工智能系统时,带标签的数据往往是稀缺且昂贵的。


那么,怎样才能拥有足够多且可供深度学习模型训练用的数据呢?


IBM 研究人员在近期发表的一篇论文中给出了一个有些“特别”的答案。

预训练模型是解决文本数据扩充的新途径?

当数据不足时,数据扩充是处理该情况的常用策略,它从现有的训练数据中合成新的数据,借此提高下游模型的性能。然而扩充训练数据在文本领域往往比在视觉领域更具挑战性。


文本数据扩充时,所采用的通常方法(如:用同义词替换单个单词、删除一个单词、改变词序等),往往会使文本无效或者产生歧义,在语法和语义上都有可能出现错误。


对此,IBM 研究人员表示:尽管在这种情况下通过使用深度学习方法来改善文本分类看起来有些自相矛盾,但预训练模型为解决该任务开辟了新途径。


IBM 研究人员在近期的论文中提出了一种新的方法——基于语言模型的数据扩充(LAMBADA)。该方法可以用于综合标记数据,进而改进文本分类任务。研究人员声称,当只有少量标记数据可用时,LAMBADA 的表现非常优秀。


据了解,LAMBADA 利用了一个生成模型(OpenAI 的 GPT),它预先训练了大量的文本,使自身能够捕获语言的结构,从而产生连贯的句子。研究人员会在现有的小数据集上对模型进行微调,并使用微调后的模型合成新的标记句。再然后,研究人员会在相同的原始小型数据集上训练分类器,并让它过滤合成数据语料库,只保留那些看起来“足够定性”的数据,然后在“现有的”以及“合成后的数据”上重新训练分类器。

测试结果

IBM 研究人员使用三种不同的分类器(BERT、LSTM、SVM)将 LAMBADA 方法与 Baseline 进行比较,同时也对比了在训练样本数量不同的情况下分类器的表现(每个类别分别为 5、10、20、50 和 100)。



为了进一步验证结果的准确性,IBM 的研究人员在 5 个样本的前提下,将 Baseline 与 LAMBADA 在三个数据集(ATIS、TREC、WVA)和三个分类器(每个类别使用五个样本)进行了比较,并得到下面的数据。



Airline Travel Information Systems (ATIS)

提供有关语言理解研究中广泛使用的与飞行有关的信息的查询的数据集。 由于大多数数据属于航班类别,因此 ATIS 被描述为不平衡数据集。

Text Retrieval Conference (TREC)

信息检索社区中用于问题分类的著名数据集,由基于事实的开放域问题组成,分为广泛的语义类别。

IBM Watson Virtual Assistant (WVA) 

用于意图分类的商业数据集,包括来自电信客户支持聊天机器人系统的数据。


接下来,研究人员又将 LAMBADA 与其他的数据扩充方法进行了比较。结果显示,LAMBADA 的测试结果明显优于 ATIS 和 WVA 数据集中的其他生成算法。


在带有 BERT 分类器的数据集中,LAMBADA 的测试结果明显优于其他方法;在带有 SVM 分类器的 TREC 数据集上,LAMBADA 的测试结果与 EDA 相当;在具有 LSTM 分类器的 TREC 数据集,LAMBADA 的测试结果与 CVAE 相当。


总结

“LAMBADA 不需要额外的未标记数据……令人惊讶的是,与简单的弱标记方法相比,对于大多数分类器来说,LAMBADA 实现了更好的准确性,”IBM 研究人员在论文中写道。“显然,生成的数据集比从原始数据集提取的样本更有助于提高分类器的准确性。”


总而言之,LAMBADA 的作用主要体现在三个方面:


  1. 统计上提高分类器的准确性。

  2. 在缺乏数据的情况下,性能优于最先进的数据扩充方法。

  3. 当不存在未标记的数据时,建议使用一种更令人信服的方法替代半监督技术。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-11-15 18:453126
用户头像
张之栋 前InfoQ编辑

发布了 91 篇内容, 共 46.0 次阅读, 收获喜欢 159 次。

关注

评论

发布
暂无评论
发现更多内容

阿里官方上线!号称Java面试八股文天花板(2023最新版)首次开源

Java你猿哥

Java redis Spring Boot JVM java面试

独家巨献!阿里专家兼Github贡献者,整理的SpringBoot入门到成神

做梦都在改BUG

Java spring 架构 微服务 Spring Boot

构建万物互联,华为云IoT+鸿蒙重燃物体感知

华为云开发者联盟

鸿蒙 物联网 华为云 华为云开发者联盟 企业号 5 月 PK 榜

如何做好项目管理工作

老张

项目管理 pmp PMP Certification

如何选择正确的压缩方式?

ScaleFlux

智能硬件 数据压缩 计算存储 NVMeSSD

抬杠小能手GPT

林十二XII

来了!昇腾MindStudio全流程工具链分论坛精彩回顾,助力高效开发和迁移效率提升

科技热闻

苹果电脑超高清4K动态壁纸:Live Wallpaper & Themes 4K Pro

Rose

Mac壁纸软件 花见壁纸 Live Wallpaper 动态壁纸高清

Blender操作笔记——基本操作

Finovy Cloud

blender 3D绘图

带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性

汀丶人工智能

人工智能 ChatGPT

阿里全新推出:微服务突击手册,把所有操作都写出来了|超清PDF

做梦都在改BUG

Java 架构 微服务 Spring Cloud spring cloud alibaba

云数据库技术沙龙|多云多源下的数据复制技术解读-NineData

NineData

MySQL Clickhouse 数据管理 多云多源 数据存取

Mac电脑显示“打不开“XXX”,因为它来自身份不明的开发者的解决办法

Rose

Mac软件打不开 苹果软件 app已损坏

在Bamboo上怎么使用iOS的单元测试 | 京东云技术团队

京东科技开发者

ios 单元测试 代码覆盖率 Bamboo 企业号 5 月 PK 榜

2023年北京.NET线下技术沙龙来了!大咖分享,还有精品好礼等你

MASA技术团队

.net MASA

基于图神经网络的推荐算法

TiAmo

神经网络 算法 推荐算法

精选!字节大佬带你一周刷完Java面试八股文,比啃书效果好多了

Java你猿哥

Java 算法 ssm java面试 java知识点

零信任是什么意思?与堡垒机有什么区别?

行云管家

网络安全 堡垒机 零信任

Webpack5构建性能优化:构建耗时从150s到60s再到10s | 京东云技术团队

京东科技开发者

性能优化 webpack webpack-tapable 企业号 5 月 PK 榜

重磅来袭!权限框架的里程碑,Spring Security电子版教程已问世

做梦都在改BUG

Java spring spring security 权限管理系统

牛掰!阿里架构师熬夜肝了一份JVM必知必会,哪里不会查哪里

做梦都在改BUG

Java 性能优化 JVM

AI 大底座,大模型时代的答卷

百度Geek说

人工智能 百度 文心一言 企业号 5 月 PK 榜

责任链模式在复杂数据处理场景中的实战

阿里技术

设计模式 技术实践

京喜APP - 图片库优化 | 京东云技术团队

京东科技开发者

性能优化 APP开发 企业号 5 月 PK 榜 图片库优化

流批一体数据交换引擎解决方案

weigeonlyyou

物联网 数据迁移 ETL系统 Kafka ETL 流批一体化

揭秘Karmada百倍集群规模多云基础设施体系

华为云开发者联盟

云计算 云原生 华为云 华为云开发者联盟 企业号 5 月 PK 榜

秒验 创建应用

MobTech袤博科技

Redis和MySQL扛不住,B站分布式存储系统如何演进?

Java你猿哥

Java MySQL redis ssm kv

Java并发编程必备:分布式锁的选型和性能对比

做梦都在改BUG

Java 数据库 分布式锁

如何选择最优权限框架?Sa-Token 和 Shiro 对比

做梦都在改BUG

shiro Sa-Token

开源之夏 2023 | 与 Databend 一同探索云数仓的魅力

Databend

NLP文本分类缺少训练数据?IBM提出基于语言模型的数据增强新方法_AI&大模型_张之栋_InfoQ精选文章