写点什么

LineFlow 开源:比 PyTorch 简洁数倍,适用任何框架的 NLP 数据集处理程序

  • 2019-12-31
  • 本文字数:2771 字

    阅读完需:约 9 分钟

LineFlow开源:比PyTorch简洁数倍,适用任何框架的NLP数据集处理程序

一般来讲,用 PyTorch 处理自然语言比较繁琐。于是,国外一位开发者 Yasufumi TANIGUCHI 开发了 LineFlow,为了尽可能减轻编码的痛苦,并保证完成同样的任务。Yasufumi TANIGUCHI 表示,LineFlow 要比 PyTorch 简洁数倍,让我们来看看 LineFlow 究竟能简洁到什么地步?


对自然语言处理任务来说,你可能需要在预处理中对文本进行词法分析或构建词汇表。因为这个过程非常痛苦,所以我创建了LineFlow ,尽可能让整个过程干净整洁。真正的代码看起来是什么样子?请看下面的图,预处理包括词法分析、词汇表构建和索引。



左边部分是来自 PyTorch 官方示例仓库的示例代码,它对文本数据进行常见的预处理。右边部分是用 LineFolw 编写的,实现了完全相同的处理。看完对比之后,你应该明白 LineFlow 是如何减轻痛苦的。要查看完整的代码,可以访问此链接


在本文中,我将详细解释上图右边部分的代码,并讲解 LineFlow 的用法。

加载文本数据

文本数据的加载,是通过上面代码中的第 8 行完成的,我稍后会详细解释这个 map。lf.TextDataset 将文本文件的路径作为参数并进行加载。


dataset = lf.TextDataset(path, encoding='utf-8').map(...)
复制代码


lf.TextDataset 要求的数据格式是每行对应一个数据。如果文本数据满足此条件,则可以加载任何类型的文本数据。




加载之后,它将文本数据转换为列表。列表中的项对应于文本数据中的行。 请看下图,这是 lf.TextDataset 的直观图像。图中的 d 代表代码中的 dataset



LineFlow 已经提供了一些公开可用的数据集。所以你可以马上使用它。要查看提供的数据集,请访问此链接

2. 标记化

文本标记化也是通过第 8 行完成的。map将作为参数传递的处理应用到文本数据的每一行。


dataset = lf.TextDataset(...).map(lambda x: x.split() + ['<eos>'])
复制代码


请看下图。这是 lf.TextDataset.map 的直观图像。图中的 d 代表代码中的 dataset



让我们深入了解下面的实际处理过程。


lambda x: x.split() + ['<eos>']
复制代码


我们将文本数据中的每一行按空格拆分为标记,然后将 <eos>添加到这些标记的末尾。我们遵循 WikiText 官方页面上的处理方式。


此时,我们使用 str.split 进行标记化。我们可以使用其他的标记化方法,如 spaCyStanfordNLPBling Fire 等。例如,如果你想使用 Bling Fire,我们将得到以下代码。


>>> from blingfire import text_to_words>>> d = lf.TextDataset('/path/to/your/text')>>> d.map(text_to_words).map(str.split)
复制代码


另外,只要我们的处理将每行文本数据作为参数,就可以执行任何我们想要的处理。例如,我们可以计算标记的数量。在下面的代码中,标记的数量是在第二个元素中定义的。


>>> d = lf.TextDataset('/path/to/text')>>> d.map(tokenize).map(lambda x: (x, len(x)))
复制代码


当我们想要制作用于注意力机制或长短期记忆网络的掩码时,这种处理就很有用。

3. 索引

索引是由第 9 行到第 12 行完成的。这些行如下图所示。在这个代码块中,我们构建了词汇表和索引。让我们按顺序来查看这些内容。


for word in dataset.flat_map(lambda x: x):    self.dictionary.add_word(word)return torch.LongTensor(dataset.flat_map(...))
复制代码


首先我们将看到构建词汇表的代码块。在下面的代码块中,我们构建了词汇表。 flat_map 将作为参数传递的处理应用于数据中的每一行,然后对其进行扁平化。因此,我们将在 dataset.flat_map(lambda x: x) 之后获取单个标记。


for word in dataset.flat_map(lambda x: x):    self.dictionary.add_word(word)
复制代码


请看下图。这是 dataset.flat_map(lambda x: x) 的直观图像。图中的 d 代表代码中的 'dataset`。



flat_map 有点令人困惑,但它等同于下面的代码。


>>> from itertools import chain>>> chain.from_iterable(map(lambda x: x, dataset))>>>>>> dataset.flat_map(lambda x: x) # same as above
复制代码


在使用 flat_map 提取每个标记之后,我们将标记传递给 self.dictionary.add_word 来构建词汇表。我将不会解释它是如何工作的,因为这与本文无关。但如果你对它的内部实现感兴趣的话,请查看此链接


self.dictionary.add_word(word)
复制代码


接下来,我们将看到索引的代码块。索引是由一下的代码块来完成的。我们还使用 flat_map 来索引每个标记并使其扁平化。这是因为 PyTorch 的示例需要扁平化标记的张量,所以我们就这么做了。


dataset.flat_map(    [lambda x: self.dictionary.word2idx[token] for token in x)])
复制代码


请看下图。这是 dataset.flat_map(indexer) 的直观图像。图中的 d 代表代码中的 dataset



此代码等同于以下代码。


>>> from itertools import chain>>> chain.from_iterable(map(indexer, dataset))>>>>>> dataset.flat_map(indexer) # same as above
复制代码


最后,我们用 torch.LongTensor 将它包起来,把它变成张量。至此就完成了文本数据的加载。


return torch.LongTensor(dataset.flat_map(...))
复制代码


现在我们可以阅读完整的代码了,如下所示:


import osimport torchimport lineflow as lfclass Dictionary(object):    def __init__(self):        self.word2idx = {}        self.idx2word = []    def add_word(self, word):        if word not in self.word2idx:            self.idx2word.append(word)            self.word2idx[word] = len(self.idx2word) - 1        return self.word2idx[word]    def __len__(self):        return len(self.idx2word)class Corpus(object):    def __init__(self, path):        self.dictionary = Dictionary()        self.train = self.tokenize(os.path.join(path, 'train.txt'))        self.valid = self.tokenize(os.path.join(path, 'valid.txt'))        self.test = self.tokenize(os.path.join(path, 'test.txt'))    def tokenize(self, path):        assert os.path.exists(path)        dataset = lf.TextDataset(path, encoding='utf-8').map(lambda x: x.split() + ['<eos>'])        for word in dataset.flat_map(lambda x: x):            self.dictionary.add_word(word)        return torch.LongTensor(dataset.flat_map(            lambda x: [self.dictionary.word2idx[token] for token in x]))
复制代码


这就是全部的解释。LineFlow 通过对文本数据进行向量化来完成较少的循环和嵌套代码。我们可以使用 Python 的 map 来完成同样的工作。但是,LineFlow 为我们提供了可读的、干净的代码,因为它像管道(Fluent Interface)一样构建了处理过程。


如果你喜欢 LineFlow,并想了解更多信息,请访问 LineFlow 在 GitHub 的仓库


作者介绍:


Yasufumi TANIGUCHI,软件工程师,对自然语言处理有着浓厚的兴趣。本文最初发表于 Medium 博客,经原作者 Yasufumi TANIGUCHI 授权,InfoQ 中文站翻译并分享。


原文链接:


https://towardsdatascience.com/lineflow-introduction-1caf7851125e


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-12-31 09:482852
用户头像
赵钰莹 InfoQ 主编

发布了 874 篇内容, 共 605.2 次阅读, 收获喜欢 2671 次。

关注

评论

发布
暂无评论
发现更多内容

精品!阿里P7爆款《K8s+Jenkins》技术笔记,高质量干货必收藏!

冉然学Java

jenkins java; 技术笔记 编程‘’ #k8s

如何防止重复下单?

三分恶

8月月更

Typora收费?搭建VS Code MarkDown写作环境

三分恶

工具 markdown 8月月更

NFT盲盒挖矿系统dapp开发NFT链游搭建

薇電13242772558

dapp NFT

华为应用市场“图章链接”功能上线 让APP分发突破机型壁垒

Geek_2d6073

SAP ABAP SteamPunk 蒸汽朋克的最新进展 - 嵌入式蒸汽朋克

Jerry Wang

云原生 Cloud 云平台 SAP 8月月更

Spring之JDK动态代理与CGLIB动态代理

echoes

2022版史上最全Java八股文,没有任何异议

Java工程师

Java 面试 八股文

Python 教程之输入输出(4)—— 用于竞争性编程的 Python 输入法

海拥(haiyong.site)

Python 8月月更

HTTP和HTTPS的区别

开发微hkkf5566

深入聊聊Linux五种IO模型

C++后台开发

epoll 网络模型 I/O模型 C/C++后台开发 C/C++开发

博云入选Gartner中国云原生领域代表性厂商

BoCloud博云

云计算 容器 云原生 Gartner

阿里大牛最新分享springboot实战派文档,开发之路必不可少

Java工程师

Java spring springboot

【Android逆向】rpc调用某安App的X-App-Token签名函数

小陈

逆向技术

阿里出品Spring Security王者晋级笔记,并附上源码解析

冉然学Java

编程 spring security java; Spring Boot CLI 源码、

学python,怎么能不学习scrapy呢!

华为云开发者联盟

Python 爬虫 开发 代码

《2022 年上半年全球独角兽企业发展研究报告》发布——DEMO WORLD世界创新峰会圆满落幕

创业邦

5种kafka消费端性能优化方法

华为云开发者联盟

大数据 kafka 后端 MRS

面了三十个人,说说真实感受

三分恶

面试 面试官 8月月更

开源一夏 | 文件和目录操作|多进程和多线程【python进阶篇】

恒山其若陋兮

开源 8月月更

【iOS逆向】某车之家sign签名分析

小陈

iOS逆向

重新审视分布式系统:永远不会有完美的一致性方案……

JAVA活菩萨

Java 程序员 java程序员 java 编程

重构指标之如何监控代码圈复杂度

京东科技开发者

测试 重构 软件重构 分布式应用软件

现代 ABAP 编程语言中的正则表达式

Jerry Wang

正则表达式 编程语言 SAP abap 8月月更

6000字深度总结!极狐GitLab 首次揭秘内部 DevOps 最佳实践

极狐GitLab

git DevOps gitlab 安全 CI/CD

iOS逆向之某茅台App抓包

小陈

iOS逆向 i茅台

攻防视角下,初创企业安全实战经验分享

声网

网络安全

面渣逆袭:MySQL六十六问,两万字+五十图详解

三分恶

MySQL 8月月更

iOS逆向之某多多App抓包

小陈

拼多多 iOS逆向

Pisanix v0.2.0 发布|新增动态读写分离支持

SphereEx

数据库 开源 ShardingSphere SphereEx

不需要服务器,教你仅用30行代码搞定实时健康码识别

华为云开发者联盟

云计算 疫情 文字识别 健康码

LineFlow开源:比PyTorch简洁数倍,适用任何框架的NLP数据集处理程序_开源_Yasufumi TANIGUCHI_InfoQ精选文章