Facebook近日开源了核心NLP建模框架PyText，据了解，该框架是Facebook新的Portal智能显示器以及Facebook Messenger智能助手M的语音控制背后的框架。

官方博客介绍，这是一个模拟实验和大规模部署之间界限的建模框架。PyText是一个基于PyTorch的库，是统一的开源深度学习框架。它为NLP开发提供了多种帮助：

简化工作流程，实现速度更快。
访问丰富的预构建模型体系结构和实用程序，用于文本处理和词汇管理，以促进大规模部署。
利用PyTorch生态系统的能力，包括由NLP社区的研究人员和工程师创建的预构建模型和工具。

AI研究人员和工程师现在可以使用PyText更快速、更轻松地试验和部署系统，以执行文档分类、序列标记、语义分析、多任务建模和其他任务。在Facebook内部，这个框架在几天内（而不是几周或几个月）就可以将NLP模型从构思转变为完全实现，并部署依赖于多任务学习的复杂模型。据介绍，在Facebook内部，PyText每天用于超过10亿次的预测，以证明它可以在生产规模上运行，同时仍能满足严格的延迟要求。

从事神经网络工作的工程师历来在实验优化框架和生产优化框架之间进行权衡。对于NLP系统尤其如此，NLP系统可能需要创建、训练和测试数十种模型，并且使用固有的动态结构。面向研究的框架可以提供简单，快速执行的接口，从而加快编写高级和动态模型的过程，但是它们也会受到生产中延迟和内存使用增加的影响。为生产而优化的框架可能通过将模型表示为静态图来促进部署，但是这种方法使创建文本序列的动态表示变得困难。PyTorch 1.0通过提供一个统一的框架加速了从研究到生产的过程，PyText在此基础上解决了NLP建模的具体需求。

对优质NLP的需求

人工智能研究人员和工程师对可以理解人类语言的系统有广泛而且不断增长的应用。在Facebook，NLP用于向人们提供更多相关内容，提供强大的辅助功能，标记违反政策的帖子，执行翻译等。会话式人工智能技术发展迅速，PyText正在帮助Facebook更快地推进这些新进展，以提高产品质量。PyText现在在Facebook的新视频通话设备Portal和Facebook Messenger智能助理M的建议功能中实现。官方表示，正在探索在会话AI中使用PyText的其他方法。

使用PyText，Portal支持“Hey Portal”语音命令中的组合和嵌套调用查询。此功能允许用户使用语音命令，例如“打电话给我爸爸”，这需要系统了解呼叫者与他或她呼叫的人之间的关系。它利用了本文中首次共享的语义解析工作，开发者能够使用PyText将该技术快速应用到生产中。

Facebook使用PyText快速迭代门户的NLP模型的增量改进，例如集成、条件随机字段和用于所有领域的合并模型。这使Facebook核心领域模型的准确性提高了5%到10%。此外，研发人员还使用了PyText对分布式训练的支持，为Portal减少了3-5训练时间。

快速迭代PyText还可以帮助提高NLP模型的效率和可扩展性。使用Portal，Messenger和许多其他用例时，需要实时运行模型以提供快速响应，还需要能够大规模高效运行的NLP系统。PyText使Facebook工程师更容易在数十亿人讲多种语言的系统中部署高级实时NLP。

PyText以Facebook的其他NLP系统为基础并对其进行补充。例如，它可以与fastText库一起使用。研究人员和工程师可以在fastText中训练单词嵌入，然后在PyText中使用它们。

PyText在DeepText上也有重要的改进，例如，DeepText无法实现动态图形。由于模型中的条件执行和自定义数据结构，PyText中的一些语义分析和多任务学习模型无法使用DeepText构建。PyText还加速了训练，因为它可以利用GPU并更轻松地实施分布式训练。未来，研发人员计划将PyText作为主要NLP平台。

灵活的模块化设计

PyText构建在PyTorch上，它可以连接到ONNX和Caffe2。通过PyText，AI研究人员和工程师可以将PyTorch模型转换为ONNX，然后将其作为Caffe2导出，以进行大规模的生产部署。

PyText提供灵活的模块化工作流程，具有可配置的层和可扩展的模型组件接口。PyText可以作为端到端平台，开发人员可以开箱即用，创建完整的NLP管道，其模块化结构还允许工程师将各个组件整合到现有系统中。

每个组件的角色及其与其他模块的交互取决于具体任务。例如，数据处理程序组件与训练器、丢失以及优化程序组件一起使用来训练模型。但是数据处理程序也与预测器和推理模型交互（在实时流量上运行训练模型）。这种模块化方法增强了PyText的多功能性，该平台几乎可以在研究到生产过程中的任何一点上使用，可以从头开始构建整个NLP系统或对现有系统进行修改。

PyText包含其他一些功能，可以改进NLP的工作流程。该框架支持分布式训练，可以大大加快需要多次运行的NLP实验。它还支持多任务学习，可同时训练多个模型。其他优化包括：

可移植性。PyText模型构建在PyTorch之上，可以在AI社区的不同组织之间轻松共享。
预建模型。使用集中于常见NLP任务(如文本分类、单词标记、语义解析和语言建模)的model zoo, PyText可以轻松地在新数据上使用预先构建的模型，而无需额外的工作。
上下文模型。为了提高各种NLP任务中的会话理解，可以使用PyText来利用上下文信息，例如会话线程的早期部分。PyText中已经构建了两个上下文模型：用于意图标记任务的SeqNN模型和用于两个任务的联合训练的Contextual Intent Slot模型。在官方的测试中，引入上下文信息在Messenger中使用M智能助理在几个数据集上产生了显着的性能提升。

为了优化生产中的推理，PyText使用PyTorch 1.0的功能通过优化的Caffe2执行引擎导出模型以进行推理。原生PyTorch模型需要Python运行时，由于Python的全局解释器锁的多线程限制，它不具有足够的可伸缩性。导出到Caffe2提供了高性能、高效的多线程C ++后端，可以高吞吐量并高效地提供大量流量。其他PyText功能还可以轻松地将模型移动到生产并进行部署，包括：

适用于研究和面向生产的NLP工作的统一资源，例如用于训练和推理的简单API，以及与训练和推理一致的文本预处理。
词汇管理，PyText可以在将词汇表导出到Caffe2后将其附加到模型中。
添加了对字符串张量的支持，以便在训练和推理中有效地处理文本。

更方便地从研究转向生产

从一个新的NLP模型的想法开始，PyText提供了必要的抽象，可以轻松地创建新模型或编辑现有模型。训练和评估很简单，可以执行参数扫描以确定最佳模型。PyText旨在让AI开发人员专注于他们想要更改的特定组件或模型，并为系统的其余部分使用开箱即用的组件。

这会生成一个可以在Python环境中运行的PyTorch模型。借助PyText的Python服务，AI开发人员可以通过部署模型并从使用该产品的一小部分人接收流量来快速获得在线指标。

一旦工程师对模型的性能感到满意，他就可以使用PyText中的导出器模块通过ONNX将模型转换为Caffe2，然后可以在可以处理生产流量的C ++推理服务中评估和部署Caffe2模型。

图片: https://code.fb.com/wp-content/uploads/2018/12/03_PyText_Code_Block.png
此代码示例演示如何使用ONNX将模型导出到Caffe2，预先添加运算符（如string2id），然后执行任何必要的后处理。

PyText的未来计划

在Facebook内部地部署已经证明，PyText允许工程师更快地迭代新的NLP建模思想，并快速将其扩展到生产中。NLP领域规模庞大且发展迅速，因此官方表示将继续改进PyText的功能，以测试新的最先进模型并大规模有效地进行部署。

因为在移动设备上放置复杂的NLP模型仍然具有挑战性，Facebook正在努力为设备上的模型构建端到端的工作流程。具体计划包括：支持多语言建模和其他建模功能，使模型更易于调试，并为分布式训练添加进一步优化。

有关PyText的更多详细信息，可以参考此链接：

https://research.fb.com/publications/pytext-a-seamless-path-from-nlp-research-to-production/

阅读原文：

https://code.fb.com/ai-research/pytext-open-source-nlp-framework/

创作场景

Facebook 开源核心 NLP 建模框架 PyText，模型训练时间可缩短 5 倍