PyText:一个基于 PyTorch 的自然语言处理框架

pytorch • 2018年12月25日 pm8:46 • pytorch

概述

PyText 是一个基于 PyTorch 实现的 NLP 框架。PyText 解决了实现快速实验和在规模部署服务模型的冲突。它通过为模型组件提供简单和可扩展的接口和抽象，以及使用通过 PyTorch 优化的 Caffe2 执行引擎可以导出用于推断的模型的能力，来实现这一点。我们使用 Facebook 中的 PyText 来快速迭代新的建模思想，然后无缝地将它们弹性发布。

PyText 核心特性：

各种生产就绪模型的 NLP/NLU 任务：

文本分类器

Yoon Kim (2014): Convolutional Neural Networks for Sentence Classification
Lin et al. (2017): A Structured Self-attentive Sentence Embedding

序列标记符

Lample et al. (2016): Neural Architectures for Named Entity Recognition

联合意图时隙模型

Zhang et al. (2016): A Joint Model of Intent Determination and Slot Filling for Spoken Language Understanding

上下文意图槽模型

支持建立在 PyTorch 1.0 上新的 C10d 后端分布式训练

可扩展组件，允许轻松创建新模型和任务

参考实现和论文的预训练模型：Gupta et al. (2018): Semantic Parsing for Task Oriented Dialog using Hierarchical Representations

增强培训支持

安装 PyText

要开始使用云虚拟机，请查看我们的指南：https://pytext-pytext.readthedocs-hosted.com/en/latest/installation.html#cloud-vm-setup

我们建议使用 virtualenv：

$python3 -m venv pytext_venv$ source pytext_venv/bin/activate
(pytext_venv) $pip install pytext-nlp 详细说明和更多的安装选项可以在我们的文档（https://pytext-pytext.readthedocs-hosted.com/en/latest/installation.html）中找到。如果在安装过程中遇到缺少依赖项的问题，请参考OS（https://pytext-pytext.readthedocs-hosted.com/en/latest/installation.html#os-dependencies）依赖项。训练第一个文本分类器对于第一个例子，我们将使用基于 CNN 的文本分类器，我们将使用 tests/data/train_data_tiny.tsv。可以通过克隆存储库或通过从GitHub手动下载文件来获得数据和配置文件。（venv）$ pytext.

原创文章，作者：pytorch，如若转载，请注明出处：https://pytorchchina.com/2018/12/25/pytext/