近日, 斯坦福大学发布了一款用于自然语言处理的Python 官方库, 该库可以适用于多种语言, 访问地址: https://stanfordnlp.github.io/stanfordnlp/。
StanfordNLP 是一个软件包组合, 包括斯坦福团队在CoNLL 2018 的通用依存解析(Universal Dependency Parsing)共享任务上使用的软件包, 以及斯坦福CoreNLP 软件的官方Python 接口。StanfordNLP 支持包括阿拉伯语、中文、英语等53 种语言。除了从CoreNLP 继承的功能外, StanfordNLP 还包含将一串文本转换成句子和单词列表, 生成这些单词的基本形式、它们的词类和形态学特征的工具, 以及超过70 种语言的句法结构。
这个软件包采用高准确性的神经网络组件构建, 这些组件支持用户使用自己的注释数据进行高效的训练和评估。这些模块构建在PyTorch 上。
StanfordNLP 具有以下特征: 本地Python 实现, 只需最少的设置工作;用于稳健的文本分析的完整神经网络Pipeline, 包括tokenization、多词标记扩展、外延化、词性(POS)和形态学特征标记, 以及依存句法分析; 支持73 个Treebank 中53 种(人类)语言的预训练神经模型; 稳定、官方维护地转到CoreNLP 的Python 接口。
(编译自: https://stanfordnlp.github.io/stanfordnlp/index.html)
(本刊讯)
|