%A 成彬,施水才,都云程,肖诗斌 %T 基于融合词性的BiLSTM-CRF的期刊关键词抽取方法 %0 Journal Article %D 2021 %J 数据分析与知识发现 %R 10.11925/infotech.2096-3467.2019.1306 %P 101-108 %V 5 %N 3 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_4936.shtml} %8 2021-03-25 %X

【目的】 利用CRF模型处理序列标注问题的优势,通过将词性信息和CRF模型融入BiLSTM网络,实现期刊关键词的自动抽取。【方法】 将关键词抽取问题视为一个序列标注问题。对期刊文本进行分词和词性标注的预处理;对预处理后的文本使用Word2Vec模型进行Word Embedding向量化,获取字词的向量表达式;使用BiLSTM-CRF模型进行关键词的自动抽取。【结果】 使用融合词性的BiLSTM-CRF网络,在采集的知网期刊文本上进行实验,在简单关键词方面,准确率较原始的BiLSTM模型提升3%;在复杂关键词方面,准确率较原始的BiLSTM模型提升12%。【局限】 期刊关键词抽取模型无法准确抽取复杂关键词,需要针对复杂关键词层面进一步提升模型性能。【结论】 融合词性的BiLSTM-CRF模型与传统方法相比,具有较高的识别准确率,是一种有效的关键词抽取方法。