Please wait a minute...
Advanced Search
数据分析与知识发现
  本期目录 | 过刊浏览 | 高级检索 |
基于融合词性的BiLSTM-CRF的期刊关键词抽取方法
成彬,施水才,都云程,肖诗斌
(北京信息科技大学计算机学院 北京  100185)
(北京拓尔思信息技术股份有限公司 北京  100101)
Keyword Extraction for Journals Based on Part-of-speech and BiLSTM-CRF Combined Model
Cheng Bin,Shi Shuicai,Du YunCheng,Xiao Shibin
(Computer School,Beijing Information Science and Technology University , Beijing 100185, China)
(Beijing TRS Information Technology Co., Ltd., Beijing 100101, China)
全文: PDF (499 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]利用CRF模型处理序列标注问题的优势,通过将词性信息和CRF模型融入BiLSTM网络,实现期刊关键词的自动抽取。

[方法]将关键词抽取问题视为一个序列标注问题。对期刊文本进行分词和词性标注的预处理;将预处理后的文本使用word2vec模型进行Word Embedding向量化,获取字词的向量表达式;使用BiLSTM-CRF模型进行关键词的自动抽取。

[结果]使用融合词性的BiLSTM-CRF网络,在采集的知网期刊文本上进行实验,在SW上,准确率较原始的BiLSTM模型提升了3%,在CW上,准确率较原始的BiLSTM模型提升了12%。

[局限]期刊关键词抽取模型无法准确的抽取复杂关键词,在之后的工作中需要针对复杂关键词层面进一步提升模型性能。

[结论]融合词性的BiLSTM-CRF模型与传统方法相比,具有较高的识别准准确率,是一种有效的关键词抽取方法。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 关键词抽取条件随机场深度学习双向长短期记忆网络     
Abstract

[Objective] Utilizing the advantages of the CRF model to solve the problem of sequence labeling, by incorporating part-of-speech information and the CRF model into the BiLSTM network, automatic extraction of journal keywords is realized.

[Methods] The keyword extraction problem is considered as a sequence labeling problem. Pre-processing word segmentation and part-of-speech tagging of journal text; vectorizing the pre-processed text using the word2vec model for Word Embedding to obtain vector expressions of words; using BiLSTM-CRF model for automatic keyword extraction

[Results] Using the part-of-speech and BiLSTM-CRF network to perform experiments on the collected China National Knowledge Infrastructure text, the accuracy on SW is improved by 3% compared to the original BiLSTM model. On CW, the accuracy is improved by 12%.

[Limitations] The journal keyword extraction model cannot accurately extract complex keywords. In future work, it is necessary to further remind the model of the performance of complex keywords.

[Conclusions] Compared with the traditional method, the BiLSTM-CRF model with part-of-speech integration has higher recognition accuracy and is an effective keyword extraction method.

Key words keyword extraction    conditional random field    deep learning    Bidirectional Long Short Term Memory
     出版日期: 2020-11-11
ZTFLH:  TP393  
引用本文:   
成彬, 施水才, 都云程, 肖诗斌. 基于融合词性的BiLSTM-CRF的期刊关键词抽取方法 [J]. 数据分析与知识发现, 10.11925/infotech.2096-3467.2019.1306.
Cheng Bin, Shi Shuicai, Du YunCheng, Xiao Shibin. Keyword Extraction for Journals Based on Part-of-speech and BiLSTM-CRF Combined Model . Data Analysis and Knowledge Discovery, 0, (): 1-.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.1306      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y0/V/I/1
[1] 黄露,周恩国,李岱峰. 融合特定任务信息注意力机制的文本表示学习模型*[J]. 数据分析与知识发现, 2020, 4(9): 111-122.
[2] 赵旸, 张智雄, 刘欢, 丁良萍. 基于BERT模型的中文医学文献分类研究*[J]. 数据分析与知识发现, 2020, 4(8): 41-49.
[3] 徐晨飞, 叶海影, 包平. 基于深度学习的方志物产资料实体自动识别模型构建研究*[J]. 数据分析与知识发现, 2020, 4(8): 86-97.
[4] 余传明, 王曼怡, 林虹君, 朱星宇, 黄婷婷, 安璐. 基于深度学习的词汇表示模型对比研究*[J]. 数据分析与知识发现, 2020, 4(8): 28-40.
[5] 王鑫芸,王昊,邓三鸿,张宝隆. 面向期刊选择的学术论文内容分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 96-109.
[6] 王末,崔运鹏,陈丽,李欢. 基于深度学习的学术论文语步结构分类方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 60-68.
[7] 焦启航,乐小虬. 对比关系句子生成方法研究[J]. 数据分析与知识发现, 2020, 4(6): 43-50.
[8] 赵平,孙连英,涂帅,卞建玲,万莹. 改进的知识迁移景点实体识别算法研究及应用*[J]. 数据分析与知识发现, 2020, 4(5): 118-126.
[9] 邓思艺,乐小虬. 基于动态语义注意力的指代消解方法[J]. 数据分析与知识发现, 2020, 4(5): 46-53.
[10] 李成梁,赵中英,李超,亓亮,温彦. 基于依存关系嵌入与条件随机场的商品属性抽取方法*[J]. 数据分析与知识发现, 2020, 4(5): 54-65.
[11] 余传明,原赛,朱星宇,林虹君,张普亮,安璐. 基于深度学习的热点事件主题表示研究*[J]. 数据分析与知识发现, 2020, 4(4): 1-14.
[12] 苏传东,黄孝喜,王荣波,谌志群,毛君钰,朱嘉莹,潘宇豪. 基于词嵌入融合和循环神经网络的中英文隐喻识别*[J]. 数据分析与知识发现, 2020, 4(4): 91-99.
[13] 刘彤,倪维健,孙宇健,曾庆田. 基于深度迁移学习的业务流程实例剩余执行时间预测方法*[J]. 数据分析与知识发现, 2020, 4(2/3): 134-142.
[14] 达婧玮,颜嘉麒,邓三鸿,王忠民. 基于深度学习的重复住院预测模型研究——以心脏病为例*[J]. 数据分析与知识发现, 2020, 4(11): 63-73.
[15] 蔡婧璇,吴江,王诚坤. 基于深度学习的众测报告有用性预测研究*[J]. 数据分析与知识发现, 2020, 4(11): 102-111.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn