Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (11): 35-44     https://doi.org/10.11925/infotech.2096-3467.2019.0143
     研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于复杂网络词节点移除的关键词抽取方法 *
王安,顾益军(),李坤明,李文政
中国人民公安大学信息技术与网络安全学院 北京 102600
Extracting Keywords Based on Removed Network Word Nodes
An Wang,Yijun Gu(),Kunming Li,Wenzheng Li
College of Information Technology and Cyber Security, People’s Public Security University of China, Beijing 102600, China
全文: PDF (725 KB)   HTML ( 15
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】将词节点移除融入TextRank算法, 提升中文文本关键词抽取效果。【方法】提出中文关键词抽取改进算法RemoveRank。通过引入词节点移除的方式, 交替进行排序步骤与移除步骤, 综合考虑词图的复杂网络结构特性, 将移除队列作为词节点排序结果, 实现关键词的抽取。【结果】利用南方周末网络带关键词标注数据集进行实验评估, 实验结果表明, 引入词节点移除的方式优于传统算法, 在关键词抽取数量分别取3, 5, 7时, 其F值相比TextRank方法分别提高4%, 6%, 5%。【局限】构建词图时只考虑词节点是否连通, 尚未考虑词节点连边的权重。【结论】在合适的滑动窗口取值下, RemoveRank算法可以有效地完成关键词抽取工作。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王安
顾益军
李坤明
李文政
关键词 抽取TextRank图模型词语节点子图划分    
Abstract

[Objective] This study modifies the TextRank algorithm with a method of removing word nodes, aiming to improve the results of keyword extraction from Chinese documents. [Methods] We proposed an updated RemoveRank algorithm to collect Chinese keywords and alternately carried out the sorting and removing steps. Based on the complex network structure characteristics of word graph, we used the removal queue as the sorting results for word nodes to extract keywords. [Results] We examined the proposed method on dataset with marked keywords from Southern Weekend. The new algorithm had better performance than the traditional methods. When the number of extracted keywords were 3, 5, and 7, their F values were 4%, 6%, and 5% higher than those of the TextRank. [Limitations] Our word graph did not include the weight of edges. [Conclusions] The RemoveRank method could effectively extract keywords from Chinese documents with the appropriate sliding window values.

Key wordsExtraction    TextRank    Graph Model    Word Node    Sub-Graph Partitioning
收稿日期: 2019-01-31      出版日期: 2019-12-18
ZTFLH:  TP391  
基金资助:*本文系国家重点研发计划项目(项目编号: 2017YFC0820100)
通讯作者: 顾益军     E-mail: guyijun@ppsuc.edu.cn
引用本文:   
王安,顾益军,李坤明,李文政. 基于复杂网络词节点移除的关键词抽取方法 *[J]. 数据分析与知识发现, 2019, 3(11): 35-44.
An Wang,Yijun Gu,Kunming Li,Wenzheng Li. Extracting Keywords Based on Removed Network Word Nodes. Data Analysis and Knowledge Discovery, 2019, 3(11): 35-44.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0143      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2019/V3/I11/35
  TextRank改进情况示意图
  词图网络结构示意图
统计指标 大小
文档总数 1 027
文档平均词节点数 336
文档平均句子数 73
文档标注关键词数 3.6
  数据集相关统计情况说明
滑动窗口 聚类系数 P R F
2 0.033 0.275 0.382 0.320
3 0.500 0.287 0.398 0.333
4 0.632 0.292 0.405 0.339
5 0.693 0.289 0.401 0.336
6 0.730 0.288 0.399 0.334
7 0.756 0.287 0.398 0.334
8 0.776 0.286 0.397 0.332
9 0.792 0.286 0.398 0.333
10 0.806 0.287 0.398 0.333
  滑动窗口K不同取值的效果对比
  不同方法准确率、召回率和F值变化曲线
抽取个数 方法 P R F
3 TextRank 0.366 0.304 0.332
TF-IDF 0.376 0.313 0.342
中间中心性(BC) 0.356 0.296 0.323
接近中心性(CC) 0.337 0.281 0.306
MixRank 0.374 0.311 0.339
RemoveRank 0.382 0.318 0.347
5 TextRank 0.273 0..379 0.318
TF-IDF 0.274 0.380 0.319
中间中心性(BC) 0.262 0.364 0.305
接近中心性(CC) 0.246 0.341 0.286
MixRank 0.274 0.381 0.319
RemoveRank 0.291 0.405 0.339
7 TextRank 0.215 0.418 0.284
TF-IDF 0.219 0.425 0.289
中间中心性(BC) 0.207 0.403 0.274
接近中心性(CC) 0.197 0.383 0.260
MixRank 0.215 0.418 0.284
RemoveRank 0.226 0.439 0.298
  RemoveRank与其他方法的比较
文档 方法 标注关键词 抽取关键词
6 TextRank 宫颈癌, hpv, 上市, 疫苗 疫苗, 宫颈癌, 中国, hpv, 接种
RemoveRank 宫颈癌, hpv, 上市, 疫苗 疫苗, hpv, 宫颈癌, 中国, 上市
1008 TextRank 互联网, 光缆, 服务器 互联网, 连接, 服务器, 网站, 网络
RemoveRank 互联网, 光缆, 服务器 互联网, 光缆, 服务器, 网站, 连接
1364 TextRank 青海湖, 塔尔寺, 油菜花, 牦牛 油菜花, 青海湖, 黄教, 牦牛, 之称
RemoveRank 青海湖, 塔尔寺, 油菜花, 牦牛 油菜花, 青海湖, 塔尔寺, 牦牛, 黄教
  关键词抽取案例结果对比
[1] Salton G . Developments in Automatic Text Retrieval[J]. Science, 1991,253(5023):974-979.
doi: 10.1126/science.253.5023.974 pmid: 17775340
[2] Mihalcea R, Tarau P . TextRank: Bringing Order into Texts [C]// Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, Barcelona, Spain. 2004: 404-411.
[3] 夏天 . 词语位置加权TextRank的关键词抽取研究[J]. 现代图书情报技术, 2013(9):30-34.
[3] ( Xia Tian . Study on Keyword Extraction Using Word Position Weighted TextRank[J]. New Technology of Library and Information Service, 2013(9):30-34.)
[4] 顾益军 . 融合LDA与TextRank的关键词抽取研究[J]. 现代图书情报技术, 2014(7):41-47.
[4] ( Gu Yijun . Study on Keyword Extraction with LDA and TextRank Combination[J]. New Technology of Library and Information Service, 2014(7):41-47.)
[5] 李鹏, 王斌, 石志伟 , 等. Tag-TextRank: 一种基于Tag的网页关键词抽取方法[J]. 计算机研究与发展, 2012,49(11):2344-2351.
[5] ( Li Peng, Wang Bin, Shi Zhiwei , et al. Tag-TextRank: A Webpage Keyword Extraction Method Based on Tags[J]. Journal of Computer Research and Development, 2012,49(11):2344-2351.)
[6] 柳林青, 余瀚, 费宁 , 等. 一种基于TextRank的单文本关键字提取算法[J]. 计算机应用研究, 2018,35(3):705-710.
[6] ( Liu Linqing, Yu Han, Fei Ning , et al. Key-word Extracting Algorithm from Single Text Based on TextRank[J]. Application Research of Computers, 2018,35(3):705-710.)
[7] 顾亦然, 许梦馨 . 基于PageRank的新闻关键词提取算法[J]. 电子科技大学学报, 2017,46(5):777-783.
[7] ( Gu Yiran, Xu Mengxin . Keyword Extraction from News Articles Based on PageRank Algorithm[J]. Journal of University of Electronic Science and Technology of China, 2017,46(5):777-783.)
[8] 宁建飞, 刘降珍 . 融合Word2Vec与TextRank的关键词抽取研究[J]. 现代图书情报技术, 2016(6):20-27.
[8] ( Ning Jianfei, Liu Jiangzhen . Using Word2Vec with TextRank to Extract Keywords[J]. New Technology of Library and Information Service, 2016(6):20-27.)
[9] 夏天 . 词向量聚类加权TextRank的关键词抽取[J]. 数据分析与知识发现, 2017,1(2):28-34.
[9] ( Xia Tian . Extracting Keywords with Modified TextRank Model[J]. Data Analysis and Knowledge Discovery, 2017,1(2):28-34.)
[10] Wan X, Xiao J . Single Document Keyphrase Extraction Using Neighborhood Knowledge [C]// Proceedings of the 23rd National Conference on Artificial Intelligence. 2008: 855-860.
[11] Gollapalli S D, Caragea C . Extracting Keyphrases from Research Papers Using Citation Networks [C]// Proceedings of the 28th AAAI Conference on Artificial Intelligence. 2014.
[12] 赵京胜, 张丽, 肖娜 . 基于复杂网络的中文文本关键词提取研究[J]. 青岛理工大学学报, 2018,39(3):102-108.
[12] ( Zhao Jingsheng, Zhang Li, Xiao Na . Research on the Chinese Text Keyword Extraction Based on Complex Network[J]. Journal of Qingdao University of Technology, 2018,39(3):102-108.)
[13] 常耀成, 张宇翔, 王红 , 等. 特征驱动的关键词提取算法综述[J]. 软件学报, 2018,29(7):2046-2070.
[13] ( Chang Yaocheng, Zhang Yuxiang, Wang Hong , et al. Features Oriented Survey of State-of-the-Art Keyphrase Extraction Algorithms[J]. Journal of Software, 2018,29(7):2046-2070.)
[14] Page L, Brin S, Motwani R , et al. The PageRank Citation Ranking: Bringing Order to the Web[R]. Stanford InfoLab, 1999.
[15] 任晓龙, 吕琳媛 . 网络重要节点排序方法综述[J]. 科学通报, 2014,59(13):1175-1197.
doi: 10.1360/972013-1280
[15] ( Ren Xiaolong, Lv Linyuan . Review of Ranking Nodes in Complex Networks[J]. Chinese Science Bulletin, 2014,59(13):1175-1197.)
doi: 10.1360/972013-1280
[16] 陆伟, 程齐凯 . 一种基于加权网络和句子窗口方案的信息检索模型[J]. 情报学报, 2013,32(8):797-804.
[16] ( Lu Wei, Cheng Qikai . An Information Retrieval Model Based on Weighted Graph and Sentence[J]. Journal of the China Society for Scientific and Technical Information, 2013,32(8):797-804.)
[17] 刘知远 . 基于文档主题结构的关键词抽取方法研究[D]. 北京: 清华大学, 2011.
[17] ( Liu Zhiyuan . Research on Keyword Extraction Using Document Topical Structure[D]. Beijing: Tsinghua University, 2011.)
[18] 姜雅文 . 复杂网络社区发现若干问题研究[D]. 北京: 北京交通大学, 2014.
[18] ( Jiang Yawen . Community Detection in Complex Networks[D]. Beijing: Beijing Jiaotong University, 2014.)
[19] 刘通 . 基于复杂网络的文本关键词提取算法研究[J]. 计算机应用研究, 2016,33(2):365-369.
[19] ( Liu Tong . Algorithm Research of Text Key Word Extraction Based on Complex Networks[J]. Application Research of Computers, 2016,33(2):365-369.)
[1] 单晓红,王春稳,刘晓燕,韩晟熙,杨娟. 开放式创新社区领先用户识别——知识基础观视角*[J]. 数据分析与知识发现, 2021, 5(9): 85-96.
[2] 王一钒,李博,史话,苗威,姜斌. 古汉语实体关系联合抽取的标注方法*[J]. 数据分析与知识发现, 2021, 5(9): 63-74.
[3] 马江微, 吕学强, 游新冬, 肖刚, 韩君妹. 融合BERT与关系位置特征的军事领域关系抽取方法*[J]. 数据分析与知识发现, 2021, 5(8): 1-12.
[4] 柴庆凤, 史霖炎, 梅珊, 熊海涛, 贺惠新. 基于人工特征和机器特征融合的科技文献知识元抽取*[J]. 数据分析与知识发现, 2021, 5(8): 132-144.
[5] 谭荧, 唐亦非. 基于指代消解的引文内容抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 25-33.
[6] 张建东, 陈仕吉, 徐小婷, 左文革. 基于词向量的PDF表格抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 34-44.
[7] 喻雪寒, 何琳, 徐健. 基于RoBERTa-CRF的古文历史事件抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 26-35.
[8] 赵丹宁,牟冬梅,白森. 基于深度学习的科技文献摘要结构要素自动抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 70-80.
[9] 陈星月, 倪丽萍, 倪志伟. 基于ELECTRA模型与词性特征的金融事件抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 36-47.
[10] 王义真,欧石燕,陈金菊. 民事裁判文书两阶段式自动摘要研究*[J]. 数据分析与知识发现, 2021, 5(5): 104-114.
[11] 闫强,张笑妍,周思敏. 基于义原相似度的关键词抽取方法 *[J]. 数据分析与知识发现, 2021, 5(4): 80-89.
[12] 石湘,刘萍. 基于知识元语义描述模型的领域知识抽取与表示研究 *——以信息检索领域为例[J]. 数据分析与知识发现, 2021, 5(4): 123-133.
[13] 成彬,施水才,都云程,肖诗斌. 基于融合词性的BiLSTM-CRF的期刊关键词抽取方法[J]. 数据分析与知识发现, 2021, 5(3): 101-108.
[14] 胡少虎,张颖怡,章成志. 关键词提取研究综述*[J]. 数据分析与知识发现, 2021, 5(3): 45-59.
[15] 戴志宏, 郝晓玲. 上下位关系抽取方法及其在金融市场的应用*[J]. 数据分析与知识发现, 2021, 5(10): 60-70.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn