Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (9): 74-79     https://doi.org/10.11925/infotech.2096-3467.2018.0271
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
词位置分布加权TextRank的关键词提取*
刘竹辰1, 陈浩2, 于艳华1(), 李劼1
1北京邮电大学计算机学院 北京 100876
2中国船舶工业系统工程研究院 北京 100094
Extracting Keywords with TextRank and Weighted Word Positions
Liu Zhuchen1, Chen Hao2, Yu Yanhua1(), Li Jie1
1School of Computer Science, Beijing University of Posts and Telecommunications, Beijing 100876, China
2China Shipbuilding Industry System Engineering Research Institute, Beijing 100094, China
全文: PDF (581 KB)   HTML ( 4
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】将词在文档内的词距和位置分布信息融入TextRank模型, 改进单文档关键词提取效果。【方法】基于TextRank方法构建候选关键词词图, 融合一般文档写作结构中词之间的位置分布信息, 计算概率转移矩阵, 通过迭代计算候选关键词得分, 并挑选分值最大的前K个作为关键词提取结果。【结果】实验结果表明, 词位置分布加权的TextRank方法优于传统的TextRank方法。当K分别取3、5、7和10时, F值与最优方法相比分别提升1.29%、2.42%、5.43%和5.88%。【局限】未使用知识库, 外部词汇关系信息没有被充分利用。【结论】词在文章中位置分布信息能够改善关键词提取效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
刘竹辰
陈浩
于艳华
李劼
关键词 提取TextRank词位置分布词距    
Abstract

[Objective] This study integrates the position and distance attributes of words into the TextRank model, aiming to extract keywords from single document more effectively. [Methods] First, we constructed the word graph for candidates based on the TextRank method. Then, we merged the position information of the words, and calculated their probability transfer matrix. Finally, we obtained the points of candidate words by iterative calculation, and retrieved the top K of keywords with the highest scores. [Results] We found that the weighted TextRank method yielded better results than the traditional algorithms. When the K values were 3, 5, 7 and 10, the increment of F value were 1.29%, 3.14%, 5.43% and 5.88% respectively. [Limitations] This study did not include knowledge base and did not fully utilize the external lexical relationship information. [Conclusions] The position and distribution of words can help us extract keywords more effectively.

Key wordsKeyword Extraction    TextRank    Word Location Distribution    Word Distance
收稿日期: 2018-03-12      出版日期: 2018-10-25
ZTFLH:  分类号: G353 TP391  
基金资助:*本文系国家自然科学基金项目“面向移动环境基于群智计算的目标检测关键技术研究”(项目编号: 61702046)的研究成果之一
引用本文:   
刘竹辰, 陈浩, 于艳华, 李劼. 词位置分布加权TextRank的关键词提取*[J]. 数据分析与知识发现, 2018, 2(9): 74-79.
Liu Zhuchen,Chen Hao,Yu Yanhua,Li Jie. Extracting Keywords with TextRank and Weighted Word Positions. Data Analysis and Knowledge Discovery, 2018, 2(9): 74-79.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.0271      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2018/V2/I9/74
位置 词最后出现
Q Z H
词首次出现 Q 1.06 1.15 1.6
Z 1.15 1.04 1.10
H 1.6 1.10 1.02
  文档词位置分布权重统计表
  关键词数取值[1, 10]时7种方法的效果对比
(a) 准确率 (b) 召回率 (c) F值
N
方法
准确率P 召回率R F值
3 5 7 10 3 5 7 10 3 5 7 10
TF_IDF 0.235 0.172 0.135 0.104 0.198 0.241 0.265 0.291 0.215 0.201 0.179 0.153
TextRank 0.300 0.220 0.177 0.137 0.253 0.309 0.347 0.384 0.274 0.257 0.234 0.202
PositionRank 0.334 0.247 0.195 0.150 0.281 0.348 0.383 0.420 0.305 0.289 0.258 0.221
NingJianfei 0.048 0.048 0.046 0.042 0.040 0.068 0.091 0.117 0.044 0.056 0.061 0.062
ClusterRank 0.293 0.217 0.174 0.136 0.247 0.305 0.343 0.38 0.268 0.254 0.231 0.200
Cluster PositionRank 0.338 0.246 0.195 0.150 0.285 0.345 0.383 0.420 0.309 0.287 0.258 0.221
MyWPMWRank 0.342 0.253 0.205 0.159 0.288 0.356 0.403 0.446 0.313 0.296 0.272 0.234
  不同关键词提取算法的结果对比(TopN取3,5,7,10)
[1] Guo A Z, Yang T.Research and Improvement of Feature Words Weight Based on TFIDF Algorithm[C]//Proceedings of the 2016 IEEE Information Technology, Networking, Electronic and Automation Control Conference, Chongqing, China. IEEE, 2016: 415-419.
[2] Wei H X, Gao G L, Su X D.LDA-Based Word Image Representation for Keyword Spotting on Historical Mongolian Documents[A]// Neural Information Processing[M]. Springer, 2016.
[3] 刘通. 基于复杂网络的文本关键词提取算法研究[J]. 计算机应用研究, 2016, 33(2): 365-369.
[3] (Liu Tong.Algorithm Research of Text Key Word Extraction Based on Complex Network[J]. Application Research of Computers, 2016, 33(2): 365-369.)
[4] 赵京胜, 朱巧明, 周国栋, 等. 自动关键词抽取研究综述[J].软件学报, 2017, 28(9): 2431-2449.
[4] (Zhao Jingsheng, Zhu Qiaoming, Zhou Guodong, et al.Review of Research in Automatic Keyword Extraction[J]. Journal of Software, 2017, 28(9): 2431-2449.)
[5] Boudin F.A Comparison of Centrality Measures for Graph-Based Keyphrase Extraction[C]//Proceedings of the 6th International Joint Conference on Natural Language Processing. 2013.
[6] Bougouin A, Boudin F, Daille B.TopicRank: Graph-Based Topic Ranking for Keyphrase Extraction[C]//Proceedings of the 6th International Joint Conference on Natural Language Processing. 2013: 543-551.
[7] Mihalcea R, Tarau P.TextRank: Bringing Order into Texts[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, Barcelona, Spain. 2004.
[8] 夏天. 词语位置加权TextRank的关键词抽取研究[J]. 现代图书情报技术, 2013(9): 30-34.
[8] (Xia Tian.Study on Keyword Extraction Using Word Position Weighted TextRank[J]. New Technology of Library and Information Service, 2013(9): 30-34.)
[9] 顾益军, 夏天. 融合LDA与TextRank的关键词抽取研究[J]. 现代图书情报技术, 2014(7/8): 41-47.
[9] (Gu Yijun, Xia Tian.Study on Keyword Extraction with LDA and TextRank Combination[J]. New Technology of Library and Information Service, 2014(7/8): 41-47.)
[10] 李鹏, 王斌, 石志伟, 等. Tag-TextRank: 一种基于Tag的网页关键词抽取方法[J]. 计算机研究与发展, 2012, 49(11): 2344-2351.
[10] (Li Peng, Wang Bin, Shi Zhiwei, et al.Tag-TextRank: A Webpage Keyword Extraction Method Based on Tags[J]. Journal of Computer Research and Development, 2012, 49(11): 2344-2351.)
[11] 谢玮, 沈一, 马永征. 基于图计算的论文审稿自动推荐系统[J]. 计算机应用研究, 2016, 33(3): 798-801.
doi: 10.3969/j.issn.1001-3695.2016.03.035
[11] (Xie Wei,Shen Yi, Ma Yongzheng.Recommendation System for Paper Reviewing Based on Graph Computing[J]. Application Research of Computers, 2016, 33(3): 798-801.)
doi: 10.3969/j.issn.1001-3695.2016.03.035
[12] 李跃鹏, 金翠, 及俊川. 基于Word2Vec的关键词提取算法[J]. 科研信息化技术与应用, 2015, 6(4): 54-59.
[12] (Li Yuepeng, Jin Cui, Ji Junchuan.A Keyword Extraction Algorithm Based on Word2vec[J]. E-science Technology & Application, 2015,6(4): 54-59.)
[13] 宁建飞, 刘降珍. 融合Word2vec与TextRank的关键词抽取研究[J]. 现代图书情报技术, 2016(6): 20-27.
[13] (Ning Jianfei, Liu Jiangzhen.Using Word2vec with TextRank to Extract Keywords[J]. New Technology of Library and Information Service, 2016(6): 20-27.)
[14] 夏天. 词向量聚类加权TextRank的关键词抽取[J]. 数据分析与知识发现, 2017, 1(2): 28-34.
[14] (Xia Tian.Extracting Keywords with Modified TextRank Model[J]. Data Analysis and Knowledge Discovery, 2017, 1(2): 28-34.)
[1] 夏天. 面向中文学术文本的单文档关键短语抽取 *[J]. 数据分析与知识发现, 2020, 4(7): 76-86.
[2] 李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
[3] 孙明珠,马静,钱玲飞. 基于文档主题结构和词图迭代的关键词抽取方法研究 *[J]. 数据分析与知识发现, 2019, 3(8): 68-76.
[4] 文秀贤,徐健. 基于用户评论的商品特征提取及特征价格研究 *[J]. 数据分析与知识发现, 2019, 3(7): 42-51.
[5] 曾庆田,胡晓慧,李超. 融合主题词嵌入和网络结构分析的主题关键词提取方法 *[J]. 数据分析与知识发现, 2019, 3(7): 52-60.
[6] 严娇,马静,房康. 基于融合共现距离的句法网络下文本语义相似度计算 *[J]. 数据分析与知识发现, 2019, 3(12): 93-100.
[7] 王安,顾益军,李坤明,李文政. 基于复杂网络词节点移除的关键词抽取方法 *[J]. 数据分析与知识发现, 2019, 3(11): 35-44.
[8] 钟庆虹,乔晓东,张运良,翁梦娟. 基于LDA2Vec和残差网络的跨媒体融合方法研究 *[J]. 数据分析与知识发现, 2019, 3(10): 78-88.
[9] 杨贵军,徐雪,赵富强. 基于XGBoost算法的用户评分预测模型及应用*[J]. 数据分析与知识发现, 2019, 3(1): 118-126.
[10] 黄孝喜, 李晗雨, 王荣波, 王小华, 谌志群. 基于卷积神经网络与SVM分类器的隐喻识别*[J]. 数据分析与知识发现, 2018, 2(10): 77-83.
[11] 李伟卿, 王伟军. 基于大规模评论数据的产品特征词典构建方法研究*[J]. 数据分析与知识发现, 2018, 2(1): 41-50.
[12] 李昌兵, 庞崇鹏, 李美平. 基于权重的Apriori算法在文本统计特征提取方法中的应用*[J]. 数据分析与知识发现, 2017, 1(9): 83-89.
[13] 王子璇, 乐小虬, 何远标. 基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究[J]. 数据分析与知识发现, 2017, 1(4): 1-8.
[14] 夏天. 词向量聚类加权TextRank的关键词抽取*[J]. 数据分析与知识发现, 2017, 1(2): 28-34.
[15] 郭博, 李守光, 王昊, 张晓军, 龚伟, 于昭君, 孙宇. 电商评论综合分析系统的设计与实现——情感分析与观点挖掘的研究与应用[J]. 数据分析与知识发现, 2017, 1(12): 1-9.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn