Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (8): 68-76    DOI: 10.11925/infotech.2096-3467.2018.0765
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于文档主题结构和词图迭代的关键词抽取方法研究 *
孙明珠,马静(),钱玲飞
南京航空航天大学经济与管理学院 南京 210016
Extracting Keywords Based on Topic Structure and Word Diagram Iteration
Mingzhu Sun,Jing Ma(),Lingfei Qian
School of Economics and Management, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China
全文: PDF(598 KB)   HTML ( 12
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】利用主题模型得到文本主题信息, 将主题信息融入TextRank模型对其进行改进, 提升文本关键词自动抽取的准确率和召回率。【方法】利用LDA对文档集进行主题建模, 得到候选关键词的主题词分布和文档主题分布; 结合候选关键词主题分布特征计算节点权重, 加权文档-主题概率分布和主题-词概率分布特征作为节点的随机跳转概率; 构建新的转移矩阵进行词图迭代, 得到改进后的TextRank模型。【结果】采集南方周末网站1 559篇新闻文章进行实验。结果表明, 本文模型的关键词抽取效果明显优于原始TextRank和TF-IDF模型; 当抽取关键词个数为3时, 本模型准确率比原始TextRank模型的准确率提升4.7%, 比TF-IDF提升6.5%。【局限】融合算法的计算复杂度增加。【结论】融合主题信息的TextRank算法能够使关键词自动抽取效果更加显著。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
孙明珠
马静
钱玲飞
关键词 抽取TextRankLDA图模型    
Abstract

[Objective] This paper integrates the topic information to the TextRank model, aiming to improve the precision and recall of automatic keyword extraction. [Methods] First, we used the LDA to create a model for document topics, and obtained the topic distribution of the candidate keywords. Then, we calculated the node weights with the topic-word probability distribution features. Third, we weighted the probability distributions of document-topic and topic-word characteristics as the node’s random jump probability. Finally, we constructed a new transition matrix for word graph iteration to improve the TextRank model. [Results] We examined the proposed model with 1559 news articles from the website of Southern Weekly. When the number of extracted keywords was three, the model’s keyword extraction precision values were 4.7% and 6.5% higher than those of the original TextRank and TF-IDF algorithms. [Limitations] The fusion algorithm increased computational complexity. [Conclusions] The proposed algorithm could extract keywords more effectively.

Key wordsKeywords Extraction    TextRank    Latent Dirichlet Allocation    Graph Model
收稿日期: 2018-07-15     
中图分类号:  TP393 G35  
基金资助:*本文系国家自然科学基金项目“基于演化本体的网络舆情自适应跟踪方法研究”(71373123);中央高校基本科研业务费专项:前瞻性发展策略研究资助项目“基于大数据技术的跨境电商政府管理范式研究”(NW2018004);国家社会科学基金项目“大数据环境下人文社会科学学术创新力自动测度研究”的研究成果之一(15BTQ058)
通讯作者: 马静     E-mail: majing5525@126.com
引用本文:   
孙明珠,马静,钱玲飞. 基于文档主题结构和词图迭代的关键词抽取方法研究 *[J]. 数据分析与知识发现, 2019, 3(8): 68-76.
Mingzhu Sun,Jing Ma,Lingfei Qian. Extracting Keywords Based on Topic Structure and Word Diagram Iteration. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2018.0765.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.0765
图1  隐含主题模型生成过程
图2  主题建模中困惑度随主题变化分布
图3  不同主题下1-15个关键词的准确率-召回率曲线
K P R F1
50 0.248 0.209 0.224
100 0.251 0.211 0.226
150 0.252 0.212 0.228
200 0.250 0.211 0.226
表1  LDA主题个数K对数据集的影响
图4  不同滑动窗口下抽取1-15个关键词的F1-Measure值变化趋势
图5  不同阻尼系数下抽取1-15个关键词的F1-Measure值变化趋势
TopN TF-IDF TextRank LDA 文献[13]方法 文献[14]方法 本文算法
P R F1 P R F1 P R F1 P R F1 P R F1 P R F1
3 0.213 0.182 0.196 0.231 0.194 0.211 0.243 0.203 0.221 0.245 0.206 0.224 0.248 0.211 0.228 0.278 0.239 0.257
5 0.163 0.23 0.191 0.175 0.244 0.204 0.191 0.256 0.219 0.203 0.256 0.226 0.213 0.282 0.243 0.216 0.289 0.247
7 0.135 0.264 0.179 0.141 0.274 0.186 0.162 0.289 0.208 0.169 0.293 0.214 0.183 0.325 0.234 0.181 0.323 0.232
9 0.116 0.291 0.166 0.12 0.299 0.171 0.135 0.318 0.190 0.145 0.324 0.200 0.162 0.357 0.223 0.159 0.351 0.219
15 0.083 0.343 0.134 0.083 0.344 0.134 0.102 0.362 0.159 0.106 0.375 0.165 0.124 0.411 0.191 0.119 0.399 0.183
表2  不同算法准确率、召回率和F值结果
文档编号 抽取方法 关键词
1 2 3 4 5
1 TextRank 宜昌 郭有明 部门 透露 知情人
本文算法 郭有明 副省长 报道 涉嫌 违纪违法
2 TextRank 幼儿 装修 幼儿园 咳嗽 皮肤
本文算法 幼儿园 甲醛 装修 咳嗽 过敏
3 TextRank 公司 丁羽心 人民币, 刘志军 有限公司
本文算法 丁羽心 刘志军 并处 有限公司, 非法经营
4 TextRank HPV疫苗 宫颈癌 接种 默沙东 试验
本文算法 HPV疫苗 宫颈癌 临床试验 中国 上市
5 TextRank 报道 衡阳市 破坏选举 衡阳 人大代表
本文算法 破坏选举 衡阳 人大代表 涉嫌 立案
表3  TextRank与本文算法抽取关键词结果对比
[1] 赵京胜, 朱巧明, 周国栋 , 等. 自动关键词抽取研究综述[J]. 软件学报, 2017,28(9):2431-2449.
( Zhao Jingsheng, Zhu Qiaoming, Zhou Guodong , et al. Review of Research in Automatic Keyword Extraction[J]. Journal of Software, 2017,28(9):2431-2449.)
[2] Mihalcea R, Tarau P. TextRank: Bringing Order into Texts [C]// Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. 2004: 404-411.
[3] Blei D M, Ng A Y, Jordan M I . Latent Dirichlet Allocation[J]. The Journal of Machine Learning Research, 2003,3:993-1022.
[4] Turney P D . Learning Algorithms for Keyphrase Extraction[J]. Information Retrieval, 2000,2(4):303-336.
[5] Frank E, Paynter G W, Witten I H, et al. Domain-Specific Keyphrase Extraction [C]// Proceedings of the 16th International Joint Conference on Artificial Intelligence. 1999: 668-673.
[6] 钱爱兵, 江岚 . 基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J]. 情报理论与实践, 2008,31(6):945-950.
( Qian Aibing, Jiang Lan . Chinese Webpage Keyword Extraction Based on Improved TF-IDF—Taking News Webpage as an Example[J]. Information Studies: Theory & Application, 2008,31(6):945-950.)
[7] 杨凯艳 . 基于改进的TFIDF关键词自动提取算法研究[D]. 湘潭: 湘潭大学, 2015.
( Yang Kaiyan . Research on Automatic Keyword Extraction Algorithm Based on Improved TFIDF[D]. Xiangtan: Xiangtan University, 2015.)
[8] 朱泽德, 李淼, 张健 , 等. 一种基于LDA模型的关键词抽取方法[J]. 中南大学学报: 自然科学版, 2015,46(6):2142-2148.
( Zhu Zede, Li Miao, Zhang Jian , et al. A LDA-Based Approach to Keyphrase Extraction[J]. Journal of Central South University: Science and Technology, 2015,46(6):2142-2148.)
[9] 丁卓冶 . 面向主题的关键词抽取方法研究[D]. 上海: 复旦大学, 2013.
( Ding Zhuoye . Research on Keyword Extraction Methods for Topics[D]. Shanghai: Fudan University, 2013.)
[10] 夏天 . 词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术, 2013(9):30-34.
( Xia Tian . Study on Keyword Extraction Using Word Position Weighted TextRank[J]. New Technology of Library and Information Service, 2013(9):30-34.)
[11] 夏天 . 词向量聚类加权TextRank的关键词抽取[J]. 数据分析与知识发现, 2017,1(2):28-34.
( Xia Tian . Extracting Keywords with Modified TextRank Model[J]. Data Analysis and Knowledge Discovery, 2017,1(2):28-34.)
[12] Bougouin A, Boudin F, Daille B. TopicRank: Graph-Based Topic Ranking for Keyphrase Extraction [C]// Proceedings of the 2013 International Joint Conference on Natural Language Processing. 2013: 543-551.
[13] 顾益军, 夏天 . 融合LDA与TextRank的关键词抽取研究[J]. 现代图书情报技术, 2014(7-8):41-47.
( Gu Yijun, Xia Tian . Study on Keyword Extraction with LDA and TextRank Combination[J]. New Technology of Library and Information Service, 2014(7-8):41-47.)
[14] 刘啸剑, 谢飞, 吴信东 . 基于图和LDA主题模型的关键词抽取算法[J]. 情报学报, 2016,35(6):664-672.
( Liu Xiaojian, Xie Fei, Wu Xindong . Graph Based Keyphrase Extraction Using LDA Topic Model[J]. Journal of the China Society for Scientific and Technical Information, 2016,35(6):664-672.)
[15] Liu Z, Huang W, Zheng Y, et al. Automatic Keyphrase Extraction via Topic Decomposition [C]// Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. 2010: 366-376.
[1] 夏立新,曾杰妍,毕崇武,叶光辉. 基于LDA主题模型的用户兴趣层级演化研究 *[J]. 数据分析与知识发现, 2019, 3(7): 1-13.
[2] 李晓峰,马静,李驰,朱恒民. 基于XGBoost模型的电商商品品名识别算法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 34-41.
[3] 关鹏,王曰芬,傅柱. 基于LDA的主题语义演化分析方法研究 * ——以锂离子电池领域为例[J]. 数据分析与知识发现, 2019, 3(7): 61-72.
[4] 祁瑞华,周俊艺,郭旭,刘彩虹. 基于知识库的图书评论主题抽取研究*[J]. 数据分析与知识发现, 2019, 3(6): 83-91.
[5] 张金柱,胡一鸣. 融合表示学习与机器学习的专利科学引文标题自动抽取研究*[J]. 数据分析与知识发现, 2019, 3(5): 68-76.
[6] 吴粤敏,丁港归,胡滨. 基于注意力机制的农业金融文本关系抽取研究*[J]. 数据分析与知识发现, 2019, 3(5): 86-92.
[7] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[8] 徐红霞,李春旺. 科技文献内容知识点抽取研究综述[J]. 数据分析与知识发现, 2019, 3(3): 14-24.
[9] 张震,曾金. 面向用户评论的关键词抽取研究*——以美团为例[J]. 数据分析与知识发现, 2019, 3(3): 36-44.
[10] 丁晟春,侯琳琳,王颖. 基于电商数据的产品知识图谱构建研究*[J]. 数据分析与知识发现, 2019, 3(3): 45-56.
[11] 袁悦,王东波,黄水清,李斌. 不同词性标记集在典籍实体抽取上的差异性探究*[J]. 数据分析与知识发现, 2019, 3(3): 57-65.
[12] 桂思思,陆伟,张晓娟. 基于查询表达式特征的时态意图识别研究*[J]. 数据分析与知识发现, 2019, 3(3): 66-75.
[13] 席林娜,窦永香. 基于计划行为理论的微博用户转发行为影响因素研究*[J]. 数据分析与知识发现, 2019, 3(2): 13-20.
[14] 张杰,赵君博,翟东升,孙宁宁. 基于主题模型的微藻生物燃料产业链专利技术分析*[J]. 数据分析与知识发现, 2019, 3(2): 52-64.
[15] 刘俊婉,龙志昕,王菲菲. 基于LDA主题模型与链路预测的新兴主题关联机会发现研究*[J]. 数据分析与知识发现, 2019, 3(1): 104-117.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn