Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (8): 68-76     https://doi.org/10.11925/infotech.2096-3467.2018.0765
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于文档主题结构和词图迭代的关键词抽取方法研究 *
孙明珠,马静(),钱玲飞
南京航空航天大学经济与管理学院 南京 210016
Extracting Keywords Based on Topic Structure and Word Diagram Iteration
Mingzhu Sun,Jing Ma(),Lingfei Qian
School of Economics and Management, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China
全文: PDF (598 KB)   HTML ( 12
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】利用主题模型得到文本主题信息, 将主题信息融入TextRank模型对其进行改进, 提升文本关键词自动抽取的准确率和召回率。【方法】利用LDA对文档集进行主题建模, 得到候选关键词的主题词分布和文档主题分布; 结合候选关键词主题分布特征计算节点权重, 加权文档-主题概率分布和主题-词概率分布特征作为节点的随机跳转概率; 构建新的转移矩阵进行词图迭代, 得到改进后的TextRank模型。【结果】采集南方周末网站1 559篇新闻文章进行实验。结果表明, 本文模型的关键词抽取效果明显优于原始TextRank和TF-IDF模型; 当抽取关键词个数为3时, 本模型准确率比原始TextRank模型的准确率提升4.7%, 比TF-IDF提升6.5%。【局限】融合算法的计算复杂度增加。【结论】融合主题信息的TextRank算法能够使关键词自动抽取效果更加显著。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
孙明珠
马静
钱玲飞
关键词 抽取TextRankLDA图模型    
Abstract

[Objective] This paper integrates the topic information to the TextRank model, aiming to improve the precision and recall of automatic keyword extraction. [Methods] First, we used the LDA to create a model for document topics, and obtained the topic distribution of the candidate keywords. Then, we calculated the node weights with the topic-word probability distribution features. Third, we weighted the probability distributions of document-topic and topic-word characteristics as the node’s random jump probability. Finally, we constructed a new transition matrix for word graph iteration to improve the TextRank model. [Results] We examined the proposed model with 1559 news articles from the website of Southern Weekly. When the number of extracted keywords was three, the model’s keyword extraction precision values were 4.7% and 6.5% higher than those of the original TextRank and TF-IDF algorithms. [Limitations] The fusion algorithm increased computational complexity. [Conclusions] The proposed algorithm could extract keywords more effectively.

Key wordsKeywords Extraction    TextRank    Latent Dirichlet Allocation    Graph Model
收稿日期: 2018-07-15      出版日期: 2019-09-29
ZTFLH:  TP393 G35  
基金资助:*本文系国家自然科学基金项目“基于演化本体的网络舆情自适应跟踪方法研究”(71373123);中央高校基本科研业务费专项:前瞻性发展策略研究资助项目“基于大数据技术的跨境电商政府管理范式研究”(NW2018004);国家社会科学基金项目“大数据环境下人文社会科学学术创新力自动测度研究”的研究成果之一(15BTQ058)
通讯作者: 马静     E-mail: majing5525@126.com
引用本文:   
孙明珠,马静,钱玲飞. 基于文档主题结构和词图迭代的关键词抽取方法研究 *[J]. 数据分析与知识发现, 2019, 3(8): 68-76.
Mingzhu Sun,Jing Ma,Lingfei Qian. Extracting Keywords Based on Topic Structure and Word Diagram Iteration. Data Analysis and Knowledge Discovery, 2019, 3(8): 68-76.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.0765      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2019/V3/I8/68
  隐含主题模型生成过程
  主题建模中困惑度随主题变化分布
  不同主题下1-15个关键词的准确率-召回率曲线
K P R F1
50 0.248 0.209 0.224
100 0.251 0.211 0.226
150 0.252 0.212 0.228
200 0.250 0.211 0.226
  LDA主题个数K对数据集的影响
  不同滑动窗口下抽取1-15个关键词的F1-Measure值变化趋势
  不同阻尼系数下抽取1-15个关键词的F1-Measure值变化趋势
TopN TF-IDF TextRank LDA 文献[13]方法 文献[14]方法 本文算法
P R F1 P R F1 P R F1 P R F1 P R F1 P R F1
3 0.213 0.182 0.196 0.231 0.194 0.211 0.243 0.203 0.221 0.245 0.206 0.224 0.248 0.211 0.228 0.278 0.239 0.257
5 0.163 0.23 0.191 0.175 0.244 0.204 0.191 0.256 0.219 0.203 0.256 0.226 0.213 0.282 0.243 0.216 0.289 0.247
7 0.135 0.264 0.179 0.141 0.274 0.186 0.162 0.289 0.208 0.169 0.293 0.214 0.183 0.325 0.234 0.181 0.323 0.232
9 0.116 0.291 0.166 0.12 0.299 0.171 0.135 0.318 0.190 0.145 0.324 0.200 0.162 0.357 0.223 0.159 0.351 0.219
15 0.083 0.343 0.134 0.083 0.344 0.134 0.102 0.362 0.159 0.106 0.375 0.165 0.124 0.411 0.191 0.119 0.399 0.183
  不同算法准确率、召回率和F值结果
文档编号 抽取方法 关键词
1 2 3 4 5
1 TextRank 宜昌 郭有明 部门 透露 知情人
本文算法 郭有明 副省长 报道 涉嫌 违纪违法
2 TextRank 幼儿 装修 幼儿园 咳嗽 皮肤
本文算法 幼儿园 甲醛 装修 咳嗽 过敏
3 TextRank 公司 丁羽心 人民币, 刘志军 有限公司
本文算法 丁羽心 刘志军 并处 有限公司, 非法经营
4 TextRank HPV疫苗 宫颈癌 接种 默沙东 试验
本文算法 HPV疫苗 宫颈癌 临床试验 中国 上市
5 TextRank 报道 衡阳市 破坏选举 衡阳 人大代表
本文算法 破坏选举 衡阳 人大代表 涉嫌 立案
  TextRank与本文算法抽取关键词结果对比
[1] 赵京胜, 朱巧明, 周国栋 , 等. 自动关键词抽取研究综述[J]. 软件学报, 2017,28(9):2431-2449.
[1] ( Zhao Jingsheng, Zhu Qiaoming, Zhou Guodong , et al. Review of Research in Automatic Keyword Extraction[J]. Journal of Software, 2017,28(9):2431-2449.)
[2] Mihalcea R, Tarau P. TextRank: Bringing Order into Texts [C]// Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. 2004: 404-411.
[3] Blei D M, Ng A Y, Jordan M I . Latent Dirichlet Allocation[J]. The Journal of Machine Learning Research, 2003,3:993-1022.
[4] Turney P D . Learning Algorithms for Keyphrase Extraction[J]. Information Retrieval, 2000,2(4):303-336.
[5] Frank E, Paynter G W, Witten I H, et al. Domain-Specific Keyphrase Extraction [C]// Proceedings of the 16th International Joint Conference on Artificial Intelligence. 1999: 668-673.
[6] 钱爱兵, 江岚 . 基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J]. 情报理论与实践, 2008,31(6):945-950.
[6] ( Qian Aibing, Jiang Lan . Chinese Webpage Keyword Extraction Based on Improved TF-IDF—Taking News Webpage as an Example[J]. Information Studies: Theory & Application, 2008,31(6):945-950.)
[7] 杨凯艳 . 基于改进的TFIDF关键词自动提取算法研究[D]. 湘潭: 湘潭大学, 2015.
[7] ( Yang Kaiyan . Research on Automatic Keyword Extraction Algorithm Based on Improved TFIDF[D]. Xiangtan: Xiangtan University, 2015.)
[8] 朱泽德, 李淼, 张健 , 等. 一种基于LDA模型的关键词抽取方法[J]. 中南大学学报: 自然科学版, 2015,46(6):2142-2148.
[8] ( Zhu Zede, Li Miao, Zhang Jian , et al. A LDA-Based Approach to Keyphrase Extraction[J]. Journal of Central South University: Science and Technology, 2015,46(6):2142-2148.)
[9] 丁卓冶 . 面向主题的关键词抽取方法研究[D]. 上海: 复旦大学, 2013.
[9] ( Ding Zhuoye . Research on Keyword Extraction Methods for Topics[D]. Shanghai: Fudan University, 2013.)
[10] 夏天 . 词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术, 2013(9):30-34.
[10] ( Xia Tian . Study on Keyword Extraction Using Word Position Weighted TextRank[J]. New Technology of Library and Information Service, 2013(9):30-34.)
[11] 夏天 . 词向量聚类加权TextRank的关键词抽取[J]. 数据分析与知识发现, 2017,1(2):28-34.
[11] ( Xia Tian . Extracting Keywords with Modified TextRank Model[J]. Data Analysis and Knowledge Discovery, 2017,1(2):28-34.)
[12] Bougouin A, Boudin F, Daille B. TopicRank: Graph-Based Topic Ranking for Keyphrase Extraction [C]// Proceedings of the 2013 International Joint Conference on Natural Language Processing. 2013: 543-551.
[13] 顾益军, 夏天 . 融合LDA与TextRank的关键词抽取研究[J]. 现代图书情报技术, 2014(7-8):41-47.
[13] ( Gu Yijun, Xia Tian . Study on Keyword Extraction with LDA and TextRank Combination[J]. New Technology of Library and Information Service, 2014(7-8):41-47.)
[14] 刘啸剑, 谢飞, 吴信东 . 基于图和LDA主题模型的关键词抽取算法[J]. 情报学报, 2016,35(6):664-672.
[14] ( Liu Xiaojian, Xie Fei, Wu Xindong . Graph Based Keyphrase Extraction Using LDA Topic Model[J]. Journal of the China Society for Scientific and Technical Information, 2016,35(6):664-672.)
[15] Liu Z, Huang W, Zheng Y, et al. Automatic Keyphrase Extraction via Topic Decomposition [C]// Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. 2010: 366-376.
[1] 单晓红,王春稳,刘晓燕,韩晟熙,杨娟. 开放式创新社区领先用户识别——知识基础观视角*[J]. 数据分析与知识发现, 2021, 5(9): 85-96.
[2] 王一钒,李博,史话,苗威,姜斌. 古汉语实体关系联合抽取的标注方法*[J]. 数据分析与知识发现, 2021, 5(9): 63-74.
[3] 马江微, 吕学强, 游新冬, 肖刚, 韩君妹. 融合BERT与关系位置特征的军事领域关系抽取方法*[J]. 数据分析与知识发现, 2021, 5(8): 1-12.
[4] 柴庆凤, 史霖炎, 梅珊, 熊海涛, 贺惠新. 基于人工特征和机器特征融合的科技文献知识元抽取*[J]. 数据分析与知识发现, 2021, 5(8): 132-144.
[5] 谭荧, 唐亦非. 基于指代消解的引文内容抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 25-33.
[6] 张建东, 陈仕吉, 徐小婷, 左文革. 基于词向量的PDF表格抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 34-44.
[7] 喻雪寒, 何琳, 徐健. 基于RoBERTa-CRF的古文历史事件抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 26-35.
[8] 赵丹宁,牟冬梅,白森. 基于深度学习的科技文献摘要结构要素自动抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 70-80.
[9] 陈星月, 倪丽萍, 倪志伟. 基于ELECTRA模型与词性特征的金融事件抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 36-47.
[10] 王义真,欧石燕,陈金菊. 民事裁判文书两阶段式自动摘要研究*[J]. 数据分析与知识发现, 2021, 5(5): 104-114.
[11] 伊惠芳,刘细文. 一种专利技术主题分析的IPC语境增强Context-LDA模型研究[J]. 数据分析与知识发现, 2021, 5(4): 25-36.
[12] 闫强,张笑妍,周思敏. 基于义原相似度的关键词抽取方法 *[J]. 数据分析与知识发现, 2021, 5(4): 80-89.
[13] 石湘,刘萍. 基于知识元语义描述模型的领域知识抽取与表示研究 *——以信息检索领域为例[J]. 数据分析与知识发现, 2021, 5(4): 123-133.
[14] 李跃艳,王昊,邓三鸿,王伟. 近十年信息检索领域的研究热点与演化趋势研究——基于SIGIR会议论文的分析[J]. 数据分析与知识发现, 2021, 5(4): 13-24.
[15] 成彬,施水才,都云程,肖诗斌. 基于融合词性的BiLSTM-CRF的期刊关键词抽取方法[J]. 数据分析与知识发现, 2021, 5(3): 101-108.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn