Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (2): 28-34     https://doi.org/10.11925/infotech.2096-3467.2017.02.04
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
词向量聚类加权TextRank的关键词抽取*
夏天()
中国人民大学数据工程与知识工程教育部重点实验室 北京 100872
中国人民大学信息资源管理学院 北京 100872
Extracting Keywords with Modified TextRank Model
Xia Tian()
Key Laboratory of Data Engineering and Knowledge Engineering of Ministry of Education, Renmin University of China, Beijing 100872, China
School of Information Resource Management, Renmin University of China, Beijing 100872, China
全文: PDF (793 KB)   HTML ( 50
输出: BibTeX | EndNote (RIS)      
摘要 

目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank 模型, 改进单文档关键词抽取效果。【方法】利用Word2Vec模型基于维基百科中文数据, 生成词向量模型, 对TextRank词图节点的词向量进行聚类以调整簇内节点的投票重要性, 结合节点的覆盖和位置因素, 计算节点之间的随机跳转概率, 生成转移矩阵, 最终通过迭代计算获得节点的重要性得分, 选取前TopN个词语生成关键词。【结果】当TopN≤7 时, 词向量聚类加权方法均优于对比方法; TopN=3时, F值取得最大值, 比先前最优结果增量提升了3.374%; TopN>7时, 结果与位置加权法相似。【局限】聚类分析使得计算开销变高。【结论】词向量聚类加权能够改善关键词抽取效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
夏天
关键词 抽取词向量TextRankWord2Vec    
Abstract

[Objective] This study aims to improve the single document keyword extraction algorithm by adding the world knowledge vector from the Wikipedia to the TextRank model. [Methods] First, we created a new word embedding model based on the Word2Vec model with Wikipedia’s Chinese data. Second, we clustered the nodes of TextRank wordgraph to adjust the voting importance of each cluster. Third, we calculated the random walk probability with additional factors of coverage and location. Finally, we got the node score with iterative computation of the transition matrix, and then selected the Top N words as the needed keywords. [Results] The performance of the new TextRank model was much better than other methods when the Top N value was less than or equal to 7. If we only retrieved three keywords, the F measure reached its maximum value, which was 3.374% higher than the best existing results. When the Top N value was larger than 7, the results were similar to the traditional TextRank method. [Limitations] The computation cost was increased due to the cluster analysis. [Conclusions] The new weighted TextRank model could extract keywords effectively.

Key wordsKeyword Extraction    Word Embedding    TextRank    Word2vec
收稿日期: 2016-10-28      出版日期: 2017-03-27
ZTFLH:  G353  
基金资助:*本文系国家社会科学基金项目一般项目“我国数据新闻的理念、实践及其人才培养模式研究”(项目编号: 16BXW018)和北京高等学校青年英才计划项目“基于链接和主题分析的微博社区挖掘研究”(项目编号: YETP0215)的研究成果之一
引用本文:   
夏天. 词向量聚类加权TextRank的关键词抽取*[J]. 数据分析与知识发现, 2017, 1(2): 28-34.
Xia Tian. Extracting Keywords with Modified TextRank Model. Data Analysis and Knowledge Discovery, 2017, 1(2): 28-34.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.02.04      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I2/28
  候选关键词词图示例
TopN = 3 TopN = 5 TopN = 7 TopN = 10
P R F P R F P R F P R F
M1 0.304 0.259 0.277 0.230 0.326 0.267 0.188 0.372 0.247 0.151 0.424 0.221
M2 0.119 0.191 0.143 0.095 0.240 0.131 0.080 0.263 0.116 0.072 0.295 0.107
M3 0.019 0.016 0.017 0.017 0.024 0.020 0.016 0.032 0.021 0.018 0.051 0.027
M4 0.356 0.306 0.326 0.270 0.383 0.313 0.217 0.428 0.284 0.170 0.479 0.249
M5 0.369 0.316 0.337 0.276 0.391 0.320 0.218 0.430 0.286 0.169 0.477 0.247
  不同关键词抽取算法的结果对比(TopN取3,5,7,10)
  TopN取值[1, 10]时, 方法M1至方法M5的准确率、召回率和F
文档
编号
101037 24576 26808
标注
结果
民企, 军工,
融合
日本侵华, 轮船,
索赔, 陈春
财政部, 金融
高管, 限薪
M1 政府, 公司,
日本
日本, 陈顺通,
陈洽群, 律师
薪酬, 金融机构,
国有
M2 企业, 政府,
日本
陈顺通, 幼子,
上海, 三井
国有, 金融机构,
水平
M3 企业, 政府,
日本
租金, 见证,
航运业, 预定
征求, 相关,
监事长
M4 军火, 企业,
日本
船王, 日本,
陈顺通, 陈洽群
金融机构,
薪酬, 国有
M5 军火, 企业,
政府
船王, 民间,
日本, 陈顺通
金融机构,
国有, 薪酬
  完全未命中原始关键词的抽取结果示例
[1] Mihalcea R, Tarau P.Textrank: Bringing Order into Texts[C]//Proceedings of Empirical Methods in Natural Language Processing. 2004.
[2] 夏天. 词语位置加权TextRank的关键词抽取研究[J]. 现代图书情报技术, 2013 (9): 30-34.
[2] (Xia Tian.Study on Keyword Extraction Using Word Position Weighted TextRank[J]. New Technology of Library and Information Service, 2013 (9): 30-34.)
[3] 顾益军, 夏天. 融合LDA与TextRank的关键词抽取研究[J]. 现代图书情报技术, 2014 (7/8): 41-47.
[3] (Gu Yijun, Xia Tian.Study on Keyword Extraction with LDA and TextRank Combination[J]. New Technology of Library and Information Service, 2014(7/8): 41-47.)
[4] 李鹏, 王斌, 石志伟, 等. Tag-TextRank: 一种基于Tag的网页关键词抽取方法[J]. 计算机研究与发展, 2012, 49(11): 2344-2351.
[4] (Li Peng, Wang Bin, Shi Zhiwei, et al.Tag-TextRank: A Webpage Keyword Extraction Method Based on Tags[J]. Journal of Computer Research and Development, 2012, 49(11): 2344-2351.)
[5] 谢玮, 沈一, 马永征. 基于图计算的论文审稿自动推荐系统[J]. 计算机应用研究, 2016, 33(3): 798-801.
doi: 10.3969/j.issn.1001-3695.2016.03.035
[5] (Xie Wei, Shen Yi, Ma Yongzheng.Recommendation System for Paper Reviewing Based on Graph Computing[J]. Application Research of Computers, 2016, 33(3): 798-801.)
doi: 10.3969/j.issn.1001-3695.2016.03.035
[6] 李跃鹏, 金翠, 及俊川. 基于Word2vec的关键词提取算法[J]. 科研信息化技术与应用, 2015, 6(4): 54-59.
doi: 10.11871/j.issn.1674-9480.2015.04.007
[6] (Li Yuepeng, Jin Cui, Ji Junchuan.A Keyword Extraction Algorithm Based on Word2vec[J]. e-Science Technology & Application, 2015,6(4): 54-59.)
doi: 10.11871/j.issn.1674-9480.2015.04.007
[7] 宁建飞, 刘降珍. 融合Word2vec与TextRank的关键词抽取研究[J]. 现代图书情报技术, 2016 (6): 20-27.
[7] (Ning Jianfei, Liu Jiangzhen.Using Word2vec with TextRank to Extract Keywords[J]. New Technology of Library and Information Service, 2016(6): 20-27.)
[8] Mikolov T, Chen K, Corrado G, et al.Efficient Estimation of Word Representations in Vector Space[C]//Proceedings of Workshop at International Conference on Learning Representations. 2013.
[9] Ansj Lexical Parser [EB/OL]. [2016-10-01]..
[10] Deep Learning with Word2vec [EB/OL]. [2016-10-01]. .
[1] 王一钒,李博,史话,苗威,姜斌. 古汉语实体关系联合抽取的标注方法*[J]. 数据分析与知识发现, 2021, 5(9): 63-74.
[2] 马江微, 吕学强, 游新冬, 肖刚, 韩君妹. 融合BERT与关系位置特征的军事领域关系抽取方法*[J]. 数据分析与知识发现, 2021, 5(8): 1-12.
[3] 柴庆凤, 史霖炎, 梅珊, 熊海涛, 贺惠新. 基于人工特征和机器特征融合的科技文献知识元抽取*[J]. 数据分析与知识发现, 2021, 5(8): 132-144.
[4] 谭荧, 唐亦非. 基于指代消解的引文内容抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 25-33.
[5] 张建东, 陈仕吉, 徐小婷, 左文革. 基于词向量的PDF表格抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 34-44.
[6] 陈星月, 倪丽萍, 倪志伟. 基于ELECTRA模型与词性特征的金融事件抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 36-47.
[7] 喻雪寒, 何琳, 徐健. 基于RoBERTa-CRF的古文历史事件抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 26-35.
[8] 赵丹宁,牟冬梅,白森. 基于深度学习的科技文献摘要结构要素自动抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 70-80.
[9] 王义真,欧石燕,陈金菊. 民事裁判文书两阶段式自动摘要研究*[J]. 数据分析与知识发现, 2021, 5(5): 104-114.
[10] 闫强,张笑妍,周思敏. 基于义原相似度的关键词抽取方法 *[J]. 数据分析与知识发现, 2021, 5(4): 80-89.
[11] 石湘,刘萍. 基于知识元语义描述模型的领域知识抽取与表示研究 *——以信息检索领域为例[J]. 数据分析与知识发现, 2021, 5(4): 123-133.
[12] 成彬,施水才,都云程,肖诗斌. 基于融合词性的BiLSTM-CRF的期刊关键词抽取方法[J]. 数据分析与知识发现, 2021, 5(3): 101-108.
[13] 胡少虎,张颖怡,章成志. 关键词提取研究综述*[J]. 数据分析与知识发现, 2021, 5(3): 45-59.
[14] 戴志宏, 郝晓玲. 上下位关系抽取方法及其在金融市场的应用*[J]. 数据分析与知识发现, 2021, 5(10): 60-70.
[15] 王媛, 时恺泽, 牛振东. 一种用于实体关系三元组抽取的位置辅助分步标记方法*[J]. 数据分析与知识发现, 2021, 5(10): 71-80.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn