Please wait a minute...
Advanced Search
数据分析与知识发现
  本期目录 | 过刊浏览 | 高级检索 |
基于义原相似度的关键词抽取方法
闫强,张笑妍,周思敏
(北京邮电大学现代邮政学院(自动化学院) 北京  100876) 
(北京邮电大学经济管理学院 北京  100876)
A Keyword Extracting Method Based on Sememe Similarity
Yan Qiang,Zhang Xiaoyan,Zhou Simin
(School of Modern Post (School of Automation), Beijing University of Posts and Telecommunications, Beijing 100876, China)
(School of Economics and Management, Beijing University of Posts and Telecommunications, Beijing 100876, China)
全文: PDF (889 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]本文旨在将词语的语义信息引入TextRank算法中,改进关键词抽取效果。

[方法]使用HowNet知识库提供的词语义原信息计算词语相似度,根据设定的相似度阈值构建语义词图和矩阵。之后将语义矩阵和共现矩阵加权,得到新的词节点转移概率矩阵。

[结果]改进后的算法在短文本上表现优于传统TextRank、TF-IDF和LDA, F值分别提高了6.6%、9.0%和10.3%。在长文本上表现逊于TF-IDF,与TextRank区别不大。

[局限]分词程序对复合词、新词和实体类名词识别效果较差,使算法抽取到残缺的关键词,导致F值降低。此外,义原相似度算法也可再改进。

[结论]结合语义的TextRank算法使关键词抽取过程兼顾词语共现及语义关系,为短文本关键词抽取提供了新思路。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 TextRank关键词抽取义原词语相似度     
Abstract

[Objective] This study aims to introduce semantic information of words into TextRank algorithm to improve the effect of keywords extraction.

[Methods] The similarity of words is calculated by using the semantic information from HowNet. The semantic word graph and matrix are constructed according to a specific similarity threshold. Then, the semantic matrix and co-occurrence matrix are weighted to obtain a new transition probability matrix.

[Results] The results show that the improved algorithm is better than TextRank, TF-IDF and LDA on short text, and F-score is improved by 6.6%, 9.0% and 10.3% respectively. On long text, the results are inferior to TF-IDF, but close to TextRank.

[Limitations] The segmentation program has poor recognition effect on compound words, new words and entities, which makes the algorithm extract incomplete keywords and reduce F-score. In addition, the semantic similarity algorithm can also be improved.

[Conclusions] Combining semantic information with TextRank, the keyword extraction process could take into account the co-occurrence and semantic relations of words, which provides a new idea for keyword extraction on short text.


Key words TextRank    Keyword extraction    Sememe    Word similarity
     出版日期: 2020-11-24
引用本文:   
闫强, 张笑妍, 周思敏. 基于义原相似度的关键词抽取方法 [J]. 数据分析与知识发现, 10.11925/infotech.2096-3467.2020.0748.
Yan Qiang, Zhang Xiaoyan, Zhou Simin. A Keyword Extracting Method Based on Sememe Similarity . Data Analysis and Knowledge Discovery, 0, (): 1-.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2020.0748      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y0/V/I/1
[1] 夏天. 面向中文学术文本的单文档关键短语抽取 *[J]. 数据分析与知识发现, 2020, 4(7): 76-86.
[2] 孙明珠,马静,钱玲飞. 基于文档主题结构和词图迭代的关键词抽取方法研究 *[J]. 数据分析与知识发现, 2019, 3(8): 68-76.
[3] 张震,曾金. 面向用户评论的关键词抽取研究*——以美团为例[J]. 数据分析与知识发现, 2019, 3(3): 36-44.
[4] 王安,顾益军,李坤明,李文政. 基于复杂网络词节点移除的关键词抽取方法 *[J]. 数据分析与知识发现, 2019, 3(11): 35-44.
[5] 李钰曼,陈志泊,许福. 基于KACC模型的文本分类研究 *[J]. 数据分析与知识发现, 2019, 3(10): 89-97.
[6] 刘竹辰, 陈浩, 于艳华, 李劼. 词位置分布加权TextRank的关键词提取*[J]. 数据分析与知识发现, 2018, 2(9): 74-79.
[7] 王子璇, 乐小虬, 何远标. 基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究[J]. 数据分析与知识发现, 2017, 1(4): 1-8.
[8] 夏天. 词向量聚类加权TextRank的关键词抽取*[J]. 数据分析与知识发现, 2017, 1(2): 28-34.
[9] 宁建飞,刘降珍. 融合Word2vec与TextRank的关键词抽取研究[J]. 现代图书情报技术, 2016, 32(6): 20-27.
[10] 王培霞,余海,陈力,王永吉. 科技查新中检索词智能抽取系统的设计与实现*[J]. 现代图书情报技术, 2016, 32(11): 82-93.
[11] 夏天. 词语位置加权TextRank的关键词抽取研究[J]. 现代图书情报技术, 2013, 29(9): 30-34.
[12] 徐健, 方安, 洪娜. 一种基于词语相似度计算的本体映射方法[J]. 现代图书情报技术, 2013, 29(2): 36-42.
[13] 叶春蕾, 冷伏海. 基于词汇链的路线图关键词抽取方法研究[J]. 现代图书情报技术, 2013, 29(1): 50-56.
[14] 王昊, 邓三鸿, 苏新宁. 基于字序列标注的中文关键词抽取研究[J]. 现代图书情报技术, 2011, 27(12): 39-45.
[15] 卢胜军,李法勇,钱建军,真溱. WCONS+:一种基于WCONS的本体集成[J]. 现代图书情报技术, 2009, 3(2): 18-22.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn