Please wait a minute...
Advanced Search
现代图书情报技术  2012, Vol. 28 Issue (1): 34-39     https://doi.org/10.11925/infotech.1003-3513.2012.01.06
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
科技文献关键词冗余解决方案研究
邢美凤
中国科学院国家科学图书馆 北京 100190; 中国科学院研究生院 北京 100049; 晋中学院图书馆 晋中 030600
Study on Solution to Redundancy of Scientific Literature Keywords
Xing Meifeng
National Science Library, Chinese Academy of Sciences, Beijing 100190, China; Graduate University of Chinese Academy of Sciences, Bejing 100049, China; Jinzhong University Library, Jinzhong 030600, China
全文: PDF (819 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 提出一种改进的基于相似度计算的科技文献关键词选取算法。先利用N-gram算法提取领域词库,再综合利用领域词库和常识词库,对最初选择的关键词重新切分,进行给定关键词之间的语义对比。语义相似度大于一定阈值的关键词被认为是表达同一意义的同义词,将同义词在文献库中合并,从而解决关键词冗余问题。实验结果可以证明该方法的有效性。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
邢美凤
关键词 科技文献关键词冗余语义相似度特征降维    
Abstract:Irregular keywords often cause high redundancy in the same research topic. To address the issue, this paper proposes an improved keywords selection algorithm based on similarity calculation. It re-segments keywords using field dictionary and common-sense knowledge database thesaurus. When the total semantic similarity is greater than a given threshold, the two compared keywords are considered to express the same meaning, then merging and keeping only one of them in library,which achieves the purpose of the dimension reduction. Finally, experimental results show the effectiveness of the method.
Key wordsScientific literature keywords    Redundancy    Semantic similarity    Feature reduction
收稿日期: 2011-10-25      出版日期: 2012-02-26
: 

G250.73

 
引用本文:   
邢美凤. 科技文献关键词冗余解决方案研究[J]. 现代图书情报技术, 2012, 28(1): 34-39.
Xing Meifeng. Study on Solution to Redundancy of Scientific Literature Keywords. New Technology of Library and Information Service, 2012, 28(1): 34-39.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2012.01.06      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2012/V28/I1/34
[1] Chua S, Kulathuramaiyer N. Semantic Feature Selection Using WordNet[C].In: Proceedings of IEEE/WIC/ACM International Conference on Web Intelligence,Beijing,China.IEEE Computer Society, 2004: 166-172.

[2] Li X B, Szpakowicz S,Matwin S.A WordNet-based Algorithm for Word Sense Disambiguation[C]. In: Proceedings of the IJCAI-95, Montreal, Canada. 1995:1368-1374.

[3] 熊忠阳,付玲玲,张玉芳.文本分类中基于概念映射的二次特征降维方法[OL].[2011-03-10].http://www.cnki.net/kcms/detail/11.2127.TP.20110223.1435.007.html?uid=WEEvREcwSlJHSldRa3JPV0dvSFpWamplRWN1SW9vVW91ZlRaY0xY V2cxZFMzVVkzTkpOemo1cXN6ckVhNGx3PQ==.

[4] 唐歆瑜,乐文忠,李志成. 基于知网语义相似度计算的特征降维方法研究[J]. 科学技术与工程 ,2006,6(21):3442-3446.

[5] 董振东,董强.知网[DB/OL].[2011-02-10]. http://www.keenage.com.

[6] 吕震宇,林永民,赵爽,等.基于同义词词林的文本特征选择与加权研究[J]. 情报杂志 , 2008,27(5):130-132.

[7] 中华人民共和国国家标准.GB/T 7713.1-2006 学位论文编写规则[S].2006.

[8] 马开俊.数字化建设中文献信息主题标引方式管见[J]. 情报资料工作 ,2004(Z1):355-356.

[9] 谭慧华.CAJ- CD 关键词标引质量探析[J]. 情报杂志 ,2003,22(3):79-80.

[10] 郭淑敏.医学期刊编辑中的关键词标引[J]. 中华医学科研管理杂志 ,2006,19(3):178-179.

[11] 赵宗蔚.提高期刊论文关键词索引质量—自然语言与人工语言的结合[J]. 图书馆论坛 ,2005,25(1):119-121.

[12] Jelinek F.Continuous Speech Recognition by Statistical Methods[J]. Proceedings of the IEEE,1976,64(4): 532-556.

[13] Gao Y Q,Zhou B,Diao Z J,et al. MARS: A Statistical Semantic Parsing and Generation-based Multilingual Automatic Translation System[J]. Machine Translation,2002,21(2):185-212.

[14] Koerich A L,Sabourin R, Suen C Y. Large Vocabulary Off-line Handwriting Recognition: A Survey[J].Pattern Analysis & Applications,2003,6(2):97-121.

[15] Zheng C, Kai F L.A New Statistical Approach to Chinese Pinyin Input[C].In: Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics(ACL-2000),Hong Kong.2000.

[16] Ponte J M, Croft W B. A Language Modeling Approach to Information Retrieval[C]. In: Proceedings of the 21st International ACM SIGIR Conference on Research and Development in Information Retrieval,New York, USA.1998:275-281.

[17] 刘群,张华平,俞鸿魁,等. 基于层叠隐马模型的汉语词法分析[J]. 计算机研究与发展 ,2004,41(8):1421-1429.

[18] Lucene[EB/OL].[2011-03-20].http://lucene.apache.org.

[19] Kumar N, Srinathan K. Automatic Keyphrase Extraction from Scientific Documents Using N-gram Filtration Technique[C]. In: Proceedings of the 2008 ACM Symposium on Document Engineering,Sao Paulo,Brazil.2008:199-208.

[20] ICTCLAS[EB/OL].[2011-05-01].http://ictclas.org/ictclas_files.html.

[21] 刘群,李素建.基于知网的词汇语义相似度计算[C].见: 第三届汉语词汇语义学研讨会 ,台北. 2002.
[1] 龚丽娟,王昊,张紫玄,朱立平. Word2Vec对海关报关商品文本特征降维效果分析*[J]. 数据分析与知识发现, 2020, 4(2/3): 89-100.
[2] 严娇,马静,房康. 基于融合共现距离的句法网络下文本语义相似度计算 *[J]. 数据分析与知识发现, 2019, 3(12): 93-100.
[3] 陈二静, 姜恩波. 文本相似度计算方法研究综述[J]. 数据分析与知识发现, 2017, 1(6): 1-11.
[4] 翟东升, 蔡文浩, 张杰, 李振飞. 改进的中文商标语义相似度计算方法研究[J]. 数据分析与知识发现, 2017, 1(11): 19-28.
[5] 刘冰瑶, 马静, 李晓峰. 一种“特征降维”文本复杂网络的话题表示模型*[J]. 数据分析与知识发现, 2017, 1(11): 53-61.
[6] 刘健,毕强,刘庆旭,王福. 数字文献资源内容服务推荐研究*——基于本体规则推理和语义相似度计算[J]. 现代图书情报技术, 2016, 32(9): 70-77.
[7] 巴志超,李纲,朱世伟. 基于语义网络的研究兴趣相似性度量方法*[J]. 现代图书情报技术, 2016, 32(4): 81-90.
[8] 毕强, 刘健, 鲍玉来. 基于语义相似度的文本聚类研究*[J]. 数据分析与知识发现, 2016, 32(12): 9-16.
[9] 刘怀亮, 杜坤, 秦春秀. 基于知网语义相似度的中文文本分类研究[J]. 现代图书情报技术, 2015, 31(2): 39-45.
[10] 范雪雪, 王志荣, 徐晤, 梁银, 马小虎. 基于医学本体的术语相似度算法研究[J]. 现代图书情报技术, 2015, 31(12): 57-64.
[11] 张帆, 乐小虬. 面向领域科技文献的句子级创新点抽取研究[J]. 现代图书情报技术, 2014, 30(9): 15-21.
[12] 胡吉明, 肖璐. 向量空间模型文本建模的语义增量化改进研究[J]. 现代图书情报技术, 2014, 30(10): 49-55.
[13] 何超, 张玉峰. 融合语义相似度的商务情报链接分析算法研究[J]. 现代图书情报技术, 2013, 29(3): 27-32.
[14] 孙海霞, 李军莲, 李丹亚, 吴英杰, 李晓瑛. 基于CMeSH语义系统的领域自由词-主题词语义映射研究[J]. 现代图书情报技术, 2013, 29(11): 46-51.
[15] 马军红. 分阶段融合的文本语义相似度计算方法[J]. 现代图书情报技术, 2013, 29(10): 20-26.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn