Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (6): 64-70     https://doi.org/10.11925/infotech.1003-3513.2015.06.10
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
同义词抽取结果的噪音清洗方法研究
刘伟, 王星, 宋培彦
中国科学技术信息研究所 北京 100038
A Noise Cleaning Method for Synonym Extraction Results
Liu Wei, Wang Xing, Song Peiyan
Institute of Scientific & Technical Information of China, Beijing 100038, China
全文: PDF (1270 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

目的】同义词抽取结果中的噪音会严重影响结果的可应用性, 需要预先进行清洗。【方法】提出一种基于同义关系网络的噪音清洗方法, 将同义词抽取结果转化为无向结构的同义关系网络, 在该网络中自动识别出同义词抽取结果中部分噪音, 并结合语义的分布相似性对方法进行改进, 以提高噪音的识别比例。【结果】通过在工程技术领域随机选取的术语上进行实验, 表明该方法可以过滤同义词抽取结果中32.6% -73.0%的噪音。【局限】只能清除部分噪音, 还需要改进方法以提高噪音识别的准确性。【结论】通过构建同义关系网络能够清洗同义词抽取结果中的噪音, 该问题值得进一步深入研究。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
刘伟
王星
宋培彦
关键词 同义词信息抽取噪音清洗同义关系网络    
Abstract

[Objective] There are lots of noises in synonym extraction results, and the noises would hurt the availability of extraction results. [Methods] This paper proposes a noise cleaning solution based on synonym graph. The proposed method firstly transforms synonym extraction results into an undirected synonym graph, and then detects the noises in the graph. The method is improved by incorporating the distribution similarity. [Results] The terms randomly selected from the technique field are used in the experiments, and the experiments show that this method can remove noises from the synonym extraction results to some extend. [Limitations] Only part of noises is cleaned, hence the accuracy of detecting noises needs be increased by improving the methods. [Conclusions] This is a feasible approach to clean the noises in the synonym extraction results, which is worth further study.

Key wordsSynonym    Information extraction    Noise cleaning    Synonym relation graph
收稿日期: 2014-11-18      出版日期: 2015-07-08
:  TP18  
基金资助:

本文系国家“十二五”科技支撑计划资助项目“《汉语主题词表》(工程技术版)与英文超级科技词表的映射研究”(项目编号: 2011BAH10B07)的研究成果之一。

通讯作者: 刘伟, ORCID: 0000-0003-2857-5474, E-mail: liuw@istic.ac.cn。     E-mail: liuw@istic.ac.cn
作者简介: 作者贡献声明: 刘伟: 提出研究思路, 完成算法设计, 撰写论文; 王星: 设计与实施实验; 宋培彦: 论文最终版本修订。
引用本文:   
刘伟, 王星, 宋培彦. 同义词抽取结果的噪音清洗方法研究[J]. 现代图书情报技术, 2015, 31(6): 64-70.
Liu Wei, Wang Xing, Song Peiyan. A Noise Cleaning Method for Synonym Extraction Results. New Technology of Library and Information Service, 2015, 31(6): 64-70.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.06.10      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2015/V31/I6/64

[1] 同义关系抽取结果评测 [EB/OL]. [2014-12-29]. http://tcci. ccf.org.cn/conference/2012/dldoc/2012语义关系评测结果. pdf. (Synonym Extraction Results Evaluation [EB/OL]. [2014- 12-29]. http://tcci.ccf.org.cn/conference/2012/dldoc/2012语义关系评测结果.pdf.)
[2] Pantel P, Lin D. Discovering Word Senses from Text [C]. In: Proceedings of the 8th SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'02). New York: ACM, 2002: 613-619.
[3] Cheng T, Lauw H W, Paparizos S. Entity Synonyms for Structured Web Search [J]. IEEE Transactions on Knowledge and Data Engineering, 2012, 24(10): 1862-1875.
[4] Berry M W, Castellanos M. Survey of Text Mining II [M]. London: Springer, 2008: 25-44.
[5] Bøhn C, Nørvāg K. Extracting Named Entities and Synonyms from Wikipedia [C]. In: Proceedings of the 24th IEEE International Conference on Advanced Information Networking and Applications (AINA'10). IEEE Computer Society, 2010: 1300-1307.
[6] 陆勇, 侯汉清. 基于模式匹配的汉语同义词自动识别[J]. 情报学报, 2006, 25(6): 720-724. (Lu Yong, Hou Hanqing. Automatic Recognition of Chinese Synonyms Based on Pattern Matching Algorithm [J]. Journal of the China Society for Scientific and Technical Information, 2006, 25(6): 720-724.)
[7] 于娟, 尹积栋, 费庶. 基于句法结构分析的同义词识别方法研究[J]. 现代图书情报技术, 2013(9): 35-40. (Yu Juan, Yin Jidong, Fei Shu. Identifying Synonyms Based on Sentence Structure Analysis [J]. New Technology of Library and Information Service, 2013 (9): 35-40.)
[8] Hagiwara M, Ogawa Y, Toyama K. Supervised Synonym Acquisition Using Distributional Features and Syntactic Patterns [J]. Information and Media Technologies, 2009, 4(2): 558-582.
[9] Kaji N, Kitsuregawa M. Using Hidden Markov Random Fields to Combine Distributional and Pattern-based Word Clustering [C]. In: Proceedings of the 22nd International Conference on Computational Linguistics, Manchester, UK. Stroudsburg: Association for Computational Linguistics Press, 2008: 401-408.
[10] 陆勇, 章成志, 侯汉清. 基于百科资源的多策略中文同义词自动抽取研究[J]. 中国图书馆学报, 2010, 36(1): 56-62. (Lu Yong, Zhang Chengzhi, Hou Hanqing. Using Multiple Hybrid Strategies to Extract Chinese Synonyms from Encyclopedia Resources [J]. Journal of Library Science in China, 2010, 36(1): 56-62.)
[11] 刘伟, 黄小江, 万小军, 等. 互联网环境下的英文同义术语自动发现研究与系统实现[J]. 图书情报工作, 2012, 56(22): 26-31. (Liu Wei, Huang Xiaojiang, Wan Xiaojun, et al. Study on Automatic English Synonym Terms Discovery from Web and the System Implementation [J]. Library and Information Service, 2012, 56(22): 26-31.)
[12] 李晓瑛, 李丹亚, 钱庆, 等. 面向知识组织系统整合的英文同义关系自动发现算法研究[J]. 现代图书情报技术, 2014(5): 26-32. (Li Xiaoying, Li Danya, Qian Qing, et al. Research on Automatic Algorithm of Finding English Synonymous Relations for Knowledge Organization System Integration [J]. New Technology of Library and Information Service, 2014(5): 26-32.)

[1] 谭荧, 唐亦非. 基于指代消解的引文内容抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 25-33.
[2] 纪有书, 王东波, 黄水清. 基于词对齐的古汉语同义词自动抽取研究*——以前四史典籍为例[J]. 数据分析与知识发现, 2021, 5(11): 135-144.
[3] 陶玥,余丽,张润杰. 科技文献中短语级主题抽取的主动学习方法研究*[J]. 数据分析与知识发现, 2020, 4(10): 134-143.
[4] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[5] 章成志,李铮. 基于学术论文全文的创新研究评价句抽取研究 *[J]. 数据分析与知识发现, 2019, 3(10): 12-18.
[6] 牟冬梅, 金姗, 琚沅红. 基于文献数据的疾病与基因关联关系研究*[J]. 数据分析与知识发现, 2018, 2(8): 98-106.
[7] 毕强, 刘健, 鲍玉来. 基于语义相似度的文本聚类研究*[J]. 数据分析与知识发现, 2016, 32(12): 9-16.
[8] 段宇锋,黄思思. 中文植物物种多样性描述文本的信息抽取研究*[J]. 现代图书情报技术, 2016, 32(1): 87-96.
[9] 殷希红, 乔晓东, 张运良. 利用术语定义的汉语同义词发现[J]. 现代图书情报技术, 2014, 30(4): 41-47.
[10] 李湘东, 霍亚勇, 黄莉. 图书网页的自动识别及书目信息抽取研究[J]. 现代图书情报技术, 2014, 30(4): 71-77.
[11] 刘雅静, 王衍喜, 郝丹, 周津慧. 机构知识库支撑科研服务方法研究[J]. 现代图书情报技术, 2014, 30(3): 1-7.
[12] 于娟, 尹积栋, 费庶. 基于句法结构分析的同义词识别方法研究[J]. 现代图书情报技术, 2013, 29(9): 35-40.
[13] 翟东升, 张欣琦, 张杰, 康宁. 分布式专利信息抽取系统设计与构建[J]. 现代图书情报技术, 2013, 29(7/8): 114-121.
[14] 张晗, 刘双梅. 中心度指标对语义述谓网络概念抽取的比较分析——以疾病治疗学研究为例[J]. 现代图书情报技术, 2013, (6): 30-35.
[15] 宋培彦, 李静静, 赵星. 跨语言术语同义关系推荐方法及其实证[J]. 现代图书情报技术, 2013, (5): 40-45.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn