Please wait a minute...
Advanced Search
现代图书情报技术  2013, Vol. 29 Issue (9): 35-40     https://doi.org/10.11925/infotech.1003-3513.2013.09.06
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于句法结构分析的同义词识别方法研究
于娟1, 尹积栋2, 费庶3
1. 福州大学公共管理学院 福州 350108;
2. 江西省标准化研究院 南昌 330029;
3. 大连职业技术学院图书馆 大连 116035
Identifying Synonyms Based on Sentence Structure Analysis
Yu Juan1, Yin Jidong2, Fei Shu3
1. School of Public Administration and Policy, Fuzhou University, Fuzhou 350108, China;
2. Jiangxi Institute of Standardization, Nanchang 330029, China;
3. Library of Dalian Vocational & Technical College, Dalian 116035, China
全文: PDF (596 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 针对同义词识别方法中因重心后移造成的语义相似度计算偏差问题,提出一种基于句法结构分析的同义词识别方法。首先采用句法结构分析方法处理需要做同义词识别的词(或短语),然后基于同义词词林来计算词(或短语)间的相似度。该方法等价地分析词(或短语)中的各个原子词,从而消除重心后移方法所造成的识别偏差。实验证明,该同义词识别方法性能良好,具有较高的可行性,可以为文本挖掘和语义检索领域提供新思路。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
尹积栋
费庶
于娟
关键词 同义词识别句法结构分析文本挖掘    
Abstract:A new method of identifying synonyms is proposed for the purpose of reducing the deviation when calculating the semantic similarity between two different terms or phrases. The method first analyzes sentence structures of the concerned terms (or phrases), and then calculates the semantic similarity between two terms (or phrases) based on Tongyici Cilin (a Chinese thesaurus). This method weights each word in the concerned terms (or phrases) equally to reduce identifying errors made by gravity-centre-backward methods. Experiments show that the proposed method of identifying synonyms is accurate and has good potentials for text mining and semantic retrieval applications.
Key wordsIdentifying synonyms    Sentence structure analysis    Text mining
收稿日期: 2013-05-08      出版日期: 2013-09-27
:  TP182  
基金资助:本文系国家自然科学基金项目“中文领域本体学习及半自动构建方法研究”(项目编号:71201032)和福建省社会科学规划项目“基于文本的中文领域本体学习方法及其应用研究”(项目编号:2012C021)的研究成果之一。
通讯作者: 于娟     E-mail: yujuan@fzu.edu.cn
引用本文:   
于娟, 尹积栋, 费庶. 基于句法结构分析的同义词识别方法研究[J]. 现代图书情报技术, 2013, 29(9): 35-40.
Yu Juan, Yin Jidong, Fei Shu. Identifying Synonyms Based on Sentence Structure Analysis. New Technology of Library and Information Service, 2013, 29(9): 35-40.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2013.09.06      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2013/V29/I9/35
[1] 宋明亮. 汉语词汇字面相似度性原理与后控制词表动态维护研究[J]. 情报学报, 1996, 15(4):261-271.(Song Mingliang. Research on Principle of Literal Similarity Among Chinese Words and Maintaining Post-controlled Vocabulary[J]. Journal of the China Society for Scientific and Technical Information, 1996, 15(4): 261-271.)
[2] 王源,吴晓滨,涂从文,等. 后控规范的计算机处理[J]. 现代图书情报技术, 1993(2): 4-7. (Wang Yuan, Wu Xiaobin, Tu Congwen, et al. Computer Processing of Post-control Indexing[J]. New Technology of Library and Information Service, 1993(2): 4-7.)
[3] 刘群, 李素建. 基于《知网》的词汇语义相似度计算[EB/OL]. [2013-08-22]. http://www.docin.com/p-23739023.html. (Liu Qun, Li Sujian. Word Similarity Computing Based on HowNet [EB/OL]. [2013-08-22].http://www.docin.com/p-23739023.html.)
[4] 朱毅华, 侯汉清, 沙印亭.计算机识别汉语同义词的两种算法比较和测评[J]. 中国图书馆学报, 2002, 28(4): 82-85. (Zhu Yihua, Hou Hanqing, Sha Yinting. A Comparison of Two Algorithms for Computer Recognition of Chinese Synonyms[J].Journal of Library Science in China, 2002, 28(4): 82-85.)
[5] 王兰成, 李超. 改进的中文同义词相似匹配方法[J]. 中国图书馆学报, 2005,31(3): 61-64.(Wang Lancheng, Li Chao. An Improved Chinese Synonym Similarity Matching Method[J]. Journal of Library Science in China, 2005,31(3): 61-64.)
[6] 余刚, 裴仰军, 朱征宇, 等. 基于词汇语义计算的文本相似度研究[J]. 计算机工程与设计, 2006, 27(2): 241-244.(Yu Gang, Pei Yangjun, Zhu Zhengyu, et al. Research of Text Similarity Based on Word Similarity Computing[J]. Computer Engineering and Design, 2006, 27(2): 241-244.)
[7] 穗志方, 俞士汶. 主题概念规范化研究中的自然语言处理策略[EB/OL]. [2013-08-22].http://icl.pku.edu.cn/icl_tr/collected_papers/chinese/collection-3/24-szf2.htm. (Sui Zhifang, Yu Shiwen. Natural Language Processing Strategy in the Standardization of Theme Concepts[EB/OL]. [2013-08-22].http://icl.pku.edu.cn/icl_tr/collected_papers/chinese/collection-3/24-szf2.htm.)
[8] 田久乐, 赵蔚. 基于同义词词林的词语相似度计算方法[J]. 吉林大学学报:信息科学版, 2010, 28(6): 602-608.(Tian Jiule, Zhao Wei. Words Similarity Algorithm Based on Tongyici Cilin in Semantic Web Adaptive Learning System[J]. Journal of Jilin University:Information Science Edition, 2010, 28(6): 602-608.)
[9] 于娟, 党延忠. 结合词性分析与串频统计的词语提取方法[J]. 系统工程理论与实践, 2010, 30(1): 105-111.(Yu Juan, Dang Yanzhong. Chinese Term Extraction Based on POS Analysis & String Frequency [J]. Systems Engineering—Theory & Practice, 2010, 30(1): 105-111.)
[10] 哈尔滨工业大学社会计算与信息检索研究中心. 哈工大停用词表 [EB/OL].[2013-05-30]. http://ir.hit.edu.cn/. (Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology. StopWords List[EB/OL].[2013-05-30]. http://ir.hit.edu.cn/.)
[11] 张华平, 刘群. 基于N-最短路径方法的中文词语粗分模型[J]. 中文信息学报, 2002, 16(5): 1-7. (Zhang Huaping, Liu Qun. Model of Chinese Words Rough Segmentation Based on N-Shortest-Paths Method[J]. Journal of Chinese Information Processing, 2002, 16(5): 1-7.)
[12] 刘群, 张华平, 俞鸿魁, 等. 基于层叠隐马模型的汉语词法分析[J]. 计算机研究与发展, 2004, 41(8): 1421-1429. (Liu Qun, Zhang Huaping, Yu Hongkui, et al. Chinese Lexical Analysis Using Cascaded Hidden Markov Model[J]. Journal of Computer Research and Development, 2004, 41(8): 1421-1429.)
[13] 张艳. 汉语句法分析的理论方法的研究及其应用[D]. 北京:中国科学院自动化研究所, 2003. (Zhang Yan. Research and Its Application of Chinese Syntactic Analysis Theoretical Methods[D]. Beijing: Institute of Automation,Chinese Academy of Sciences, 2003.)
[14] Liu T,Ma J,Li S.Building a Dependency Treebank for Improving Chinese Parser[J]. Journal of Chinese Language and Computing, 2006,16(4): 207-224.
[15] 哈尔滨工业大学社会计算与信息检索研究中心. 中文依存句法分析[EB/OL].[2013-01-16]. http://ir.hit.edu.cn/. (Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology. Chinese Dependency Parser[EB/OL]. [2013-01-16]. http://ir.hit.edu.cn/.)
[1] 黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[2] 许光,任明,宋城宇. 西方媒体新闻中的中国经济形象提取*[J]. 数据分析与知识发现, 2021, 5(5): 30-40.
[3] 代冰,胡正银. 基于文献的知识发现新近研究综述 *[J]. 数据分析与知识发现, 2021, 5(4): 1-12.
[4] 余传明, 王曼怡, 林虹君, 朱星宇, 黄婷婷, 安璐. 基于深度学习的词汇表示模型对比研究*[J]. 数据分析与知识发现, 2020, 4(8): 28-40.
[5] 夏天. 面向中文学术文本的单文档关键短语抽取 *[J]. 数据分析与知识发现, 2020, 4(7): 76-86.
[6] 马建霞,袁慧,蒋翔. 基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 78-88.
[7] 杜建. 医学知识不确定性测度的进展与展望*[J]. 数据分析与知识发现, 2020, 4(10): 14-27.
[8] 关鹏,王曰芬. 国内外专利网络研究进展*[J]. 数据分析与知识发现, 2020, 4(1): 26-39.
[9] 黄名选,卢守东,徐辉. 基于加权关联模式挖掘与规则后件扩展的跨语言信息检索 *[J]. 数据分析与知识发现, 2019, 3(9): 77-87.
[10] 杨亚楠,赵文辉,张健,谭珅,张贝贝. 基于多视图协同的政策文本可视化研究*[J]. 数据分析与知识发现, 2019, 3(6): 30-41.
[11] 张梦吉,杜婉钰,郑楠. 引入新闻短文本的个股走势预测模型[J]. 数据分析与知识发现, 2019, 3(5): 11-18.
[12] 张宁, 尹乐民, 何立峰. 网络股评“发布者-关注者”BSI与股票市场关联性研究*[J]. 数据分析与知识发现, 2018, 2(6): 1-12.
[13] 范馨月, 崔雷. 基于文本挖掘的药物副作用知识发现研究[J]. 数据分析与知识发现, 2018, 2(3): 79-86.
[14] 汪强兵, 章成志. 融合内容与用户手势行为的用户画像构建系统设计与实现*[J]. 数据分析与知识发现, 2017, 1(2): 80-86.
[15] 谢秀芳, 张晓林. 针对科技路线图的文本挖掘研究: 集成分析及可视化*[J]. 数据分析与知识发现, 2017, 1(1): 16-25.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn