Please wait a minute...
Advanced Search
现代图书情报技术  2013, Vol. 29 Issue (10): 20-26     https://doi.org/10.11925/infotech.1003-3513.2013.10.04
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
分阶段融合的文本语义相似度计算方法
马军红
西安外事学院工学院 西安 710077
A Staged and Integrated Semantic Similarity Algorithm of Text
Ma Junhong
Engineering Institute, Xi'an International University, Xi'an 710077, China
全文: PDF (672 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 面向中文文本的信息检索,提出一种从句子、段落到文本整体分阶段进行的文本相似度计算方法。该方法结合文档的主题与应用范围,用语义加强的权重计算方法对特征词赋予相应的权重,并根据每个计算阶段的特点,分别融入对文本语义的计算因素,力求使中文文本的相似度计算结果更为准确。最后建立文本相似度计算系统,通过与传统算法的实验结果进行对比,证明改进后的算法可以取得更好的效果。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
马军红
关键词 文本相似度信息检索语义相似度权重    
Abstract:For Chinese text information retrieval, a staged and integrated similarity algorithm of text is proposed, which processes sentences, paragraphs and the whole document stage by stage. The algorithm combines the topic and application ranges of document, and the corresponding weight is given to the feature words via the weighted calculation method with the semantic enhancement. Moreover, these weights are integrated into the calculated factors of the text semantic with the characteristics of each calculation phase, respectively to reach the aim of finding a more accurate similarity calculation results for Chinese text similarity calculation. Finally, a text similarity computing system is built and the improved algorithm of the system achieves better experimental results comparing with the traditional algorithms.
Key wordsTexts similarity    Information retrieval    Semantic similarity    Term weight
收稿日期: 2013-07-05      出版日期: 2013-11-04
:  TP391  
基金资助:本文系陕西省教育厅科学研究计划项目“基于实时嵌入式安全的双向序列加密方法研究”(项目编号:2013JK1146)的研究成果之一。
通讯作者: 马军红     E-mail: maxiaofei913@163.com
引用本文:   
马军红. 分阶段融合的文本语义相似度计算方法[J]. 现代图书情报技术, 2013, 29(10): 20-26.
Ma Junhong. A Staged and Integrated Semantic Similarity Algorithm of Text. New Technology of Library and Information Service, 2013, 29(10): 20-26.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2013.10.04      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2013/V29/I10/20
[1] 赵辉, 刘怀亮, 范云杰. 复杂网络理论在中文文本特征选择中的应用研究[J]. 现代图书情报技术, 2012(9):23-28. (Zhao Hui, Liu Huailiang, Fan Yunjie. Study on the Application of Complex Network Theory in Chinese Text Feature Selection [J]. New Technology of Library and Information Service,2012(9):23-28.)
[2] 金希茜. 基于语义相似度的中文文本相似度算法研究[D]. 杭州:浙江工业大学, 2009. (Jin Xiqian. Chinese Text Similarity Algorithm Research Based on Semantic Similarity[D].Hangzhou: Zhejiang University of Technology, 2009.)
[3] 舒晓明. 基于语义网的个性化信息检索的研究与实现[D].沈阳:沈阳工业大学, 2011.(Shu Xiaoming. Research and Realization of Personalized Information Retrieval Based on Semantic Web[D]. Shenyang: Shenyang University of Technology, 2011.)
[4] 陈涛, 林杰. 基于搜索引擎关注度的网络舆情时空演化比较分析——以谷歌趋势和百度指数比较为例[J]. 情报杂志, 2013,32(3):7-11.(Chen Tao, Lin Jie. Comparative Analysis of Temporal-Spatial Evolution of Online Public Opinion Based on Search Engine Attention——Cases of Google Trends and Baidu Index[J]. Journal of Intelligence,2013,32(3): 7-11.)
[5] 王静帆. 基于文本相似度的二阶段招聘信息检索[D]. 北京: 清华大学, 2007. (Wang Jingfan. Two-Step Job Information Retrieval Based on Document Similarity [D]. Beijing: Tsinghua University, 2007.)
[6] 谭慧琳, 刘先锋. 基于遗传算法的知识推理研究[J]. 电脑知识与技术,2011,7(31):55-59.(Tan Huilin, Liu Xianfeng. The Research of the Selection of Knowledge Reasoning Method Based on Genetic Algorithm [J]. Computer Knowledge and Technology, 2011, 7(31):55-59.)
[7] 路永和, 李焰锋. 多因素影响的特征选择方法[J]. 现代图书情报技术, 2013(5): 34-39.(Lu Yonghe, Li Yanfeng. A Feature Selection Based on Consideration of Multiple Factors[J]. New Technology of Library and Information Service, 2013(5): 34-39.)
[8] 黎邦群. 基于Mashup的特殊词快捷检索及检索建议[J]. 图书情报工作, 2012, 56(17): 126-130.(Li Bangqun. Quick Search of Special Words and Search Suggestions Based on Mashup [J]. Library and Information Service, 2012, 56(17): 126-130.)
[9] Duan Y X, Lei H. The Formal Definitions of Semantic Web Services and Satisfiability [J]. International Journal of Advancements in Computing Technology,2012,4(23): 327-335.
[10] Lee M C. A Novel Sentence Similarity Measure for Semantic-based Expert Systems [J]. Expert Systems with Applications, 2011, 38(5):6392-6399.
[11] 王蕊,冯登国,杨轶. 基于语义的恶意代码行为特征提取及检测方法[J]. 软件学报,2012,23(2):378-393.(Wang Rui,Feng Dengguo,Yang Yi. Semantics-based Malware Behavior Signature Extraction and Detection Method [J]. Journal of Software, 2012, 23(2):378-393.)
[12] 刘兵.Web数据挖掘[M].北京:清华大学出版社,2011:113-119.(Liu Bing. Web Data Mining [M].Beijing: Tsinghua University Press, 2011:113-119.)
[1] 黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[2] 孟镇,王昊,虞为,邓三鸿,张宝隆. 基于特征融合的声乐分类研究*[J]. 数据分析与知识发现, 2021, 5(5): 59-70.
[3] 李跃艳,王昊,邓三鸿,王伟. 近十年信息检索领域的研究热点与演化趋势研究——基于SIGIR会议论文的分析[J]. 数据分析与知识发现, 2021, 5(4): 13-24.
[4] 徐以聪,田学东,李新福,杨芳,史青宣. 基于犹豫模糊权重的数学表达式检索 *[J]. 数据分析与知识发现, 2020, 4(7): 118-126.
[5] 高原,施元磊,张蕾,曹天奕,冯筠. 基于游记文本的游客游览行程重构*[J]. 数据分析与知识发现, 2020, 4(2/3): 165-172.
[6] 黄名选,卢守东,徐辉. 基于加权关联模式挖掘与规则后件扩展的跨语言信息检索 *[J]. 数据分析与知识发现, 2019, 3(9): 77-87.
[7] 严娇,马静,房康. 基于融合共现距离的句法网络下文本语义相似度计算 *[J]. 数据分析与知识发现, 2019, 3(12): 93-100.
[8] 孙海霞, 王蕾, 吴英杰, 华薇娜, 李军莲. 科技文献数据库中机构名称匹配策略研究*[J]. 数据分析与知识发现, 2018, 2(8): 88-97.
[9] 俞立平, 宋夏云, 王作功. 自然权重对非线性科技评价的影响及纠正研究*——以TOPSIS方法评价为例[J]. 数据分析与知识发现, 2018, 2(6): 48-57.
[10] 李琳, 李辉. 一种基于概念向量空间的文本相似度计算方法[J]. 数据分析与知识发现, 2018, 2(5): 48-58.
[11] 杨超凡, 邓仲华, 彭鑫, 刘斌. 近5年信息检索的研究热点与发展趋势综述*——基于相关会议论文的分析[J]. 数据分析与知识发现, 2017, 1(7): 35-43.
[12] 陈二静, 姜恩波. 文本相似度计算方法研究综述[J]. 数据分析与知识发现, 2017, 1(6): 1-11.
[13] 白如江, 冷伏海, 廖君华. 一种基于语义组块特征的改进Cosine文本相似度计算方法*[J]. 数据分析与知识发现, 2017, 1(6): 56-64.
[14] 翟东升, 蔡文浩, 张杰, 李振飞. 改进的中文商标语义相似度计算方法研究[J]. 数据分析与知识发现, 2017, 1(11): 19-28.
[15] 张晓娟, 韩毅. 时态信息检索研究综述*[J]. 数据分析与知识发现, 2017, 1(1): 3-15.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn