Please wait a minute...
Advanced Search
现代图书情报技术  2007, Vol. 2 Issue (11): 63-66     https://doi.org/10.11925/infotech.1003-3513.2007.11.13
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于句子相似度的文档复制检测算法研究
秦新国
(南京审计学院教务处 南京 210029)
Research on the Copy Detection Based on the Similarity of Sentences
Qin Xinguo
(Dean’s Office of Nanjing Audit College,Nanjing 210029,China)
全文: PDF (435 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

提出一种基于句子相似度的文档复制检测技术,在抓住文档的全局特征的同时又兼顾文档的结构信息,克服以往检测算法两者不可兼顾的缺陷,提高检测精度。最后,给出该算法与其他算法检测结果的比较情况。实验证明,该算法是可行的。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
秦新国
关键词 文档复制检测句子相似度指纹    
Abstract

In the paper,a new document copy detection algorithm based on the similarity of the sentences is proposed.In order to improve the detection accuracy,the authors not only emphasize on the whole document,but also on the structure of the document.In the end,experiments and comparison are taken between the new algorithm and other typical algorithms,the result shows that it is feasible.

Key wordsDocument copy detection    Sentence similarity    Fingerprints
收稿日期: 2007-09-18      出版日期: 2007-11-25
: 

TP391

 
通讯作者: 秦新国     E-mail: qxg19811025@163.com
作者简介: 秦新国
引用本文:   
秦新国. 基于句子相似度的文档复制检测算法研究[J]. 现代图书情报技术, 2007, 2(11): 63-66.
Qin Xinguo. Research on the Copy Detection Based on the Similarity of Sentences. New Technology of Library and Information Service, 2007, 2(11): 63-66.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.11.13      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I11/63

[1]  史彦军,滕弘飞,金博抄袭论文识别研究与进展[J]大连理工大学学报,2005,45(1):50-57
[2] 鲍军鹏,沈钧毅,刘晓东,等自然语言文档复制检测研究综述[J]软件学报,2003,14(10):1753-1760
[3] NamOh Kang,Alexander Gelbukh,et al.PPCheck:Plagiarism Pattern Checker in Document Copy Detection[EB/OL] .http://www.gelbukh.com/CV/Publications/2006/TSD-2006-Plagiarism.pdf.
[4] 何明,胡彩霞一种文本相似性的度量方法和计算方法[J]黄山学院学报,2005,7(6):71-72
[5] 宋擒豹,杨向荣,沈钧义,等数字商品非法复制的检测算法[J]计算机学报,2002,25(11):1206-1211
[6] Andrei Z B.On the Resemblance and Containment of Documents[C].Compression and Complexity of SEQUENCES1997,Salerno,Italy,1997:21-29
[7] Shivakumar N,Molina H G.SCAM:A Copy Detection Mechanism for Digital Documents[C]The 2nd International Conference in Theory and Practice of Digital Libraries,Austin,Texas,USA,1995:9-17
[8] Manber U.Finding Similar Files in a Large File System[C].USENIX Conference,SanFrancisco,CA,1994:1-10

[1] 卢利农,祝忠明,张旺强,王小春. 基于Lingo3G聚类算法的机构知识库跨库知识整合与知识指纹服务实现[J]. 数据分析与知识发现, 2021, 5(5): 127-132.
[2] 李纲, 毛进, 陈璟浩. 基于语义指纹的中文文本快速去重[J]. 现代图书情报技术, 2013, 29(9): 41-47.
[3] 袁冬, 熊晶, 刘永革. 面向甲骨文的实例机器翻译技术研究[J]. 现代图书情报技术, 2012, 28(5): 48-54.
[4] 王志超, 翁楠, 王宇. 基于主题句相似度的标题党新闻鉴别技术研究[J]. 现代图书情报技术, 2011, (11): 48-53.
[5] 何维,王宇. 基于句子关系图的网页文本主题句抽取*[J]. 现代图书情报技术, 2009, 3(3): 57-61.
[6] 王森,王宇. 基于文本结构树的论文复制检测算法[J]. 现代图书情报技术, 2009, (10): 50-55.
[7] 耿崇,薛德军. 中文文档复制检测方法研究[J]. 现代图书情报技术, 2007, 2(6): 33-37.
[8] 廉站俊,吕学强,张玉杰,施水才. 基于句子相似度计算的信息抽取*[J]. 现代图书情报技术, 2007, 2(6): 38-41.
[9] 刘凡馨 . 指纹技术及其在读者证件系统中的应用[J]. 现代图书情报技术, 2007, 2(3): 83-86.
[10] 化柏林 . 基于句子匹配的文章自写度测评系统[J]. 现代图书情报技术, 2007, 2(11): 40-44.
[11] 朱克亮,李春. 指纹识别技术在图书馆中的应用[J]. 现代图书情报技术, 2002, 18(4): 23-24.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn