似专利检测研究

引用本文

周群芳. 似专利检测研究. 现代图书情报技术, 2012, 28(11): 60-64
Zhou Qunfang. Study on Detection Method of Similarity Patents. 现代图书情报技术, 2012, 28(11): 60-64 复制到剪切板

Permissions

似专利检测研究

周群芳

宝山钢铁股份有限公司上海 201900

摘要

为从专利库中获取有效的相似专利,在基于本体的标识替换基础上,合并相似概念,通过对概念TFIDF值的测算,构建向量空间模型,计算每篇专利文档的相似度,并利用基于有序最长公共子序列匹配的句子相似度识别方法,对前面的相似专利文档抽取结果做进一步匹配,最终得到相似子句集合,以帮助企业情报人员实现相似专利的有效检测。

关键词: 本体; 相似专利检测; 专利侵权

中图分类号:TP391

Study on Detection Method of Similarity Patents

Zhou Qunfang

Baoshan Iron and Steel Co. Ltd.Shanghai 201900, China

Abstract

In order to get similar patents from patent databases, based on merging similar concepts on Ontology-based identification replacement, this paper constructs a vector space model by estimating the TFIDF values of the concepts, and eventually gets a collection of similar clause on similarity matching sentences by orderly longest common subsequence identification method to match the results of previous similar patent document extraction. This method can help enterprises intelligence detect similar patents effectively.

Keyword: Ontology; Similar patent detection; Patent infringement

Show Figures

1 引言

专利侵权与反侵权,在企业保护技术、占领市场等方面,有着十分重要的意义。在当今激烈的市场竞争中,如果企业需要在某个技术上保持优势并能够占领市场,主要手段便是进行专利申请,利用法律手段保护自己的研究成果。而专利文献是公开文献,一旦专利的法律状态进入公开阶段,竞争对手便可以进行仿制,而且有可能在其基础上对技术进行改进和提高,对企业的技术保护构成威胁。另一方面,企业在研发过程中,参考和利用已有的技术成果,在更高的层次上进行研发必不可少。在参考现有专利文献的过程中,或多或少会使用到现有的一些技术,而这些技术如果被竞争对手利用专利手段进行了保护,一旦企业将成果应用于生产,则会招来竞争对手的法律诉讼,蒙受巨大经济损失。

因此,企业的知识产权部门需要经常从两个方面关注相关领域的专利文献:

(1)本企业的成果是否产生了侵权?将自身的成果与现有专利进行比较,寻找侵权的可能性,一旦发现可能侵权的情况,需要向技术部门预警,提醒他们及时修改技术方法,绕开侵权专利。

(2)竞争对手的专利是否对自己构成了侵权?需要知识产权部门将相关领域的最新专利与本企业的专利进行比对,一旦发现侵权行为,即将结果告之企业法务部门,由法务部门通过法律手段解决。目前,并没有一款专用的软件工具能够对上述内容进行自动比对,大部分的工作还是由人工完成的,工作量巨大且容易出错。实际上,侵权与反侵权检测的核心应为专利文献之间,特别是在实施方法、产品成分、含量、工艺等方面的相似性比对。因此,本文借鉴文档复制检测领域的相关方法,尝试利用本体模型,通过计算专利文献摘要之间的相似性,找到适用于专利相似检测的方法,利用计算机代替部分人工劳动,提高工作效率,降低出错几率。

2 相关研究

在专利相似检测领域,国内外学者展开了一系列的研究。Fujii等^{[ 1]}通过标点符号等切割符对专利权利要求项进行切分,并计算各个部分的相似度,经过累加后得到总体相似度,从而得出相似专利,最后他们利用该方法对日文专利进行了检索测试;Park等^{[ 2]}首先将专利文本文档转换为含技术特征格式的结构,再利用模式匹配的方式将其转化为主谓宾结构(SAO),最后借助WordNet对词汇进行相似度计算,得到相似专利;汪雪锋等^{[ 3]}利用向量空间模型进行中文专利的相似性检测,首先将专利的检索结果构造向量空间模型,并计算向量之间的相似度,最后通过相似度排序得到相似专利;马文姗等^{[ 4]}在分析中文专利权利要求书的特点及专利侵权判定原则的基础上,利用向量空间矩阵,提出一种改进的侵权判定方法,并将计算结果与已有的专利侵权结果进行对比验证。

相对于专利相似检测的方法,学界对于文档复制检测方面的研究更为深入。1995年,斯坦福大学的Brin等^{[ 5]}提出基于字符串匹配的文本复制检测算法,并开发了相应的系统(Copy Protection System, COPS);Shivakumar等^{[ 6]}在COPS系统的基础上使用空间向量模型对其进行改进,利用词频统计的方式来计算句子相似度,开发了SCAM(Stanford Copy Analysis Method)系统;Si等^{[ 7]}利用关键词统计的方法计算文本相似性,并将文档结构信息当作相似度计算的一部分,开发了CHECK原型系统。国内学者在文档相似度检测方面的研究开始于2000年之后,杨思春^{[ 8]}对基于词的相似度计算模型进行改进,引入同义词的概念,提高了准确率;秦新国^{[ 9]}在进行句子相似度计算时,兼顾文档的全局特征和结构信息,提高了检测准确率;王森等^{[ 10]}提出的论文相似度检测算法,将论文分为三层结构树,自上而下将论文逐步拆分,形成句子表示的叶节点,并最终由叶节点的相似度计算得到整片文档的相似度;孙伟等^{[ 11]}在基于句子的相似度检测算法的基础上,充分考虑中文文档的特点,提出一种新的面向中文文档的基于句子相似度的文档复制检测算法;张培颖^{[ 12]}把句子的词形、词序、结构、长度、距离和语义这6种特征相似度考虑进来,提出基于多种特征融合的句子相似度计算方法,在句子信息特征表述方面更加全面。

本文也是从文档相似度检测的研究中得到启发,尝试将相似度检测的算法引入专利侵权检测中,通过自动计算帮助用户缩小侵权检测范围,节约人力,提高效率。

3 方法描述

虽然专利相似检测方法与论文相似检测方法类似,但是由于专利本身的特殊性,并不能完全照搬论文相似检测算法。论文相似度检测目的是检测出抄袭的论文,将文档拆分成句子进行逐一匹配,最终得到文档的计算结果。而专利文献通过句子相似度计算得到文档相似度的难度较大,主要原因有:

(1)企业或个人在提出专利申请后,专利审查员需要将其与现有专利进行对比,以检查其新颖性。如果出现明显的抄袭现象则会被退回,无法进入申请公开阶段,更谈不上授权;

(2)随着科学技术的飞速发展,革命性的技术创新通常不太容易出现,大部分专利都是在原有专利和技术的基础上进行局部创新,必定借鉴了现有专利的内容。而申请人为了确保自己的专利能够顺利通过审查,同时最大程度地避免发生明显的侵权行为,会对专利文献的描述进行修改和重写,确保尽量不与参考的专利文献核心部分描述雷同。

因此,本文首先结合本体模型,利用TFIDF算法找出相似专利,再通过句子相似度匹配的方法找出专利文献中相似的部分,供用户参考。主要步骤为:预处理,将本体模型中的同级类使用统一的标识符表示;利用统一标识符,将已经过分词处理的文档集合进行词串替换;对于词串替换过的文档集合,分别计算每个词的TFIDF值,作为权重,形成语料向量空间模型(VSM);对于新输入的文本,经过分词、词串替换和TFIDF值计算后,利用余弦相似度与语料库中的文档进行对比,超过指定阈值的文档被提取出来,作为候选相似文档集;再利用有序最长公共子序列匹配算法将目标文本与候选相似文档集中的句子进行对比,提取相似的句子。流程如图1所示:

	Figure Option View Download New Window
	图1 专利相似检测流程

3.1 预处理

笔者认为,在本体模型中,共有上级类的同一级子类术语的意义是相近或相同的,在文本中能够进行替换。因此,可以利用相似术语对文档中相应的词语进行替换,替换后的文档使用同一个编码描述相同事物,避免同一事物不同叫法出现的统计误差,确保后续计算的准确性。

本文使用全球唯一标识符(Globally Unique Identifier, GUID)作为描述符号,对文献[13]获取的本体模型中每个术语进行描述。GUID的特点在于具有唯一性,它能够利用特定算法生成一个二进制长度为128位的数学标识符,每次生成的结果都不相同^{[ 14]}。利用GUID对本体模型中的术语进行替换,能够确保替换后的结果不存在重复的现象,以保证准确性,替换后的结果如表1所示:

表1 标识符替换结果片段

3.2 数据准备

在数据准备阶段,需要将已有的专利文献转换成向量空间模型,便于进行相似文档的计算。首先利用中国科学院计算技术研究所的ICTCLAS中文分词系统对文档进行分词,并引入停用词表,将分词后的停用词去除,形成分词结果序列;利用预处理阶段转换后的本体模型,将文档中相应的术语替换为编码格式;计算分词序列中每个词的TFIDF值,因为经过标识符的替换,TFIDF值的计算结果更能够反映出术语在文档集合中的意义;将TFIDF值作为特征权重,构成VSM模型。TFIDF值的计算方法比较常见,本文不再赘述。

3.3 文档相似检测

进行数据准备后,便可以利用建成的VSM模型检测新输入文本与语料库中文本的相似性。为保证与语料库的格式统一,输入文本同样也需要经过分词、标识符替换和TFIDF值计算等步骤,形成以分词结果为特征的文档向量。在进行相似度计算时,本文使用余弦相似度^{[ 15]}计算方法进行计算。

使用统计的方法计算文档相似度,能够从总体上把握文档间的相似情况。此外,由于本文使用专利的摘要部分进行计算,向量矩阵的维度较少,较专利全文的计算用时少很多。经过计算后,能够得到输入文档与其他文档的相似度,经过观察,本文将筛选阈值定为0.5,相似度大于0.5的文档被抽取出来,作为下一步句子相似度计算的候选文档集合,如表2所示:

表2 专利文档相似度计算结果样例

在表2中,笔者随机抽取一篇专利摘要进行计算,经过阈值筛选后,共得到6篇较为相似的专利文档。可以看出,与专利CN1329174类似的文档基本都描述了钢液净化剂方面的内容,说明在进行术语编码替换后,利用TFIDF的相似度对比准确率较高。

3.4 基于有序最长公共子序列匹配的句子相似度识别

在得到相似文档之后,还需要通过进一步分析找出相似的句子,并对其进行标注,提供给用户使用。最长公共子序列最先由Hirschberg^{[ 16]}提出,他认为最长公共子序列算法是计算句子之间相似度的有效手段。最长公共子序列的识别一般使用穷举搜索法,但是这种方法一般需要指数级的执行时间,不适用于大规模文档比对。本文对上述方法进行改进,使用有序最长公共子序列的方法^{[ 17]}对句子进行相似度判定,该方法先将文档中的特征按一定顺序进行排列,再利用最长公共子序列方法匹配。

定义1:待检测专利文档DT,表示用于专利相似检测的输入文档,dt为DT中的子句。

定义2:源专利文档集合ST,表示作为检测依据的来源文档,st为ST中的子句。

具体算法如下:

①对DT中的句子按照句号、分号等符号进行拆分,形成句子集合dt;

②对于ST中的每一篇文档ST_i,按照句号、分号等符号进行拆分,形成句子集合st;

③对dt进行中文分词处理,去除停用词后形成术语集合,按照字母顺序进行排列,得到有序术语集合X={x₁,x₂,……,x_m};

④对st进行中文分词处理,去除停用词,并按照字母顺序对术语进行排列,形成有序术语集合Y={y₁,y₂,……,y_m};

⑤确定最长公共子序列,将X={x₁,x₂,……,x_m}中的第1个词与Y={y₁,y₂,……,y_m}中的第1个词进行比对,如果相同,则继续比对下一个词,否则,从X中提取第2个词与Y中的第1个词进行比对,以此类推。若从第i个词开始,X与Y中的每个词都相同,则匹配成功,否则失败,再将X与ST_i+1中的st进行比对,直到发现相同的有序词串Z或匹配结束;

⑥由于专利文献的特殊性,不大可能出现类似论文抄袭中的连续词串匹配的情况,因此,只要出现了相同的词,最大公共子序列的长度都应当加1;

⑦利用公式计算X与Y的相似度;

sim(X,Y)=

⑧人工确定相似度阈值为t,如果sim(X,Y)≥t,则认为两句相似,输出Z;否则认为其不相似;

⑨计算结束。

4 实验结果及分析

为验证本文提出方法的效果,笔者从国家知识产权局下载了截至2010年12月国际专利分类号(International Patent Classification, IPC)为C21的共计6 435条专利数据作为实验语料进行测试,从中随机抽取20篇专利进行相似度计算。通过基于TFIDF算法的文档相似度计算和阈值0.5筛选,实验样本中共有5篇专利可以提取出相似专利,再利用基于最大有序公共子序列匹配算法,得到源文档与目标文档中每个句子的相似度,经阈值筛选后得到最终的相似句子。经观察,笔者设定句子相似度阈值为0.2。最后,使用准确率、召回率和F值作为评价指标对抽取结果进行评估,其中:

准确率(P)=检测相似且实际也相似的句子数/(检测相似且实际相似的句子数+实际相似但检测不相似的句子数)

召回率(R)=检测相似且实际也相似的句子数/(检测相似且实际也相似的句子数+检测相似但实际不相似的句子数)

F=(P×R×2)/(P+R)

测试结果如表3所示:

表3 相似专利检测结果

可以看出,虽然句子匹配的平均准确率为67.64%,但是由于文档相似度匹配的平均准确率高达97.14%,且经过筛选出来的专利文献数量较少,因此,即使句子匹配的准确率较低,也不太会影响后续的人工识别。而句子匹配准确率较低的原因可能是专利摘要的写法问题,申请人为了尽量避免对现有专利产生侵权,刻意改变了文字表述方式。

5 结语

专利侵权与反侵权检测一直是企业知识产权部门的重要工作,本文提出基于本体的相似概念标识符替换,合并相似概念,并通过对概念TFIDF值的测算,构建出向量空间模型,通过相似度计算算法获取每篇专利文档的相似度,经阈值筛选后得到候选相似专利文档集合,再利用基于有序最长公共子序列匹配的句子相似度识别方法,对候选相似专利文档集合中抽取每篇文档的子句进行进一步相似度匹配,从而最终得到相似子句集合。

实验证明,该方法对于相似专利文档的检测具有一定的效果,但是由于申请人为了避免对现有专利产生侵权,对摘要的写法进行了修改,所以句子相似匹配的准确率较低。但是申请人为了保护自己的权利,在专利的权利要求项中会准确体现需要保护的技术,在今后的研究中,笔者将把专利文献的权利要求加入实验语料,以提高相似子句的抽取准确率。

参考文献

View Option

[1]	Fujii A, Ishikawa T. Document Structure Analysis for the NTCIR-5 Patent Retrieval[C]. In: Proceedings of the 5th NTCIR Workshop on Evaluation of Information Access Technologies, Information Retrieval, Question Answering and Cross-Lingual Information Access, Tokyo, Japan. 2005. [本文引用:1]
[2]	Park H, Yoon J, Kim K. Identifying Patent Infringement Using SAO Based Semantic Technological Similarities[J]. Scientometrics, 2012, 90(2): 515-529. [本文引用:1] [JCR: 2.133]
[3]	汪雪锋, 刘玉琴, 刘佳. 中文专利侵权检索模型研究[J]. 计算机工程与应用, 2009, 45(9): 212-215. (Wang Xuefeng, Liu Yuqin, Liu Jia. Research on Chinese Patent Infringement Retrieval Model[J]. Computer Engineering and Applications, 2009, 45(9): 212-215. ) [本文引用:1] [CJCR: 0.457]
[4]	马文姗, 赵海宁, 翟东升. 中文专利侵权检索模型研究[J]. 情报杂志, 2012 (4): 175-179. (Ma Wenshan, Zhao Haining, Zhai Dongsheng. Research on Chinese Patent Infringement Retrieval Model[J]. Journal of Intelligence, 2012 (4): 175-179. ) [本文引用:1] [CJCR: 0.951]
[5]	Brin S, Davis J, Garcia-Molina H. Copy Detection Mechanisms for Digital Documents [C]. In: Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data (SIGMOD’95). New York: ACM, 1995: 398-409. [本文引用:1]
[6]	Shivakumar N, Garcia-Molina H. SCAM: A Copy Detection Mechanism for Digital Documents[C]. In: Proceedings of the 2nd International Conference on Theory and Practice of Digital Libraries, Austin, Texas, USA. 1995. [本文引用:1]
[7]	Si A, Leong H V, Lau R W H. CHECK: A Document Plagiarism Detection System[C]. In: Proceedings of the 1997 ACM Symposium on Applied Computing (SAC’97). New York: ACM, 1997: 70-77. [本文引用:1]
[8]	杨思春. 一种改进的句子相似度计算模型[J]. 电子科技大学学报, 2006, 35(6): 956-959. (Yang Sichun. An Improved Model for Sentence Similarity Computing[J]. Journal of University of Electronic Science and Technology of China, 2006, 35(6): 956-959. ) [本文引用:1]
[9]	秦新国. 基于句子相似度的文档复制检测算法研究[J]. 现代图书情报技术, 2007(11): 63-66. (Qin Xinguo. Research on the Copy Detection Based on the Similarity of Sentences[J]. New Technology of Library and Information Service, 2007(11): 63-66. ) [本文引用:1] [CJCR: 1.073]
[10]	王森, 王宇. 基于文本结构树的论文复制检测算法[J]. 现代图书情报技术, 2009(10): 50-55. (Wang Sen, Wang Yu. Algorithm of the Text Copy Detection Based on Text Structure Tree[J]. New Technology of Library and Information Service, 2009(10): 50-55. ) [本文引用:1] [CJCR: 1.073]
[11]	孙伟, 邢长征. 关于中文文档复制检测算法的改进[J]. 计算机工程与科学, 2010, 32(8): 101-103. (Sun Wei, Xing Changzheng. An Improved Copy Detection Algorithm for the Chinese Documents[J]. Computer Engineering and Science, 2010, 32(8): 101-103. ) [本文引用:1] [CJCR: 0.3798]
[12]	张培颖. 多特征融合的语句相似度计算模型[J]. 计算机工程与应用, 2010, 46(26): 136-137. (Zhang Peiying. Model for Sentence Similarity Computing Based on Multi-features Combination[J]. Computer Engineering and Applications, 2010, 46(26): 136-137. ) [本文引用:1] [CJCR: 0.457]
[13]	谷俊, 朱紫阳. 基于聚类算法的本体层次关系获取研究[J]. 现代图书情报技术, 2011(12): 46-51. (Gu Jun, Zhu Ziyang. Study on Ontology Hierarchy Relation Induction on Clustering Algorithm[J]. New Technology of Library and Information Service, 2011(12): 46-51. ) [本文引用:1] [CJCR: 1.073]
[14]	GUID[EB/OL]. [ 2012-05-27]. GUID[EB/OL]. [2012-05-27]. http://baike.baidu.com/view/185358.htm. [本文引用:1]
[15]	Wikipedia. Cosine Similarity[EB/OL]. [2012-05-27]. http://en.wikipedia.org/wiki/Cosine_similarity. [本文引用:1]
[16]	Hirschberg D S. Algorithms for the Longest Common Subsequence Problem[J]. Journal of the ACM, 1977, 24(4): 664-675. [本文引用:1] [JCR: 2.37]
[17]	冷强奎, 秦玉平, 王春立. 基于句子相似度的论文抄袭检测模型研究[J]. 计算机工程与应用, 2011, 47(24): 199-201. (Leng Qiangkui, Qin Yuping, Wang Chunli. Study on Model for Plagiarism-detection of Scientific Papers Based on Sentence Similarity[J]. Computer Engineering and Applications, 2011, 47(24): 199-201. ) (作者E-mail: qfzhou@baosteel. com) [本文引用:1] [CJCR: 0.457]

2005

0.0

... Fujii等^[1]通过标点符号等切割符对专利权利要求项进行切分,并计算各个部分的相似度,经过累加后得到总体相似度,从而得出相似专利,最后他们利用该方法对日文专利进行了检索测试 ...

2012

2.133

0.0

. 2012, 90(2):515-529 DOI:10.1007/s11192-011-0522-7

Identifying Patent Infringement Using SAO Based Semantic Technological Similarities

1. Department of Technology and Innovation Management, Pohang University of Science and Technology, San 31, Hyoja-dong, Nam-gu, Pohang, Kyungbuk, 790-784, Republic of Korea 2. Department of Industrial and Management Engineering, Pohang University of Science and Technology, San 31, Hyoja-dong, Nam-gu, Pohang, Kyungbuk, 790-784, Republic of Korea

Abstract Companies should investigate possible patent infringement and cope with potential risks because patent litigation may have a tremendous financial impact. An important factor to identify the possibility of patent infringement is the technological similarity among patents, so this paper considered technological similarity as a criterion for judging the possibility of infringement. Technological similarities can be measured by transforming patent documents into abstracted forms which contain specific technological key-findings and structural relationships among technological components in the invention. Although keyword-based technological similarity has been widely adopted for patent analysis related research, it is inadequate for identifying patent infringement because a keyword vector cannot reflect specific technological key-findings and structural relationships among technological components. As a remedy, this paper exploited a subject–action–object (SAO) based semantic technological similarity. An SAO structure explicitly describes the structural relationships among technological components in the patent, and the set of SAO structures is considered to be a detailed picture of the inventor’s expertise, which is the specific key-findings in the patent. Therefore, an SAO based semantic technological similarity can identify patent infringement. Semantic similarity between SAO structures is automatically measured using SAO based semantic similarity measurement method using WordNet, and the technological relationships among patents were mapped onto a 2-dimensional space using multidimensional scaling (MDS). Furthermore, a clustering algorithm is used to automatically suggest possible patent infringement cases, allowing large sets of patents to be handled with minimal effort by human experts. The proposed method will be verified by detecting real patent infringement in prostate cancer treatment technology, and we expect this method to relieve human experts’ work in identifying patent infringement.

... Park等^[2]首先将专利文本文档转换为含技术特征格式的结构,再利用模式匹配的方式将其转化为主谓宾结构(SAO),最后借助WordNet对词汇进行相似度计算,得到相似专利 ...

2009

0.0

0.457

. 2009, 45(9):212-215 DOI:10.3778/j.issn.1002-8331.2009.09.062

Research on Chinese Patent Infringement Retrieval Model

1.School of Management and Economics，Beijing Institute of Technology，Beijing 100081，China 2.Software and Integrated Circuit Promotion Center，Ministry of Industry and Information Technology Beijing 100038，China

Based on the structure information of patent’s claims，the model of Chinese patent infringement retrieval is proposed.In the model，Chinese patents are reclassified firstly by the forty “split words” which are extracted from patent database from view of retrieval.Different types of word are selected to construct vector space.An empirical patent infringement illustration and contrast experiment about integrate circuit technology in China are conducted and the results show this approach is effective.

结合中文专利权利要求的结构特征，首次将中文专利按照“分割词”重新分类，以重新划分的“新类别”进行词性选择，构造向量空间，设计了中文专利侵权检索模型，通过我国集成电路封装技术领域的发明专利进行技术侵权检索实证分析与对比实验，实验结果显示该模型的检索效果明显优于一般的侵权检索方法。

... 汪雪锋等^[3]利用向量空间模型进行中文专利的相似性检测,首先将专利的检索结果构造向量空间模型,并计算向量之间的相似度,最后通过相似度排序得到相似专利 ...

2012

0.0

0.951

... 马文姗等^[4]在分析中文专利权利要求书的特点及专利侵权判定原则的基础上,利用向量空间矩阵,提出一种改进的侵权判定方法,并将计算结果与已有的专利侵权结果进行对比验证 ...

1995

0.0

... 1995年,斯坦福大学的Brin等^[5]提出基于字符串匹配的文本复制检测算法,并开发了相应的系统(Copy Protection System, COPS) ...

1995

0.0

... Shivakumar等^[6]在COPS系统的基础上使用空间向量模型对其进行改进,利用词频统计的方式来计算句子相似度,开发了SCAM(Stanford Copy Analysis Method)系统 ...

1997

0.0

... Si等^[7]利用关键词统计的方法计算文本相似性,并将文档结构信息当作相似度计算的一部分,开发了CHECK原型系统 ...

2006

0.0

. 2006, 35(6):956-959

An Improved Model for Sentence Similarity Computing

在基于实例的机器翻译中,句子相似度计算是实例匹配的有效机制.该文对基于相同词的句子相似模型作进一步的改进,包括关键词抽取,以及在句子相似度的定义中引入同义词的情形.实验结果表明,改进方法比原方法具有较高的准确率.

... 国内学者在文档相似度检测方面的研究开始于2000年之后,杨思春^[8]对基于词的相似度计算模型进行改进,引入同义词的概念,提高了准确率 ...

0.0

1.073

. , 2007(11):63-66

Research on the Copy Detection Based on the Similarity of Sentences

(Dean’s Office of Nanjing Audit College,Nanjing 210029,China)

In the paper,a new document copy detection algorithm based on the similarity of the sentences is proposed.In order to improve the detection accuracy,the authors not only emphasize on the whole document,but also on the structure of the document.In the end,experiments and comparison are taken between the new algorithm and other typical algorithms,the result shows that it is feasible.

提出一种基于句子相似度的文档复制检测技术，在抓住文档的全局特征的同时又兼顾文档的结构信息，克服以往检测算法两者不可兼顾的缺陷，提高检测精度。最后，给出该算法与其他算法检测结果的比较情况。实验证明，该算法是可行的。

... 秦新国^[9]在进行句子相似度计算时,兼顾文档的全局特征和结构信息,提高了检测准确率 ...

0.0

1.073

. , 2009(10):50-55

Algorithm of the Text Copy Detection Based on Text Structure Tree

（School of Management, Dalian University of Technology, Dalian 116024, China）

Concerning the present problem of a growing academic plagiarism，the algorithm of the text copy detection based on text structure tree is put forward．A paper can be divided into a construction tree with three layers：the uppermost root node is a text；branch node represents a sentence bag；leaf node denotes sentence.According to synthetic similarity and a function this paper computes sentence similarity，and similarity of leaf node is based on maximal sentence similarity．At the same time，the upper similarity is derived from the adjacent lower similarity．Finally，papers of China Journal Full-Text Database is chosen for a test，and the experimental result shows that this algorithm is feasible and efficient．

针对目前学术界抄袭现象日趋严重的问题，提出基于文本结构树的论文复制检测算法。将一篇论文分为三层的结构树：最上层的根节点表示整篇论文，分支节点表示句子包，叶节点表示句子。根据一个函数和句子的综合相似度计算句子相似度，以最大句子相似度计算叶节点相似度，上层节点的相似度由相邻的下层节点相似度计算得到。选用中国期刊全文数据库中的论文进行测试，实验结果证明该算法是可行的、高效的。

... 王森等^[10]提出的论文相似度检测算法,将论文分为三层结构树,自上而下将论文逐步拆分,形成句子表示的叶节点,并最终由叶节点的相似度计算得到整片文档的相似度 ...

2010

0.0

0.3798

. 2010, 32(8):101-103

An Improved Copy Detection Algorithm for the Chinese Documents

文本复制检测是这样一种行为:它判断一个文档的内容是否抄袭、剽窃或者复制于另外一个或者多个文档.文档复制检测领域的算法有很多,基于句子相似度的检测算法结合了基于字符串比较的方法和基于词频统计的方法的优点,在抓住了文档的全局特征的同时又能兼顾文档的结构信息,是一种很好的算法.本文在该算法的基础上对相似度算法进行了改进,提出了一种新的面向中文文档的基于句子相似度的文档复制检测算法.本算法充分考虑了中文文档的特点,选择句子作为文档的特征单元, 并解决了需要人工设定阈值的问题,提高了检测精度.实验证明,无论是在效率上,还是在准确性上,该算法都是可行的.

... 孙伟等^[11]在基于句子的相似度检测算法的基础上,充分考虑中文文档的特点,提出一种新的面向中文文档的基于句子相似度的文档复制检测算法 ...

2010

0.0

0.457

. 2010, 46(26):136-137 DOI:10.3778/j.issn.1002-8331.2010.26.042

Model for Sentence Similarity Computing Based on Multi-features Combination

College of Computer & Communication Engineering，University of Petroleum（East China），Dongying，Shandong 257061，China

Sentence similarity computing is very important in the field of natural language processing.This paper proposes a sentence similarity computing model based on the multi-features combination，it combines the word-form，word-order，structure，length，distance and semantic of the sentences to calculate the similarity between sentences，using the weight to describe the contribution of each feature of the sentence，then gets a better experiment result.Experiment result shows that this approach can fully describe the features of the sentence，and then can get the more accurate result.

句子的相似度计算在自然语言处理的各个领域都占有十分重要的地位。提出了一种多特征融合的句子相似度计算模型，该计算方法把句子的词形、词序、结构、长度、距离和语义这6种特征相似度考虑进来，通过对不同的特征赋予不同的权重来调节各个特征对于句子相似度的贡献，从而使计算结果得到最优。实验结果表明，该方法与其他方法相比，描述句子的信息更加全面，在计算句子相似度方面具有较高的准确率。

... 张培颖^[12]把句子的词形、词序、结构、长度、距离和语义这6种特征相似度考虑进来,提出基于多种特征融合的句子相似度计算方法,在句子信息特征表述方面更加全面 ...

0.0

1.073

. , 2011(12):46-51

Study on Ontology Hierarchy Relation Induction on Clustering Algorithm

1. Department of Information Management, Nanjing University, Nanjing 210093, China; 2. Baoshan Iron and Steel Company Ltd., Shanghai 201900, China; 3. Library of Nanjing University of Information Science and Technology, Nanjing 210044, China

This paper proposes a method,which clusters the initial terms collection by ant colony algorithm and clusters the results hierarchy by K-means algorithm, then gets the labels of classes using the comprehensive similarity calculation, finishes the term hierarchy relation’s structure at last. Parts of experimental results are appraised and analyzed by domain experts.

提出利用蚁群聚类方法进行初始聚类,通过K-means聚类算法对初始聚类的结果进一步分层聚类,并结合术语综合相似度计算的方式提取每个类的标签,从而完成术语层次关系的构建。最后抽取部分实验结果,由领域专家对其进行评价,并对结果进行分析。

2012

0.0

... GUID的特点在于具有唯一性,它能够利用特定算法生成一个二进制长度为128位的数学标识符,每次生成的结果都不相同^[14] ...

2012

0.0

... 在进行相似度计算时,本文使用余弦相似度^[15]计算方法进行计算 ...

1977

2.37

0.0

... 最长公共子序列最先由Hirschberg^[16]提出,他认为最长公共子序列算法是计算句子之间相似度的有效手段 ...

2011

0.0

0.457

. 2011, 47(24):199-201

Study on Model for Plagiarism-detection of Scientific Papers Based on Sentence Similarity

1.College of Information Science and Engineering，Bohai University，Jinzhou，Liaoning 121000，China 2.College of Information Science and Technology，Dalian Maritime University，Dalian，Liaoning 116026，China

A new model for plagiarism-identification of scientific papers based on sentence similarity is presented.Large-scale texts are quickly detected with Local Word-Frequency Fingerprint（LWFF） to find suspected plagiarism ones.Sentence similarity is computed according to the Longest Sorted Common Subsequence（LSCS） between source texts and destination texts.The algorithm can mark plagiarism details，and show evidence.The identification experiments on the SOGOU-T database are done with this model.The results show it has higher information mining capacity，and partly overcomes the shortage of lower precision on existing plagiarism-identification of scientific papers.

提出一种基于句子相似度的论文抄袭检测模型。利用局部词频指纹算法对大规模文档进行快速检测，找出疑似抄袭文档。根据最长有序公共子序列算法计算句子间的相似度，并标注抄袭细节，给出抄袭依据。在标准中文数据集SOGOU-T上进行的实验表明，该模型具有较强的局部信息挖掘能力，在一定程度上克服了现有的论文抄袭检测算法精度不高的缺点。

... 本文对上述方法进行改进,使用有序最长公共子序列的方法^[17]对句子进行相似度判定,该方法先将文档中的特征按一定顺序进行排列,再利用最长公共子序列方法匹配 ...