似专利检测研究
周群芳
宝山钢铁股份有限公司 上海 201900
摘要

为从专利库中获取有效的相似专利,在基于本体的标识替换基础上,合并相似概念,通过对概念TFIDF值的测算,构建向量空间模型,计算每篇专利文档的相似度,并利用基于有序最长公共子序列匹配的句子相似度识别方法,对前面的相似专利文档抽取结果做进一步匹配,最终得到相似子句集合,以帮助企业情报人员实现相似专利的有效检测。

关键词: 本体; 相似专利检测; 专利侵权
中图分类号:TP391
Study on Detection Method of Similarity Patents
Zhou Qunfang
Baoshan Iron and Steel Co. Ltd.Shanghai 201900, China
Abstract

In order to get similar patents from patent databases, based on merging similar concepts on Ontology-based identification replacement, this paper constructs a vector space model by estimating the TFIDF values of the concepts, and eventually gets a collection of similar clause on similarity matching sentences by orderly longest common subsequence identification method to match the results of previous similar patent document extraction. This method can help enterprises intelligence detect similar patents effectively.

Keyword: Ontology; Similar patent detection; Patent infringement
1 引言

专利侵权与反侵权,在企业保护技术、占领市场等方面,有着十分重要的意义。在当今激烈的市场竞争中,如果企业需要在某个技术上保持优势并能够占领市场,主要手段便是进行专利申请,利用法律手段保护自己的研究成果。而专利文献是公开文献,一旦专利的法律状态进入公开阶段,竞争对手便可以进行仿制,而且有可能在其基础上对技术进行改进和提高,对企业的技术保护构成威胁。另一方面,企业在研发过程中,参考和利用已有的技术成果,在更高的层次上进行研发必不可少。在参考现有专利文献的过程中,或多或少会使用到现有的一些技术,而这些技术如果被竞争对手利用专利手段进行了保护,一旦企业将成果应用于生产,则会招来竞争对手的法律诉讼,蒙受巨大经济损失。

因此,企业的知识产权部门需要经常从两个方面关注相关领域的专利文献:

(1)本企业的成果是否产生了侵权?将自身的成果与现有专利进行比较,寻找侵权的可能性,一旦发现可能侵权的情况,需要向技术部门预警,提醒他们及时修改技术方法,绕开侵权专利。

(2)竞争对手的专利是否对自己构成了侵权?需要知识产权部门将相关领域的最新专利与本企业的专利进行比对,一旦发现侵权行为,即将结果告之企业法务部门,由法务部门通过法律手段解决。 目前,并没有一款专用的软件工具能够对上述内容进行自动比对,大部分的工作还是由人工完成的,工作量巨大且容易出错。实际上,侵权与反侵权检测的核心应为专利文献之间,特别是在实施方法、产品成分、含量、工艺等方面的相似性比对。因此,本文借鉴文档复制检测领域的相关方法,尝试利用本体模型,通过计算专利文献摘要之间的相似性,找到适用于专利相似检测的方法,利用计算机代替部分人工劳动,提高工作效率,降低出错几率。

2 相关研究

在专利相似检测领域,国内外学者展开了一系列的研究。Fujii等[ 1]通过标点符号等切割符对专利权利要求项进行切分,并计算各个部分的相似度,经过累加后得到总体相似度,从而得出相似专利,最后他们利用该方法对日文专利进行了检索测试;Park等[ 2]首先将专利文本文档转换为含技术特征格式的结构,再利用模式匹配的方式将其转化为主谓宾结构(SAO),最后借助WordNet对词汇进行相似度计算,得到相似专利;汪雪锋等[ 3]利用向量空间模型进行中文专利的相似性检测,首先将专利的检索结果构造向量空间模型,并计算向量之间的相似度,最后通过相似度排序得到相似专利;马文姗等[ 4]在分析中文专利权利要求书的特点及专利侵权判定原则的基础上,利用向量空间矩阵,提出一种改进的侵权判定方法,并将计算结果与已有的专利侵权结果进行对比验证。

相对于专利相似检测的方法,学界对于文档复制检测方面的研究更为深入。1995年,斯坦福大学的Brin等[ 5]提出基于字符串匹配的文本复制检测算法,并开发了相应的系统(Copy Protection System, COPS);Shivakumar等[ 6]在COPS系统的基础上使用空间向量模型对其进行改进,利用词频统计的方式来计算句子相似度,开发了SCAM(Stanford Copy Analysis Method)系统;Si等[ 7]利用关键词统计的方法计算文本相似性,并将文档结构信息当作相似度计算的一部分,开发了CHECK原型系统。国内学者在文档相似度检测方面的研究开始于2000年之后,杨思春[ 8]对基于词的相似度计算模型进行改进,引入同义词的概念,提高了准确率;秦新国[ 9]在进行句子相似度计算时,兼顾文档的全局特征和结构信息,提高了检测准确率;王森等[ 10]提出的论文相似度检测算法,将论文分为三层结构树,自上而下将论文逐步拆分,形成句子表示的叶节点,并最终由叶节点的相似度计算得到整片文档的相似度;孙伟等[ 11]在基于句子的相似度检测算法的基础上,充分考虑中文文档的特点,提出一种新的面向中文文档的基于句子相似度的文档复制检测算法;张培颖[ 12]把句子的词形、词序、结构、长度、距离和语义这6种特征相似度考虑进来,提出基于多种特征融合的句子相似度计算方法,在句子信息特征表述方面更加全面。

本文也是从文档相似度检测的研究中得到启发,尝试将相似度检测的算法引入专利侵权检测中,通过自动计算帮助用户缩小侵权检测范围,节约人力,提高效率。

3 方法描述

虽然专利相似检测方法与论文相似检测方法类似,但是由于专利本身的特殊性,并不能完全照搬论文相似检测算法。论文相似度检测目的是检测出抄袭的论文,将文档拆分成句子进行逐一匹配,最终得到文档的计算结果。而专利文献通过句子相似度计算得到文档相似度的难度较大,主要原因有:

(1)企业或个人在提出专利申请后,专利审查员需要将其与现有专利进行对比,以检查其新颖性。如果出现明显的抄袭现象则会被退回,无法进入申请公开阶段,更谈不上授权;

(2)随着科学技术的飞速发展,革命性的技术创新通常不太容易出现,大部分专利都是在原有专利和技术的基础上进行局部创新,必定借鉴了现有专利的内容。而申请人为了确保自己的专利能够顺利通过审查,同时最大程度地避免发生明显的侵权行为,会对专利文献的描述进行修改和重写,确保尽量不与参考的专利文献核心部分描述雷同。

因此,本文首先结合本体模型,利用TFIDF算法找出相似专利,再通过句子相似度匹配的方法找出专利文献中相似的部分,供用户参考。主要步骤为:预处理,将本体模型中的同级类使用统一的标识符表示;利用统一标识符,将已经过分词处理的文档集合进行词串替换;对于词串替换过的文档集合,分别计算每个词的TFIDF值,作为权重,形成语料向量空间模型(VSM);对于新输入的文本,经过分词、词串替换和TFIDF值计算后,利用余弦相似度与语料库中的文档进行对比,超过指定阈值的文档被提取出来,作为候选相似文档集;再利用有序最长公共子序列匹配算法将目标文本与候选相似文档集中的句子进行对比,提取相似的句子。流程如图1所示:

图1 专利相似检测流程

3.1 预处理

笔者认为,在本体模型中,共有上级类的同一级子类术语的意义是相近或相同的,在文本中能够进行替换。因此,可以利用相似术语对文档中相应的词语进行替换,替换后的文档使用同一个编码描述相同事物,避免同一事物不同叫法出现的统计误差,确保后续计算的准确性。

本文使用全球唯一标识符(Globally Unique Identifier, GUID)作为描述符号,对文献[13]获取的本体模型中每个术语进行描述。GUID的特点在于具有唯一性,它能够利用特定算法生成一个二进制长度为128位的数学标识符,每次生成的结果都不相同[ 14]。利用GUID对本体模型中的术语进行替换,能够确保替换后的结果不存在重复的现象,以保证准确性,替换后的结果如表1所示:

表1 标识符替换结果片段
3.2 数据准备

在数据准备阶段,需要将已有的专利文献转换成向量空间模型,便于进行相似文档的计算。首先利用中国科学院计算技术研究所的ICTCLAS中文分词系统对文档进行分词,并引入停用词表,将分词后的停用词去除,形成分词结果序列;利用预处理阶段转换后的本体模型,将文档中相应的术语替换为编码格式;计算分词序列中每个词的TFIDF值,因为经过标识符的替换,TFIDF值的计算结果更能够反映出术语在文档集合中的意义;将TFIDF值作为特征权重,构成VSM模型。TFIDF值的计算方法比较常见,本文不再赘述。

3.3 文档相似检测

进行数据准备后,便可以利用建成的VSM模型检测新输入文本与语料库中文本的相似性。为保证与语料库的格式统一,输入文本同样也需要经过分词、标识符替换和TFIDF值计算等步骤,形成以分词结果为特征的文档向量。在进行相似度计算时,本文使用余弦相似度[ 15]计算方法进行计算。

使用统计的方法计算文档相似度,能够从总体上把握文档间的相似情况。此外,由于本文使用专利的摘要部分进行计算,向量矩阵的维度较少,较专利全文的计算用时少很多。经过计算后,能够得到输入文档与其他文档的相似度,经过观察,本文将筛选阈值定为0.5,相似度大于0.5的文档被抽取出来,作为下一步句子相似度计算的候选文档集合,如表2所示:

表2 专利文档相似度计算结果样例

表2中,笔者随机抽取一篇专利摘要进行计算,经过阈值筛选后,共得到6篇较为相似的专利文档。可以看出,与专利CN1329174类似的文档基本都描述了钢液净化剂方面的内容,说明在进行术语编码替换后,利用TFIDF的相似度对比准确率较高。

3.4 基于有序最长公共子序列匹配的句子相似度识别

在得到相似文档之后,还需要通过进一步分析找出相似的句子,并对其进行标注,提供给用户使用。最长公共子序列最先由Hirschberg[ 16]提出,他认为最长公共子序列算法是计算句子之间相似度的有效手段。最长公共子序列的识别一般使用穷举搜索法,但是这种方法一般需要指数级的执行时间,不适用于大规模文档比对。本文对上述方法进行改进,使用有序最长公共子序列的方法[ 17]对句子进行相似度判定,该方法先将文档中的特征按一定顺序进行排列,再利用最长公共子序列方法匹配。

定义1:待检测专利文档DT,表示用于专利相似检测的输入文档,dt为DT中的子句。

定义2:源专利文档集合ST,表示作为检测依据的来源文档,st为ST中的子句。

具体算法如下:

①对DT中的句子按照句号、分号等符号进行拆分,形成句子集合dt;

②对于ST中的每一篇文档STi,按照句号、分号等符号进行拆分,形成句子集合st;

③对dt进行中文分词处理,去除停用词后形成术语集合,按照字母顺序进行排列,得到有序术语集合X={x1,x2,……,xm};

④对st进行中文分词处理,去除停用词,并按照字母顺序对术语进行排列,形成有序术语集合Y={y1,y2,……,ym};

⑤确定最长公共子序列,将X={x1,x2,……,xm}中的第1个词与Y={y1,y2,……,ym}中的第1个词进行比对,如果相同,则继续比对下一个词,否则,从X中提取第2个词与Y中的第1个词进行比对,以此类推。若从第i个词开始,X与Y中的每个词都相同,则匹配成功,否则失败,再将X与STi+1中的st进行比对,直到发现相同的有序词串Z或匹配结束;

⑥由于专利文献的特殊性,不大可能出现类似论文抄袭中的连续词串匹配的情况,因此,只要出现了相同的词,最大公共子序列的长度都应当加1;

⑦利用公式计算X与Y的相似度;

sim(X,Y)=

⑧人工确定相似度阈值为t,如果sim(X,Y)≥t,则认为两句相似,输出Z;否则认为其不相似;

⑨计算结束。

4 实验结果及分析

为验证本文提出方法的效果,笔者从国家知识产权局下载了截至2010年12月国际专利分类号(International Patent Classification, IPC)为C21的共计6 435条专利数据作为实验语料进行测试,从中随机抽取20篇专利进行相似度计算。通过基于TFIDF算法的文档相似度计算和阈值0.5筛选,实验样本中共有5篇专利可以提取出相似专利,再利用基于最大有序公共子序列匹配算法,得到源文档与目标文档中每个句子的相似度,经阈值筛选后得到最终的相似句子。经观察,笔者设定句子相似度阈值为0.2。最后,使用准确率、召回率和F值作为评价指标对抽取结果进行评估,其中:

准确率(P)=检测相似且实际也相似的句子数/(检测相似且实际相似的句子数+实际相似但检测不相似的句子数)

召回率(R)=检测相似且实际也相似的句子数/(检测相似且实际也相似的句子数+检测相似但实际不相似的句子数)

F=(P×R×2)/(P+R)

测试结果如表3所示:

表3 相似专利检测结果

可以看出,虽然句子匹配的平均准确率为67.64%,但是由于文档相似度匹配的平均准确率高达97.14%,且经过筛选出来的专利文献数量较少,因此,即使句子匹配的准确率较低,也不太会影响后续的人工识别。而句子匹配准确率较低的原因可能是专利摘要的写法问题,申请人为了尽量避免对现有专利产生侵权,刻意改变了文字表述方式。

5 结语

专利侵权与反侵权检测一直是企业知识产权部门的重要工作,本文提出基于本体的相似概念标识符替换,合并相似概念,并通过对概念TFIDF值的测算,构建出向量空间模型,通过相似度计算算法获取每篇专利文档的相似度,经阈值筛选后得到候选相似专利文档集合,再利用基于有序最长公共子序列匹配的句子相似度识别方法,对候选相似专利文档集合中抽取每篇文档的子句进行进一步相似度匹配,从而最终得到相似子句集合。

实验证明,该方法对于相似专利文档的检测具有一定的效果,但是由于申请人为了避免对现有专利产生侵权,对摘要的写法进行了修改,所以句子相似匹配的准确率较低。但是申请人为了保护自己的权利,在专利的权利要求项中会准确体现需要保护的技术,在今后的研究中,笔者将把专利文献的权利要求加入实验语料,以提高相似子句的抽取准确率。

参考文献
[1] Fujii A, Ishikawa T. Document Structure Analysis for the NTCIR-5 Patent Retrieval[C]. In: Proceedings of the 5th NTCIR Workshop on Evaluation of Information Access Technologies, Information Retrieval, Question Answering and Cross-Lingual Information Access, Tokyo, Japan. 2005. [本文引用:1]
[2] Park H, Yoon J, Kim K. Identifying Patent Infringement Using SAO Based Semantic Technological Similarities[J]. Scientometrics, 2012, 90(2): 515-529. [本文引用:1] [JCR: 2.133]
[3] 汪雪锋, 刘玉琴, 刘佳. 中文专利侵权检索模型研究[J]. 计算机工程与应用, 2009, 45(9): 212-215.
(Wang Xuefeng, Liu Yuqin, Liu Jia. Research on Chinese Patent Infringement Retrieval Model[J]. Computer Engineering and Applications, 2009, 45(9): 212-215. ) [本文引用:1] [CJCR: 0.457]
[4] 马文姗, 赵海宁, 翟东升. 中文专利侵权检索模型研究[J]. 情报杂志, 2012 (4): 175-179.
(Ma Wenshan, Zhao Haining, Zhai Dongsheng. Research on Chinese Patent Infringement Retrieval Model[J]. Journal of Intelligence, 2012 (4): 175-179. ) [本文引用:1] [CJCR: 0.951]
[5] Brin S, Davis J, Garcia-Molina H. Copy Detection Mechanisms for Digital Documents [C]. In: Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data (SIGMOD’95). New York: ACM, 1995: 398-409. [本文引用:1]
[6] Shivakumar N, Garcia-Molina H. SCAM: A Copy Detection Mechanism for Digital Documents[C]. In: Proceedings of the 2nd International Conference on Theory and Practice of Digital Libraries, Austin, Texas, USA. 1995. [本文引用:1]
[7] Si A, Leong H V, Lau R W H. CHECK: A Document Plagiarism Detection System[C]. In: Proceedings of the 1997 ACM Symposium on Applied Computing (SAC’97). New York: ACM, 1997: 70-77. [本文引用:1]
[8] 杨思春. 一种改进的句子相似度计算模型[J]. 电子科技大学学报, 2006, 35(6): 956-959.
(Yang Sichun. An Improved Model for Sentence Similarity Computing[J]. Journal of University of Electronic Science and Technology of China, 2006, 35(6): 956-959. ) [本文引用:1]
[9] 秦新国. 基于句子相似度的文档复制检测算法研究[J]. 现代图书情报技术, 2007(11): 63-66.
(Qin Xinguo. Research on the Copy Detection Based on the Similarity of Sentences[J]. New Technology of Library and Information Service, 2007(11): 63-66. ) [本文引用:1] [CJCR: 1.073]
[10] 王森, 王宇. 基于文本结构树的论文复制检测算法[J]. 现代图书情报技术, 2009(10): 50-55.
(Wang Sen, Wang Yu. Algorithm of the Text Copy Detection Based on Text Structure Tree[J]. New Technology of Library and Information Service, 2009(10): 50-55. ) [本文引用:1] [CJCR: 1.073]
[11] 孙伟, 邢长征. 关于中文文档复制检测算法的改进[J]. 计算机工程与科学, 2010, 32(8): 101-103.
(Sun Wei, Xing Changzheng. An Improved Copy Detection Algorithm for the Chinese Documents[J]. Computer Engineering and Science, 2010, 32(8): 101-103. ) [本文引用:1] [CJCR: 0.3798]
[12] 张培颖. 多特征融合的语句相似度计算模型[J]. 计算机工程与应用, 2010, 46(26): 136-137.
(Zhang Peiying. Model for Sentence Similarity Computing Based on Multi-features Combination[J]. Computer Engineering and Applications, 2010, 46(26): 136-137. ) [本文引用:1] [CJCR: 0.457]
[13] 谷俊, 朱紫阳. 基于聚类算法的本体层次关系获取研究[J]. 现代图书情报技术, 2011(12): 46-51.
(Gu Jun, Zhu Ziyang. Study on Ontology Hierarchy Relation Induction on Clustering Algorithm[J]. New Technology of Library and Information Service, 2011(12): 46-51. ) [本文引用:1] [CJCR: 1.073]
[14] GUID[EB/OL]. [ 2012-05-27]. GUID[EB/OL]. [2012-05-27]. http://baike.baidu.com/view/185358.htm. [本文引用:1]
[15] Wikipedia. Cosine Similarity[EB/OL]. [2012-05-27]. http://en.wikipedia.org/wiki/Cosine_similarity. [本文引用:1]
[16] Hirschberg D S. Algorithms for the Longest Common Subsequence Problem[J]. Journal of the ACM, 1977, 24(4): 664-675. [本文引用:1] [JCR: 2.37]
[17] 冷强奎, 秦玉平, 王春立. 基于句子相似度的论文抄袭检测模型研究[J]. 计算机工程与应用, 2011, 47(24): 199-201.
(Leng Qiangkui, Qin Yuping, Wang Chunli. Study on Model for Plagiarism-detection of Scientific Papers Based on Sentence Similarity[J]. Computer Engineering and Applications, 2011, 47(24): 199-201. )
(作者E-mail: qfzhou@baosteel. com) [本文引用:1] [CJCR: 0.457]