基于统计分布的中文专利自动分类方法研究
胡冰1, 张建立2
1西安电子科技大学经济与管理学院 西安 710071
2工业和信息化部电子科学技术情报研究所 北京 100043
摘要

传统的基于向量空间模型的文本自动分类算法没有考虑到特征词的类间分布情况及特征词在文本内部的位置分布情况,导致该算法用于专利分类时效果不佳。提出一种基于统计分布的中文专利自动分类方法。首先,统计出特征词的类间分布信息,引入类间分散度加权因子,突出分布类别少、出现频率高的特征词的权重;其次,结合专利文本的结构特点,引入位置权重因子,突出专利的法律特性和技术特性以及组成专利各元素内容的差异性。最后通过对比实验证明,该方法能够有效提高中文专利自动分类的效果。

关键词: 统计分布; 专利自动分类; 加权因子
Research on Chinese Patent Automatic Classification Method Based on Statistical Distribution
Hu Bing1, Zhang Jianli2
1School of Economics & Management, Xidian University, Xi’an 710071, China
2Electronic Technology Information Research Institute,Ministry of Industry and Information Technology of the People’s Republic of China, Beijing 100043, China
Abstract

Traditional text automatic classification algorithm based on Vector Space Model fails to take the distribution information of terms among classes and the position information of terms in class into consideration, which leads to a poor performance of the algorithm in patent classification. This paper proposes a Chinese patent automatic classification method based on statistical distribution. Firstly, this paper puts forward distribution information weighting factor to manifest the weighting of the terms that appear frequently but in less class. Then, combining with the structural feature of patent text, this paper introduces position information weighting factor to highlight the legal and technical characteristics of patent and differences of patent’s each element in content. Finally, the contrast experiment shows that the classification effect can be improved sufficiently by this proposed method.

Keyword: Statistical distribution; Patent automatic classification; Weighting factor
1 引 言

专利文献作为一种特殊的文本,包含大量法律、技术与其他类型资料的关系等多方面有价值的信息,已经引起了人们的高度重视,根据世界知识产权组织的统计,专利文献含有世界每年发明创造成果的90%-95%[ 1, 2]。因此对专利文本信息的加工处理显得日益重要。专利分类是专利文本挖掘的关键技术之一,其目的是对专利文本信息进行有效的管理。专利分类不仅可以帮助企业进行各类技术研发趋势与动向的预测[ 3],并且可以对国家和竞争企业的整体技术动态进行分析,为技术部门实现竞争跟踪与分析提供有力依据[ 4]。然而,面对海量的专利数据,传统的手工分类方式不仅效率低下,而且资源耗费量大[ 5]。因此,专利的自动分类显得日益迫切和重要,人们对专利自动分类的关注程度和重视程度也越来越高。与一般的文本相比,专利文本具有结构特殊、专业性强、领域词汇较多等特点,这使得传统的文本分类方法不能很好地满足专利自动分类的需要。

目前,关于专利自动分类的问题已经引起了学者们的关注,国内外有学者对组合分类器开展了研究,如Mathiassen等[ 6]基于WIPO-alpha文本集对组合分类器的分类效果进行研究,认为分类器组合后的专利分类效果优于任何一个单独分类器的分类效果。李程雄等[ 7]将SVM与KNN算法进行组合改进,弥补了单独应用SVM算法时对不同的应用问题核函数参数选择较难的不足。除分类器以外,影响专利自动分类效果的另一个重要因素是专利文本的特征表示,近年来我国有学者在专利自动分类中的特征词权重评估方面开展了一些研究,如邓擘等[ 8]提出一种基于统计分布和集合论的分类方法,其思想是特征词出现的类越多,则该特征词的权重越小,反之特征词出现的类越少则权重越大,但该方法没有对特征词的分布信息进行定量处理。蒋健安等[ 9]提出在计算特征词的权重时引入位置权重,但仅仅是用经验法设置各个位置的权重。笔者认为,在特征词权重评估方面,还可以详细统计特征词的类间分布信息及特征词在文本内部的位置分布信息,通过对这些信息进行量化处理,进一步改进特征词权重评估算法,从而提高专利自动分类的效果。

因此,本文给出一种基于统计分布的中文专利自动分类方法。该方法在分析传统的TF-IDF算法用于专利文本自动分类时不足之处的基础上,一方面统计特征词的类间分布信息,引入类间分散度加权因子,将加权因子量化,同时给出具体的计算公式;另一方面结合专利文本的结构特点,引入位置加权因子,并利用实验法,设置各个位置的权重。从而在评估特征词权重时引入了特征词的统计分布信息这一重要因子,改进了特征词权重评估公式,使其更适用于专利文本自动分类,提高了中文专利自动分类的效果。

2 专利文本分类中TF-IDF算法的局限性分析

在对专利文本进行分类时,一般采用基于向量空间模型(Vector Space Model, VSM)[ 10]的文本表示方法,在向量空间模型中, 文本集被看作是由一组向量组成的向量空间。若空间的维数是n, 则每篇文本d可表示为由二元组组成的实例特征向量V(d) =((t1,w1),(t2,w2),…,(tn,wn)),其中tn表示专利文本d的特征词,wn表示特征词tn的权重。在计算特征词的权重时考虑的基本要素是词频和文本频,应用最普遍的是TF-IDF算法[ 11],传统的TF-IDF 算法主要考虑特征词的词频、逆文本频、归一化等因素,算法如下所示:

TF(tij)表示特征词ti在文本dj中出现的次数,即词频;IDF(ti)表示逆文本频,其中被广泛使用的经典计算公式为[ 12]:

N(C)表示文本集C中的总文本数,N(ti,C)表示文本集C中特征词ti出现的文本数。

在TF-IDF算法中,体现了以下思想[ 13]:一个词在文本中出现的频率越高,说明它区分该文本内容属性的能力越强;一个词在文本中出现的范围越大,说明它区分文本内容属性的能力越弱。

然而,在专利自动分类中,该算法在处理专利数据时有两个明显的不足之处:

(1)专利文献中经常为了规避专利侵权或建立专利壁垒而反复强调某些概念,这使得专利文本中一些词在少数类中频繁出现。而传统的TF-IDF算法在计算分布类别少、出现频率高的这类特征词的权重方面存在不足,算法中逆文本频(IDF)只是简单认为文本频率低的特征词比较重要,而没有考虑到特征词ti在各类之间的分布情况。如果特征词ti在某一类的各个文本中出现频率很高,而在其他类的文本中出现频率很低,那么特征词ti在表示该类文本时更具代表性,应该赋予更高的权重。举例说明,特征词t1和t2在各类中出现的文本频数如表1所示:

表1 特征词的文本频数
特征词t1在A类中的8个文本中出现,在B类的一个文本中出现,在C类的一个文本中出现;特征词t2在A类中的3个文本中出现,在B类中的4个文本中出现,在C类中的3个文本中出现。用传统的IDF公式计算两个词的逆文本频,得到的结果是IDF(t1)=IDF(t2),此时特征词的权重仅仅取决于词频(TF)。然而很明显,虽然两个词出现的文本总数相同,但特征词t1拥有较强的分类能力,而特征词t2在各类文本中均匀分布,分类能力较弱,因此,t1应该比t2拥有更高的权重。

(2)对专利进行分类,不仅要考虑专利在技术上的相似性,还要考虑组成专利的各元素在信息内容上的差异性。专利分类是从专利文本信息的角度衡量待分类文本的所属类别,而专利文本信息与一般文本信息有所不同,主要表现为专利文本信息具有法律特性和技术特性,这些特性对于专利分类有重要影响。专利文本信息的不同特性表现在不同的字段上,因此在对专利分类时,应结合专利的具体结构特点,选择最能表现专利法律特性和技术特性的结构单元,调整出现在不同位置特征词的权重,才能获得良好的分类效果。然而传统的TF-IDF算法将每篇文本作为一个整体看待,并没有考虑到特征词ti分布在文本dj中的不同位置时对于分类的影响。例如,特征词ti出现在摘要中,主要表征的是专利的技术特性,而ti出现主权项中,更多的是表征专利的法律特性,但TF-IDF算法并没有进行区分处理。

考虑到以上两种情况,传统的TF-IDF算法已经不能很好地满足专利自动分类中计算特征词权重的需求。

3 基于统计分布的中文专利自动分类算法
3.1 基于统计分布的特征词权重评估函数

(1)基于以上分析,在进行专利自动分类时,在统计特征词在各类之间分布情况的基础上,引入类间分散度加权因子DI(Distribution Information),以应对特征词ti在某一类文本中集中出现的可能性,本文设计的DI计算公式如下:

其中,TFk (ti)表示在第k类中特征词ti出现的频数,n为类别总数,表示特征词ti在各类中出现频数的平均值。

公式(3)中,若特征词ti在所有类中出现次数相同,则计算得到DI的值为0,这说明该特征词不具有类别区分能力;若ti仅在极少数类里出现,则DI的值会相对比较大,这说明该词的类别区分能力较强。

(2)引入位置加权因子,以突出专利的法律特性和技术特性。专利文本是由名称、摘要、申请号、分类号、主分类号、发明人、申请人、主权项等元素构成的。但并不是组成专利文件的每个元素都适用于专利分类。例如,发明人和申请人等涉及的是专利主体的具体信息,并不具备表示专利具体知识信息的能力[ 14]。通常,出现在标题和摘要中的词对专利主题的表达能力比出现在正文中的词强,出现在主权项中的词表达专利法律特性的能力比出现在其他位置的词强。因此,本文选取最能代表专利知识信息的元素,将专利文本分割成三个独立的部分,用一个三元组P=(p1,p2,p3)表示,其中,p1表示标题,p2表示摘要,p3表示主权项,将出现在不同位置的词赋予不同的权重并通过加权来处理。设位置权重为zp,其值通过大量的实验获得,设TFp(ti)是特征词ti在专利文本的位置p中出现的次数,则本文设计的该特征词的位置加权因子PI(Position Information)计算公式如下:

其中,位置权重:

综合上述各个加权因子,改进的适用于专利文本自动分类的特征词权重评估函数公式如下:

3.2 基于统计分布的中文专利自动分类算法

将改进的特征词权重算法应用于专利文本自动分类的过程中,具体分类算法描述如下:

输入:带类别标记的训练文本集,测试文本

输出:测试文本所属类别

①对训练文本集和测试文本进行预处理。对文本进行分词和词性标注,并去除停用词。

②统计出词条的位置分布信息、类间分布信息以及频次信息,将每篇专利表示成由词构成的向量,并运用特征选择算法对向量进行降维处理。

③结合运用本文改进的特征词权重算法,计算出每个特征词的权重,将每一篇专利文本都表示成由特征词及其权重组成的特征向量。

④采用KNN分类算法,计算测试文本和训练文本集中每一篇文本的相似度,相似度通过计算向量间的夹角余弦得到。设sim(di,dj)表示专利文本di与dj的相似度,则采用余弦系数表征的文本di与dj的相似度计算公式为[ 15]:

其中,di和dj分别表示训练文本和测试文本,Wik和Wjk表示文本向量中对应特征词的权重,n表示向量的维数。

⑤将计算得到的相似度结果按降序排列,选择排在最靠前的K篇文本。将同属于一个类的文本与待分类文本的相似度相加求和,并对每个类求得的和排序,将待分类文本归到和最大的类中。

具体流程如图1所示:

图1 基于统计分布的中文专利自动分类流程

4 评估方法及实验结果
4.1 评估方法

采用精确率(Precision, P)、召回率(Recall, R)和F1值(F-measure, F1)三个指标对实验分类结果进行评估:

其中,a表示被正确分到某类的文本数,b表示被错误分到该类的文本数,c表示属于该类但未被分到该类的文本数。

4.2 实验及结果分析

为了验证本文提出的基于统计分布的中文专利自动分类方法,选取结构加固技术领域的1 700篇专利文献作为语料库,语料库中的所有专利文献均来自中国专利数据库,通过专利下载分析系统PatentEX下载这些专利并解析出每件专利的标题、摘要、专利号、分类号、申请人、主权项等。该语料库已由工业和信息化部电子知识产权中心的专业人员进行手工分类,涉及整机设计、散热技术、三防技术、抗震冲击设计以及电磁兼容技术5类。从每个类中抽取75%的文献组成训练语料库,共1 275篇,剩下的425篇专利文献组成测试语料库。

实验分两组进行,第一组采用传统的专利文本自动分类方法,即在计算特征词权重时,不引入任何加权因子;第二组采用本文提出的专利文本自动分类方法,引入类间分散度加权因子和位置加权因子。

实验采用中国科学院计算技术研究所ICTCLAS系统进行分词,并编写程序提取专利的标题、摘要、主权项中的内容,以申请号为CN200920246283.2的名为“一种防雷击连接器及具有该连接器的计算机”为例,分词结果如图2所示:

图2 专利文件分词结果

采用信息增益(Information Gain, IG)特征选择算法,分两组分别计算特征词的权重,经过多次反复的尝试,KNN分类算法中的K值定为15。实验分类结果如表2所示:

表2 实验结果比较
F1值的比较如图3所示:

由实验结果分析可知,散热技术、三防技术、抗震冲击、电磁兼容技术这些主题区分度较高的类别,由于它们含有较多领域专有词汇,文本向量能准确地表示文本的主题,因此这些类别的精确率、召回率、F1值都达到了很高的水平。但由于整机设计这个主题本身类别界限不够明显,在很大程度上影响了分类的效果,精确率、召回率、F1值都不如其他几个内容主题较强的类别。

通过表2图3的对比实验证明,本文提出的基于统计分布的中文专利自动分类方法与传统的分类方法相比,分类结果的精确率、召回率、F1值都有所提高。这说明,使用本文提出的中文专利自动分类方法,在计算特征词权重时引入类间分散度加权因子和位置加权因子,可以有效弥补应用于专利自动分类时TF-IDF算法的不足,提高计算特征词权重的准确性,从而提高中文专利自动分类的效果。

5 结 语

由于传统的文本分类方法没有考虑到特证词的类间分布情况以及特征词在文本内部的位置分布情况,因此用于专利文本自动分类时无法获得良好的效果。本文提出了基于统计分布的中文专利自动分类方法,引入类间分散度加权因子以及位置加权因子,调整了经典的TF-IDF算法,并给出新的特征词权重评估公式。该方法突出了分布类别少但出现频率高的这类特征词的权重,突出了专利的法律特性和技术特性以及组成专利各元素内容的差异性。实验证明,本文提出的方法有效提高了中文专利自动分类的效果。

研究中的一个关键点是特征词在各类间的分布信息,但本文并没有对特征词在类内部的分布情况进行讨论。因此,未来将针对专利文本中特征词的类内分布偏差开展研究,进一步改进特征词权重评估算法。总之,该方法还需要通过理论和实践研究不断改进和完善。

参考文献
[1] 刘玉琴, 赖院根, 雷孝平. 基于IPC知识结构的专利自动分类模型[J]. 小型微型计算机系统, 2007, 2812): 2295-2298. (Liu Yuqin, Lai Yuangen, Lei Xiaoping. Automated Categorization Model of Patent Based on the Knowledge of IPC[J]. Journal of Chinese Computer Systems, 2007, 2812): 2295-2298. ) [本文引用:1] [CJCR: 0.46]
[2] 李生珍, 王建新, 齐建东, 等. 基于BP神经网络的专利自动分类方法[J]. 计算机工程与设计, 2010, 3123): 5075-5078. (Li Shengzhen, Wang Jianxin, Qi Jiand ong, et al. Autom ated Categorization of Patent Based on Back-propagation Network[J]. Computer Engineering and Design, 2010, 3123): 5075-5078. ) [本文引用:1] [CJCR: 0.789]
[3] Yoon B, Park Y. A Systematic Approach for Identifying Technology Opportunities: Keyword-based Morphology Analysis[J]. Technological Forecasting and Social Change, 2005, 722): 145-160. [本文引用:1]
[4] Shih M J, Liu D R, Hsu M L. Discovering Competitive Intelligence by Mining Changes in Patent Trends[J]. Expert Systems with Applications, 2010, 374): 2882-2890. [本文引用:1] [JCR: 1.854]
[5] 赵环宇. 中文专利自动分类技术的研究[D]. 沈阳: 沈阳航空工业学院, 2009. (Zhao Huanyu. Research on Automatic Categorization Technology for Chinese Patent Documentation[D]. Shenyang: Shenyang Aerospace University, 2009. ) [本文引用:1]
[6] Mathiassen H, Ortiz-Arroyo D. Automatic Classification of Patent Applications Using Classifier Combinations[C]. In: Proceedings of the 7th International Conference on Intelligent Data Engineering and Automated Learning, Burgos, Spain. 2006: 1039-1047. [本文引用:1]
[7] 李程雄, 丁月华, 文贵华. SVM- KNN组合改进算法在专利文本分类中的应用[J]. 计算机工程与应用, 2006, 4220): 193-195. (Li Chengxiong, Ding Yuehua, Wen Guihua. Application of SVM-KNN Combination Improvement Algorithm on Patent Text Classification[J]. Computer Engineering and Applications, 2006, 4220): 193-195. ) [本文引用:1] [CJCR: 0.457]
[8] 邓擘, 樊孝忠, 杨立公. 基于统计分布与集合论的文本分类方法[J]. 北京理工大学学报, 2006, 267): 589-592. (Deng Bo, Fan Xiaozhong, Yang Ligong. A Method of Text Classification Based on Statistical Technology and Set Theory[J]. Transactions of Beijing Institute of Technology, 2006, 267): 589-592. ) [本文引用:1] [CJCR: 0.529]
[9] 蒋健安, 陆介平, 倪巍伟, 等. 一种面向专利文献数据的文本自动分类方法[J]. 计算机应用, 2008, 281): 159-161. (Jiang Jian’an, Lu Jieping, Ni Weiwei, et al. Automatic Text Categorization for Patent Data[J]. Journal of Computer Applications, 2008, 281): 159-161. ) [本文引用:1] [CJCR: 0.646]
[10] Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing[J]. Communications of the ACM, 1975, 1811): 613-620. [本文引用:1] [JCR: 2.511]
[11] Salton G, Buckley C. Term Weighting Approaches in Automatic Text Retrieval[J]. Information Processing and Management, 1988, 245): 513-523. [本文引用:1] [JCR: 0.817]
[12] 施聪莺, 徐朝军, 杨晓江. TFIDF算法研究综述[J]. 计算机应用, 2009, 29S1): 167-170, 180. (Shi Congying, Xu Chaojun, Yang Xiaojiang. Study of TFIDF Algorithm[J]. Journal of Computer Applications, 2009, 29S1): 167-170, 180. ) [本文引用:1] [CJCR: 0.646]
[13] 台德艺, 王俊. 文本分类特征权重改进算法[J]. 计算机工程, 2010, 369): 197-199. (Tai Deyi, Wang Jun. Improved Feature Weighting Algorithm for Text Categorization[J]. Computer Engineering, 2010, 369): 197-199. ) [本文引用:1] [CJCR: 0.492]
[14] 高继平, 丁堃. 基于专利文件知识结构的中文专利知识单元挖掘[J]. 情报理论与实践, 2011, 346): 83-86. (Gao Jiping, Ding Kun. Chinese Patent Knowledge Unit Mining Based on Patent Document Knowledge Structure[J]. Information Studies: Theory & Application, 2011, 346): 83-86. ) [本文引用:1] [CJCR: 1.5]
[15] Salton G, McGillM J. Introduction to Modern Information Retrieval[M]. New York, NY, USA: McGraw Hill, 1983. [本文引用:1]