基于RBFNN的专利自动分类研究
马芳
烟台工程职业技术学院图书馆 烟台 264006
摘要

为减少人工分类的不确定性和分类错误,将文本分类技术引入专利自动分类系统,采用径向基函数神经网络(RBFNN)算法完成专利文本的训练和分类,并进行相关测试分析。实验结果表明,采用RBFNN分类器在专利文本自动分类中具有较理想的性能,测试平均F1值在70%以上。

关键词: 专利自动分类; 文本分类; 径向基函数神经网络
中图分类号:G250
Research of Patent Automatic Classification Based on RBFNN
Ma Fang
Library of Yantai Project Occupation and Technology College, Yantai 264006, China
Abstract

In order to reduce the poor consistency and the errors in manual patent classification, this article introduces text classification technology into patent auto-classification system. It uses the radial basis function neural network algorithm to realize the automatic classification of patent text, and analyses the test samples.The experiment results show that this new system has a better classification results,and the average F1 value is higher than 70%.

Keyword: Patent automatic classification; Text categorization; Radial basis function neural network
1 引 言

21世纪是信息化的时代,专利信息作为重要的技术情报源,记载了人类社会发明创造的成就和轨迹。随着科技的迅速发展,最近几十年来,专利信息的数量急剧增长,而且其倍增周期不断缩短[ 1]。为了将专利文献进行归档,并且能尽快找到所需要的专利信息,每一件被核准的专利都会按照其技术内容被分配到某一个国际专利分类码 (IPC)中。面对如此海量数据,仍采用传统的手工分类显然效率低、费用高、分类结果一致性较差[ 2]。因此,实现专利文本的自动分类有着重要的意义。

2 国内外研究现状

国际上对于专利自动分类的研究和实践已有多年历史,尤其一些发达国家,把专利数据看作重要的信息源,运用多种自动分类方法来挖掘其中隐藏的知识。日本、欧美对于专利的分类和分析研究起步较早。

NTCIR[ 3]为专利研究建立了一个相互交流学习的平台,它是由日本国立情报学研究所(National Institute of Informatics,NII)自1999年开始筹办的信息检索评测。在2001-2002年NTCIR评测中首次加入了专利检索评测任务,评测中提供了多种语言的专利训练语料、测试语料以及评价的方法,吸引了国内外众多研究机构参与,推动了专利挖掘技术的快速发展。Li等[ 4, 5]基于SVM构建了日本专利分类标准下的分类系统,并提出了专利文本分析的方法,将专利文本按照专利技术的目的、功能、应用等分为不同的字段,分别抽取特征。Doi等[ 6]采用了层次分类的方法对专利文本进行分类,旨在解决实际任务中多标签多层次的分类问题。各参与研究团队大多数使用单个词或者名词短语片段作为特征[ 7],并引入了信息检索中的算法,如BM25、SMART等。

我国对专利自动分类的研究还处于比较初级的阶段,目前还没有运用文本分类技术对专利文本的内容特征项进行分析的专利分类系统,但个别研究通过采用不同的算法及对相关方法进行改进,取得了较为理想的分类效果。

李生珍等[ 8]采用BP神经网络,用国际分类号为H02下的专利文件作为测试数据,并使用χ2统计方法进行特征向量降维,取得较好的分类效果。季铎等[ 9]提出一种基于共享最近邻的KNN专利自动分类方法,其融合BM25相似度计算方法和样本邻域信息方法,该方法的有效性在NTCIR-8专利分类评测任务中得到了充分验证。孔旗[ 10]提出了一种并行的支持向量机,称为最小最大模块化网络(M3),采用将大规模问题转化为小规模问题的划分策略和多种子模块集成的策略,通过组合实验及详细比较,相对于传统支持向量机有很好的性能表现。

将文本分类技术引入专利自动分类系统,从大规模专利文档的专利名称和摘要中提取文本分类的信息,采用径向基函数神经网络(Radial Basis Function Neural Network,RBFNN)方法完成训练分类[ 11],尝试为该领域的深入研究提供可行的路径,为促进我国的专利信息分析提供理论参考与实践依据。

3 专利自动分类系统模型设计与实现

整个系统具体的实现以Microsoft Visual C++6.0为开发平台,采用Visual C++语言编写完成。

3.1 系统功能模块

根据文本自动分类的基本流程,规划功能模块如图1所示。

图1 专利自动分类系统模块图

(1)输入/输出模块

专利自动分类系统的输入是参与分类的专利训练样本集或测试样本集;输出是测试样本所属的类别。

(2)特征向量构建模块

本模块完成从非结构化的文本到“机器可识别”的结构化、形式化描述的整个工作。其主要任务包括:

①对输入的专利文本进行分词处理,该系统中的分词处理引用了中国科学院计算技术研究所开发的基于多层隐马模型的汉语词法分析系统ICTCLAS[ 12]

②对分词后的特征集进行特征提取,选出具有代表性的特征词,达到对特征空间降维的目的。如通过去除停用词进行粗降维,再通过特征选择做进一步降维处理。

③对提取出的特征词进行权值计算,建立向量空间模型,将专利文档表示成机器能够识别的模式,用于分类器的学习和测试。

(3)分类模型构建模块

分类器的工作是按照一定的模型,对需要分类的文本进行分类。分类过程包括训练和测试两部分。训练模块实现RBFNN的训练学习,本系统选用K-means聚类法确定RBFNN的隐含层神经元个数及各径向基函数的中心,通过调节不同的RBF宽度得到性能最好的RBFNN分类器,并将网络权值等参数保存为分类器模型文件;测试模块应用训练模块生成的分类器模型文件,对选取的样本进行测试,得到实验结果。

(4)结果评估模块

根据实验测试结果,计算给出分类器评估常用的评价指标如准确率、召回率和F1值,并可查看各类文档分类的详细结果,以便于对分类器性能进行分析评价,改进和完善分类系统,进一步提高分类系统的性能。

3.2 系统的层次设计及实现

采用层次的思想对每个关键步骤进行分层,每个层次都采用一个类来实现,在各个层次之间定义好相应的接口API,以便在高层次使用的时候只关心低层次的接口函数API,而不用去关心低一层所做的事情。将系统设计为6个功能独立的层次,如图2所示。

图2 专利自动分类系统层次图

(1)最底层是专利文档的源数据库,存放专利文本的源文件,在具体的实现中将训练样本集和测试样本集的数据存放在同一数据库的相应表中。

(2)在第2层,通过接口访问专利文本源数据库中的原始数据,首先进行分词处理,该部分连接了ICTCLA的API接口,使用ICTCLAS的分词结果;然后进行词频的统计以及停用词去除,处理结果依然存放在数据库中。分词及去停用词界面如图3所示:

图3 分词及去停用词功能界面

(3)在第3层,对专利文本的特征集进行筛选,在具体的实现中分别采用信息增益IG和互信息MI的方法对特征集进行排序,选取前面若干个最好的特征子集,将最终的特征信息存放在数据库中。

(4)在第4层,分别通过TF-IDF算法和PTF-IDF算法计算特征集在向量空间模型中的权值,完成专利文本向量空间模型的生成,将生成的向量空间以文件的形式存到本地硬盘中。特征向量构建模块的参数设置界面如图4所示:

图4 特征空间参数设置界面

(5)第5层,采用RBFNN算法对专利文本进行分类,达到分类目的,结果存放在文件中。RBFNN分类器参数设置如图5所示。

图5 RBFNN参数设置界面

(6)最高层是对分类的结果进行测试,统计出采用不同特征选择函数和不同权重计算所得到的准确率、召回率和F1值,并用折线图的形式显示测试结果。

4 实验测试及结果分析

通过具体实验数据对所设计和实现的专利自动分类系统进行测试分析,主要从实验结果来分析专利文本特征空间的一些性质,包括词频统计、权重计算等,分类实验结果表明RBFNN分类器对专利文档的自动分类能够达到较为理想的效果。

4.1 实验数据

测试数据来自国家知识产权局网站,从专利的IPC分类中选择最相邻的10个小类进行测试,如表1所示:

表1 H01B-H01P主题描述

由于每个专利的IPC分类是根据专利的标题、摘要和全文实现的,但目前专利全文是图形的,所以只采用标题和摘要。专利分类是一个多标号分类问题,但是每个专利都有一个代表其主要属性的主标号,实验中仅使用主标号,从而将原先的多标号分类问题简化为单标号问题。

分类文档集合从网络数据库中随机抽取产生,共抽取1 500篇专利文档,每篇专利文档保存为一个文本文件。把每类文档分为训练文档集与测试文档集合,且彼此之间不重叠,不包括重复文档。当训练文档集的规模过小时,文档特征不能很好地对类别进行表示,会产生“失真”的状况,影响分类性能;增加训练文档集规模,分类系统的性能会随之提高,这是由于训练文档集越大,获得的文档特征就越全面,但是训练文档集合过大,会造成训练时间过长、资源存储空间过大等问题。所以,在训练文档集的选取上并不是越大越好,而是对文档类别越具代表性越好,并且样本分布越均衡越好,应该在训练文档集规模和分类性能中间寻找一个平衡点。本文选取的训练文档集规模为每类100篇文档,测试文档集为每类50篇文档。各主题类的文档分布情况如表2所示:

表2 各主题类文档分布
4.2 分类结果与分析

(1)RBFNN分类器训练学习实验结果

按RBFNN分类器训练学习的具体步骤对RBFNN分类器进行训练,如下:

①建立样本集向量

将专利文档中的训练样本集经分词、去停用词之后,根据分类精度的要求,通过特征选择函数的评估,从样本集中选取100个特征项,按照权重公式计算出每个特征项的权重,形成100维的特征向量作为训练学习RBFNN的输入向量,在RBFNN中进行训练。

②确定RBFNN的输入层和输出层神经元的数目

由输入特征向量的维数确定RBFNN输入层神经元个数为100。输出神经元的个数与目标类别数相同,即每个输出神经元对应一个类别,本系统选择专利文档H部中相邻的10个小类进行测试,所以输出神经元的个数为10。

③RBFNN网络参数的训练学习

根据K-means聚类(k=2,3,…,55)结果,当k=26时,DB值最小,且误差平方和(SSE)趋于平缓,因此选择k=26时的聚类结果,即RBFNN隐含层的神经元个数为26。其中DB值为一种常用的聚类效果评价标准,DB值越小,意味着类的形状越紧凑,并且类与类之间的间距越大,聚类效果越好。

以26个类的中心为RBF中心,构造由26个基函数组成的RBF网络隐含层,并以不同的径向基宽度σ=(0.05,0.1,…,10)做26组实验,得到不同宽度取值时RBFNN分类器的查全率、查准率和F1值,如图6所示:

图6 RBF宽度结果

可以看出,随着σ值的增大,查准率一直呈上升趋势,而查全率却在上升到一定高度后逐渐下降,最终导致F1值先升高后降低的情况。当σ=1.0时,F1值达到最高值0.8714,综合考虑查全率和查准率二者的性能,选择σ为1.0。利用最小平方误差法训练得到26个隐含层单元到10个输出层神经元的连接权值,保存为分类模型参数。

④RBFNN分类器的测试

将经过网络训练后稳定下来的权值作为专利自动分类时的知识,将专利文档中的测试样本集输入分类系统进行分类,并测试分类效果。通过分类结果可以查看判错的具体文档,以便于分类结果的检验。

(2)RBFNN分类器结果统计

通过准确率(Precision)、召回率(Recall)和F1三个最常用的指标量化评价测试分类结果,通过不同的特征选择函数、不同的权重计算公式进行对比分析,来综合评价系统的整体性能。计算公式如下:

Precision =(1)

Recall =(2)

F1=(3)

其中,a 是正确地归类于该类的文档数目;b是错误地归类于该类的文档数目;c是错误地拒绝原该属于该类的文档数目。统计结果如图7所示。

图7 分类结果统计界面

可以看出,本系统对专利自动分类的召回率、准确率以及F1值都在70%以上,达到了较为理想的效果。

目前大多数性能较好的中文自动分类系统的召回率、准确率以及F1值都在80%以上,本系统相对分类性能较低,这是由专利信息的特殊性所决定的,比如:专利文本是以图片的形式呈现的,真正可用的只有文摘和标题,这样特征选词中的词就比较少;在分词中所采用的ICTCLAS系统,不是针对专利文本进行分词的系统,所产生的分词结果对文本特征的提取有很大的干扰性,这必然会影响分类的效果。

(3)以信息增益为特征选择函数,分别选用TF-IDF和PTF-IDF公式计算特征项的权重得到的F1测试结果,如图8所示:

图8 不同权重计算方法的F1值比较

可以看出,PTF-IDF比TF-IDF权重计算方法的效果要好,由于TF-IDF虽然在一定程度上体现了词的区分程度,但是该方法并没有考虑词的位置对文档的区分度。而PTF-IDF是考虑位置信息的加权算法,采用这种方法可以更加突出重要的词汇,能更好地代表文本实际包含的内容。

(4)以TF-IDF为权重计算方法,分别选用信息增益和互信息作为特征选择函数,得到的F1测试结果如图9所示。

图9 不同特征选择方法的F1值比较

可知,互信息在测试中分类性能较低,Yang曾解释为,互信息在选择特征时受临界特征的概率影响较大,偏爱那些出现频率较低的词[ 13]。然而对于文本分类而言,出现次数较多的单词比出现次数较少的单词具有更大的作用。

可以看出,以PTF-IDF为权重计算方法,以信息增益作为特征选择函数,得到基于RBFNN的专利自动分类系统的测试效果最佳。

5 结 语

针对专利信息大规模、非结构化的特性,本文采用径向基函数神经网络(RBFNN)算法从专利名称和摘要中提取文本分类信息,取得了较为理想的效果。但与目前性能较好的中文自动分类系统相比仍有一定差距,尤其需要开发针对专利的分词系统,以进一步提高分类的准确率。当然,专利文本中包含更大的信息量,但是以图片形式出现的,从专利文本中提取文本分类信息有待进一步的探索和研究。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献
[1] Camus C, Brancaleon R. Intellectual Assets Management: From Patents to Knowledge[J]. World Patent Information, 2003, 25(2): 155-159. [本文引用:1]
[2] 暴海龙, 李金林. 专利检索中的IPC和主题词识别方法研究[J]. 北京理工大学学报: 社会科学版, 2003, 5(5): 74-76. [本文引用:1]
[3] Iwayama M, Fujii A, Kand o N, et al. Overview of Patent Retrieval-Task at NTCIR-3[C]. In: Proceedings of the ACL-2003 Workshop on Patent Corpus Processing, Sapporo, Japan. 2003: 24-32. [本文引用:1]
[4] Li Y, Bontcheva K, Cunningham H. SVM Based Learning System for F-term Patent Classification[C]. In: Proceedings of the 6th NTCIR Workshop Meeting, Tokyo, Japan. 2007: 15-18. [本文引用:1]
[5] Li Y, Bontcheva K, Cunningham H. Cost Sensitive Evaluation Measures for F-term Patent Classification[C]. In: Proceedings of the 1st International Workshop on Evaluating Information Access(EVIA), Tokyo, Japan. 2007: 44-53. [本文引用:1]
[6] Doi H, Seki Y, Aono M. A Patent Retrieval Method Using a Hierarchy of Clusters at TUT[C]. In: Proceedings of the 5th NTCIR Workshop Meeting, Tokyo, Japan. 2005: 403-406. [本文引用:1]
[7] Mase H, Iwayama M. NTCIR-6 Patent Retrieval Experiments at Hitachi[C]. In: Proceedings of the 6th NTCIR Workshop Meeting, Tokyo, Japan. 2007: 403-406. [本文引用:1]
[8] 李生珍, 王建新, 齐建东, . 基于BP神经网络的专利自动分类方法[J]. 计算机工程与设计, 2010, 31(23): 5075-5078. [本文引用:1]
[9] 季铎, 蔡云雷, 蔡东风, . 基于共享最邻近的专利自动分类技术研究[J]. 沈阳航空工业学院学报, 2010, 8(4): 41-45. [本文引用:1]
[10] 孔旗. 基于并行机器学习的大规模专利分类 [D]. 上海: 上海交通大学, 2011. [本文引用:1]
[11] Haykin S S. Neural Networks: A Comprehensive Foundation[M]. 北京: 清华大学出版社, 2001: 40-42. [本文引用:1]
[12] 张华平. 汉语词法分析系统ICTCLAS[EB/OL]. [2010-12-19]. http://ictclas.org/index.html. [本文引用:1]
[13] 孙建军, 成颖. 信息检索技术[M]. 北京: 科学出版社, 2004: 88-89. [本文引用:1]