【目的】自动标注嵌入中文专利文本中的专利、标准、学术论文、其他专著4类引用信息。【方法】对于专利、标准和其他专著的引用, 应用模式匹配的方法标注; 对于学术论文的引用, 应用由两阶段构成的机器学习方法标注, 自动检测含有引用的句子, 并从中自动提取6类文献特征信息。【结果】10层交叉验证的结果表明: 专利引用标注的精确度和查全度均为100%, 标准引用标注的精确度和查全度分别达到92%和94%, 而其他专著引用标注的精确度和查全度分别达到80%和71%; 标注学术论文引用的精确度和查全度在阶段一分别为95.7%和96.0%, 阶段二分别为95.3%和94.9%。【局限】模式匹配方法需要人工分析大量的专利文件, 训练数据规模相对较小。【结论】运用模式匹配方法标注专利、标准引用的性能高于92%; 运用机器学习方法标注学术论文引用的平均性能达到95%。
[Objective] This paper aims to automatically annotate four types of bibliographical references in Chinese patent documents, such as patents, standards, papers, and other monographs public documents.[Methods] Use a pattern matching approach to annotate the references of patents, standards, and public documents, and use a two-phase machine learning approach to annotate the paper references, firstly, automatically detecte the sentences that contain citation information, then extracte 6 categories of bibliographic features from the results.[Results] The results of ten-fold cross validation show that the accuracy for annotating patents is 100%, and the precision and recall for annotating standards is 92% and 94% respectively, while the precision and recall for annotating public documents is 80% and 71% respectively. For annotating paper references, the precision and recall in phase one is 95.7% and 96.0% and in phase two is 95.3% and 94.9% respectively.[Limitations] The pattern matching approach requires analyzing a lot of patent documents manually, and the size of the training model used by the proposed machine learning approach is relatively small.[Conclusions] The performance of annotating patents and standards using a pattern matching approach achieves over 92%, and the performance of annotating papers using a machine learning approach achieves 95%.
在专利信息挖掘的背景下, 专利的引文信息作为衡量专利申请贡献程度的基础, 对相关领域的研究具有重要的促进作用: 如现有技术搜索[1](Prior Art Search), 专利自动分类[2], 科学计量学[3](Scientometrics)等。然而, 除了检索报告人工列举的引文信息, 专利文件的正文主体(专利说明书)包含更多没有被检索报告列出的引文信息, 如文献[1]指出一篇专利有可能包括上百个引用文献, 而检索报告中所列出的引用文献却很少超过10篇。因此, 从专利说明书中自动提取所引用的文献信息是十分必要的, 而且极具价值[4]。
许多学者[4, 5]都指出基于专利引文信息提取的研究工作还十分有限, 需要更多深入的研究克服两方面的挑战: 所引用的专利文献书写形式的多样性及缺乏标准性; 由于自然语言的歧义性和书写格式的多变性, 提取所引用的非专利文献信息要比专利文献信息更加难以处理。尽管已有研究[1, 5, 6, 7, 8, 9]从上述两方面针对英/日/德/法语专利文本进行有益的尝试, 但是笔者没有发现对中文专利文本进行引文信息提取的研究。鉴于此, 本文提出利用模式匹配和机器学习的方法, 从中文专利说明书的“ 背景技术” 和“ 具体实施方式” 中自动标注所引用的专利和非专利文献信息。如果把所要标注的对象作为自动提取的内容, 那么这种自动标注引文信息的过程, 也可被视为自动提取引文信息的过程。
文献[5, 6]面向英文专利, 提出使用模板或人工规则的方法自动提取专利和非专利文献信息, 小规模的测试所提取非专利文献的精确度/查全度保持在70%- 75%。文献[7]使用正规表达式(Regular Expressions)建立大约50个引用专利文献的模式自动提取所引用的专利文献, 然而进一步分析发现该方法会遗漏大约40%的引用信息。文献[10]针对中文专利说明书摘要, 使用规则和机器学习的方法, 自动提取专利的特征、组成和用途信息。此外, 针对中文专利信息自动提取的研究还包括面向本体的专利知识提取[11], 基于专利技术特征的聚类分析[12], 以及专利引文网络的可视化研究[13], 而从中文专利说明书中自动提取引文信息的研究还不多, 这也被文献[14]的背景调查所证实。
条件随机场(Conditional Random Fields, CRF)[15], 作为一种序列标注(Sequence Labeling)算法的经典统计学模型, 被成功应用于许多与自然语言处理相关的任务, 如命名实体识别(Named Entity Recognition, NER)。文献[8]应用CRF模型从英文学术论文的参考文献中提取引用文献信息, 其准确率达到95.4%, 比HMM模型高出10%。文献[9]利用CRF模型从日本专利文本的背景技术中提取学术论文引用文献。文献[1]则训练CRF模型同时从英文专利的“ 背景技术” 和“ 具体实施方式” 中自动提取学术论文的信息。
根据中文专利文本所引用文献的特点, 采取具有针对性的方法进行引文信息的提取。笔者将嵌入在中文专利文本中的引用文献大致分为4类:专利、标准、学术论文、其他专著。对于专利、标准和其他专著的引用文献, 因其引用形式有一定的规律可循, 因此采用基于字符串模式匹配的方法自动提取, 引用形式及正规表达式如表1所示; 对于学术论文的引用文献, 因其引用形式的多样性、易变性, 则采用机器学习的方法处理。因应用模式匹配的方法相对简单, 本文不作过多阐述, 而侧重于应用机器学习的方法提取学术论文类引文信息, 这也是本文的研究重点。
专利说明书中, 对相关专利的引用通常包括两部分信息:
(1) 签发机构名称, 以国家代码(如DE、US)或区域代码(如EP、WO)表示。
(2) 因签发机构而异的专利编码。签发机构可由文字表示也能以编码表示, 如“ US2004/0208331” , “ 日本专利JP-A-10-224951” 。同样地, 签发机构即使在同一篇专利文本中, 也可能由不同的名称来引用, 如“ 日本特开平11-61327号公报” 、“ 实公昭56-23294号公报” 。
对标准的引用形式与对专利的引用大同小异, 专利撰写者通常同时使用文字和编码, 如“ 《城镇污水处理厂污染物排放标准》(GB18918-2002)” 。对学术论文的引用, 归纳为专著、期刊、学术会议论文、硕博论文、技术报告5种类型。对其他专著的引用, 概括为对技术手册、草案等非学术类论文文献的引用。
基于字符串模式匹配方法的思路是利用自然语言的语义和句法构建符合所要提取的引用文献的模式库, 不同形式的引用文献由不同的模式描述。对专利、标准及其他专著而言, 笔者通过使用符合IEEE POSIX句法标准的正规表达式, 表1列出了如何构建不同类型的引用模式。
受文献[9]所提出方法思路的启发, 笔者将自动提取学术论文类引用文献的任务分为两个阶段:利用自动分类方法从专利文本中自动提取包含有引用文献信息的句子; 利用CRF模型从包含引用文献信息的句子中自动提取相应的引用文献特征信息, CRF模型所使用的特征及特征组合如表2所示:
(1) 提取含有引用文献的句子
含有引用文献的句子在其所引用之处或其上下文, 通常会出现一些线索词, 如‘ 发表’ 、‘ 公开’ 、‘ 第x卷x号’ 、‘ Proceedings’ 、‘ pages’ 、‘ Transactions’ 等。假设专利文本被分解为含有两个类别的句子集合: 即含有引用文献信息的句子和完全不含有引用文献信息的句子, 那么自动提取含有引用文献的句子的任务即可转化为自动二分类的任务。
笔者从表3的A-H的各个IPC类别的专利文件中随机选取50-200篇, 共计2 192篇专利文件, 并从中提取“ 背景技术” 和“ 具体实施方式” 两部分的全文本, 人工选取含有引用文献的句子前后出现的线索词, 共计174个, 并把这些线索词作为描述专利文本特征向量的特征, 其值由是否出现在句子中所决定(即出现为1, 反之为0)。这样, 在由这些特征所构成的专利文本特征向量上应用自动分类的算法(如SVM)[16]训练分类模型, 含有引用文献的句子则可以被自动标记。
(2) 提取引用文献特征信息
笔者应用CRF从第一阶段的结果中自动提取6种引用文献特征信息: 题目、作者、文献源、日期、卷标、页数。与其他标注算法模型(HMM, SVM)相比, CRF模型可以使用丰富的特征信息, 任意数量的上下文信息, 并确保其计算结果收敛于全局最优。此外, 相关文献[8, 9]分别从其实验中证实CRF模型的标注结果的平均性能比HMM模型高13.9%, 比SVM模型高4.6%。因此本文使用CRF模型, 其思路如下: 如果把每个含有引用文献的句子看作一个字符序列, 那么从句中自动提取引用文献特征的过程即可转换为使用CRF对字符序列进行自动标注的过程, CRF所标注的内容即为所要提取的引用文献特征。笔者定义下列标签用以标记所要提取的引用文献特征: A-作者; T-文献题目; S-文献源(包括期刊或学术会议的名称、出版社等); D-出版日期; P-页数; VN-卷标。通过IOB2编码[17], 可得到如下标签集:
{B-A, I-A, B-T, I-T, B-S, I-S, B-D, I-D, B-P, I-P, B-VN, I-VN, O}
其中, B表示标记的开始, I表示标记之内, O表示标记之外。笔者使用这13个标签人工标记经过分词、词性标注预处理的含有引用文献的句子作为训练数据, 从而训练CRF模型, 用以标注引用文献特征。本文选取的特征组合包括F1-F33共33个特征, 其中两个或两个以上的特征由‘ /’ 连接(见表2)。
本文实验环境为CPU: Intel Core i5-3470 3.2GHz, 内存: 4GB, 操作系统: Fedora Linux 20, 编程语言: Oracle Java 8。
从国家区域中心数据库下载2010年-2014年的IPC类A-H的专利授权文件共计44 344件, 其统计分布如表3所示, 并用Java编制程序自动提取专利说明书的“ 背景技术” 和“ 具体实施方式” 的全文本, 进行相应的预处理, 以此作为实验数据集。
(1) 测试数据
从表3列出的44 344个专利文件的文本中, 人工提取对专利、标准及其他专著引用的字符串模式, 用以建立引用模式库。从IPC类别A-H随机选取50-100个专利文件, 共组成2 828个专利文件, 提取相应的“ 具体实施方式” 文本, 并人工标记其中包含的专利引用(234个)、标准引用(255个)、其他专著引用(28个)作为测试的标准。对于测试结果的性能, 笔者使用经典评测方法Precision(精确度)和Recall(查全度), 其定义如下:
(2) 测试结果和讨论
通过使用Java Regular Expressions API①(①https://docs.oracle.com/javase/8/docs/api/java/util/regex/package-summary.html.), 笔者构建针对专利、标准、其他专著引用的模式库, 其中包括17条专利引用模式, 12条标准引用模式, 6条其他专著引用模式。这样, 通过字符串模式匹配而得到的结果如表4所示:
由表4可看出, 对专利引用的提取精确度和查全度最高, 标准引用次之, 其他专著引用最低。对于专利和标准而言, 它们引用模式的规则性、重复性很强, 有助于利用正规表达式构建匹配模式库, 在构建模式匹配库时所使用的数据规模很大, 分布很广的前提下, 经过细致筛选、匹配可以取得很好的性能。然而, 对于其他专著来说, 一部分无规则可循的引用, 其形式随意性较大, 缩写被频繁使用, 撰写者通常只列出题目、作者、公司名称的一种。例如, “ 参见USP 24, 2000版, 第19-20页和第856页(1999)” , 此引用是本文模式匹配方法没有检测到的。实际应用中, 在缺少大量数据的情况下, 模式库无法包含所有的匹配模式, 因而查全度很难获得明显的提升。鉴于此, 笔者认为使用机器学习的方法处理模式匹配方法所遗漏的引用文献, 是一种更好的补充选择。
(1) 测试数据
笔者从表3中A-H各个类别的专利文件中随机选取50-200篇, 共计2 192篇, 并从“ 背景技术” 和“ 具体实施方式” 的全文本中选取19 746个句子进行人工标注: 17 458个句子作为训练数据(其中1 764个句子被标记为含有学术论文引用), 2 288个句子作为测试数据(其中300个句子被标记为含有学术论文引用)。同样, 使用Precision和Recall作为评测的标准, 其定义如下:
(2) 测试结果和讨论
经过测试多个自动分类算法模型(Naive Bayesian、Decision Tree和SVM), 发现SVM的分类结果最佳。因此笔者采用开源机器学习软件Weka[18]中的SVM算法LibLinear[19]在含有17 458个句子的训练数据上构建SVM检测器模型, 表示为“ SVM检测器” , 并使用含有2 288个句子的测试数据集进行测试, 结果如表5 所示。同时列出文献[9]所采用的方法结果, 表示为“ TinySVM检测器” 。
需要指出的是: TinySVM检测器应用于日本专利文本, 而笔者的SVM检测器针对于中文专利文本。此外, SVM检测器和TinySVM检测器在检测范围、模型的构建以及算法的选择上有显著的不同:
①前者能同时处理中文专利的“ 背景技术” 和“ 具体实施方式” 两部分的中、英文本, 而后者只处理日本专利的“ 背景技术” 的日、英文本;
②前者使用的特征数为174, 远大于后者所选取的36;
③在先期实验中, 前者采用的线性SVM算法, 其平均精确度和平均查全度要比后者所采用的基于多项式核函数(Polynomial Kernel)的SVM算法分别高23.5%和12.1%。
(1) 测试数据
笔者从4.3节人工标注的测试数据中, 选取450个含有学术论文引用的句子, 首先使用Stanford Word Segmenter①(①http://nlp.stanford.edu/software/segmenter.shtml.)对每个句子进行分词, 然后使用Stanford POS Tagger②(②http://nlp.stanford.edu/software/tagger.shtml.)对分词结果进行词性标注, 根据3.3节的方法对每个句子进行人工标注, 作为测试数据。同样, 利用Precision和Recall衡量CRF训练模型的性能, 其定义与4.3节的定义类似, 故不再赘述。
(2) 测试结果和讨论
笔者应用开源CRF软件包(CRFsuite)[20], 对450个句子进行Ten-Fold Cross Validation(10层交叉验证)的测试, 其标注结果与文献[9]采用CRF++的方法进行比较, 如表6所示。其中, -表示对于卷标这一特征, CRF++方法无法提取。
由表6可知, 使用本文的方法标注6个文献特征信息的平均精确度和平均查全度分别达到95.3%和94.9%, 其中对于题目的识别率最高, 作者和文献源的识别率相接近, 稍微低于题目的识别率; 卷标和页数的识别率高于日期的识别率, 这是因为前两者的上下文中有利于识别的线索词的出现, 而后者仅仅是数字, 且在引用文本中出现的位置不固定, 很难与其他相类似信息区分。与CRF++方法[9]相比较, 本文的方法在训练CRF模型所使用的特征、CRF具体的训练算法及CRF模型所能标注的文献特征信息有显著不同:
①前者所使用的特征为目标词前后两个词的特征以及目标词前两个词的输出标签, 而后者所使用的特征则由表2所示;
②前者采用经典L-BFGS[21]训练算法, 而后者则采用Passive Aggressive[22]训练算法;
③前者是把英、日文引用文献信息分开标注, 并且没有标注卷标特征, 而后者则混合标注中、英文引用文献特征信息, 并且单独标注卷标特征。
根据嵌入中文专利文本的引文信息的特性, 本文提出利用模式匹配的方法提取专利、标准及其他专著的引用, 利用机器学习的方法提取学术论文的引用。由27个技术领域的中文专利构成的数据集测试结果可知: 提取专利和标准的精确度和查全度已达到92%以上, 而提取其他专著的查全度则只有71%, 这与部分其他专著的引用形式多样化且无规则性有关; 检测含有引文信息的精确度和查全度比采用类似方法分别提高4.1%和9.1%, 而提取6种文献特征的平均精确度和查全度则要分别高于所比较的方法9.1%和9.5%。经过实验结果的分析, 笔者考虑在今后的研究中结合模式匹配和机器学习的方法提取非专利引文信息。此外, 将扩大测试数据的领域覆盖度及人工标注集的规模, 从而为后续研究提供有力的支持。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|