数据分析与知识发现  2022, Vol. 6 Issue (2/3): 129-137
中山大学信息管理学院 广州 510006
Multi-label Patent Classification with Pre-training Model
Tong Xinyu,Zhao Ruijie,Lu Yonghe()
School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China
【目的】 提高专利自动分类效果,准确地为专利申请书匹配适合的一个或多个IPC分类号。【方法】 构建了大规模中文专利数据集(CNPatents),选取IPC分类号中的前4位作为分类标签,使用BERT、RoBERTa和RBT3模型进行训练和测试。【结果】 实验结果表明,在含有600多个类别的分类任务中,最好的模型分类准确率为0.756,Micro-F1值为0.597;经过高频标签筛选后,准确率提升到0.912,Micro-F1值提升到0.717。【局限】 作为训练集的专利文本存在数据不平衡的状况,对训练集进行高频标签筛选仍未完全解决该问题,需要进一步扩大专利数据集规模。【结论】 实现了多标签专利的自动分类,并通过高频标签筛选进一步提升了模型的分类效果。

关键词 专利分类预训练模型专利文本表示    

[Objective] This paper tries to improve the automatic patent classification method and accurately match patent applications with one or more suitable IPC classification numbers. [Methods] We constructed a large-scale Chinese patent dataset (CNPatents), and used the first four digits of IPC classification numbers as labels. Then, we utilized BERT, RoBERTa, and RBT3 models for training and testing. [Results] For our classification task with more than 600 labels, the best model reached an accuracy of 75.6% and a Micro-F1 value of 59.7%. After high-frequency label screening, the accuracy and the Micro-F1 value increased to 91.2% and 71.7%. [Limitations] The patent documents as the training set have extreme data imbalance issue, which needs more research to improve the high-frequency tag screening for the training. [Conclusions] This paper realizes the automatic classification of multi-label patents and further improves the performance of classification model with high-frequency label screening.

Key wordsPatent Classification    Pre-Training Model    Patent Text Representation
收稿日期: 2021-08-30      出版日期: 2022-04-14
ZTFLH:  G350  
通讯作者: 路永和,ORCID: 0000-0002-7758-9365     E-mail:
佟昕瑀, 赵蕊洁, 路永和. 基于预训练模型的多标签专利分类研究*[J]. 数据分析与知识发现, 2022, 6(2/3): 129-137.
Tong Xinyu, Zhao Ruijie, Lu Yonghe. Multi-label Patent Classification with Pre-training Model. Data Analysis and Knowledge Discovery, 2022, 6(2/3): 129-137.
Fig.1  Transformer模型示意图[6]
Fig.2  BERT对输入文本的词向量嵌入处理[7]
说明 样例
原始文本 使用语言模型来预测下一个词的probability。
分词文本 使用 语言 模型 来 预测 下 一个 词 的 probability 。
原始遮盖输入 使 用 语 言 [MASK] 型 来 [MASK] 测 下 一 个 词 的 pro [MASK] ##lity 。
全词遮盖输入 使 用 语 言 [MASK] [MASK] 来 [MASK] [MASK] 下 一 个 词 的 [MASK] [MASK] [MASK] 。
Table 1  全词遮盖生成样例[18]
Fig.3  基于预训练模型的多标签专利分类实验架构
数据集名称 专利文本数量 标签数量 训练集 测试集
CNPatents-Large 1 033 917 654 827 134 206 783
CNPatents-Small 398 527 638 318 822 79 705
Table 2  数据集详情
数据集 专利文本量 标签数量 训练集 测试集
CNPatents-Large(30) 685 133 30 548 106 137 027
CNPatents-Small(30) 314 424 30 251 539 62 885
Table 3  高频标签筛选后的数据集详情
分类标签 文本数/篇 分类标签 文本数/篇 分类标签 文本数/篇
G06F 43 183 H04W 12 522 G01R 7 086
Y02E 28 405 Y02P 12 126 H02J 7 086
G06K 26 263 H01M 9 922 G01S 6 809
H04L 24 516 Y02A 9 625 G05B 6 506
G06Q 23 626 Y02T 8 473 C08L 6 494
G01N 17 212 B01D 8 201 Y02B 6 484
G06N 15 570 A61K 8 191 C04B 6 410
G06T 15 059 C02F 7 370 B01J 6 340
H01L 13 611 A61B 7 215 C22C 6 288
H04N 12 730 C08K 7 120 G02B 6 189
Table 4  高频标签筛选后的CNPatents-Large(30)数据集详情
分类标签 文本数/篇 分类标签 文本数/篇 分类标签 文本数/篇
G06F 12 344 H04W 2 819 G01R 1 740
G06K 9 209 Y02P 2 554 A61K 1 714
G06Q 7 293 H01M 2 537 G08G 1 681
Y02E 7 054 Y02T 2 226 Y02B 1 654
G06N 6 566 Y02A 2 196 H02J 1 653
H04L 6 534 B01D 1 931 G05D 1 637
G06T 4 885 G01S 1 883 G05B 1 635
G01N 4 110 A61B 1 825 B25J 1 618
H01L 3 725 C22C 1 793 F24F 1 599
H04N 3 616 B08B 1 792 G02B 1 560
Table 5  高频标签筛选后的CNPatents-Small(30)数据集详情

BERT-wwm-ext RoBERTa-wwm-ext RBT3
词汇遮盖方式 Whole Word Masking Whole Word Masking Whole Word Masking
原始模型 BERT-base BERT-base BERT-base
数据来源 中文维基百科,其他百科、新闻、问答等数据,总词数达54亿。 中文维基百科,其他百科、新闻、问答等数据,总词数达54亿。 中文维基百科,其他百科、新闻、问答等数据,总词数达54亿。
训练步长 1MMAX128+400KMAX512 1MMAX512 1MMAX512+1MMAX512
训练集样本数量 2,560 / 384 384 384
优化器 LAMB AdamW AdamW
词汇表 21 128 21 128 21 128
Table 6  本文使用的模型具体数据
分类任务名称 输出层使用的激活函数 对应的损失函数
多标签分类 Sigmoid() BCEWithLogitsLoss()
Table 7  分类任务使用的激活函数及损失函数
环境 配置参数
处理器 INTEL XEON GOLD 6139M (2.3~3.7 GB)
显卡 NVIDIA GeForce RTX 2080 Ti
内存 8 × 11 GB
操作系统 Ubuntu 16.04 64bit
语言 Python
Table 8  实验环境配置参数
参数 设定值
Table 9  实验参数设置

Positive Negative
Positive TP(预测结果为正的正样本) FP(预测结果为正的负样本)
Negative FN(预测结果为负的正样本) TN(预测结果为负的负样本)
Table 10  模型评价的混淆矩阵

CNPatents-Large CNPatents-Small
准确率 Micro-F1 准确率 Micro-F1
BERT-wwm-ext 0.659 0.597 0.756 0.506
RoBERTa-wwm-ext 0.657 0.594 0.746 0.470
RBT3 0.646 0.567 0.736 0.439
Table 11  多标签专利分类实验结果

CNPatents-Large CNPatents-Small
准确率 Micro-F1 准确率 Micro-F1
BERT-wwm-ext 0.862 0.717 0.912 0.693
RoBERTa-wwm-ext 0.863 0.717 0.912 0.696
RBT3 0.860 0.707 0.910 0.669
Table 12  高频标签筛选后的实验结果
