Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (12): 63-73     https://doi.org/10.11925/infotech.2096-3467.2017.0820
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
专利发明等级分类建模技术研究*
翟东升, 胡等金(), 张杰, 何喜军, 刘鹤
北京工业大学经济与管理学院 北京 100124
Hierarchical Classification Model for Invention Patents
Zhai Dongsheng, Hu Dengjin(), Zhang Jie, He Xijun, Liu He
School of Economics and Management, Beijing University of Technology, Beijing 100124, China
全文: PDF (1046 KB)   HTML ( 3
输出: BibTeX | EndNote (RIS)      
摘要 

目的】针对如何确定专利发明等级, 提出一种基于机器学习分类算法的专利发明等级分类模型。【方法】从专利文本中提取技术特征词, 利用Word2Vec训练的词向量模型构建专利技术特征向量, 计算专利文本指标和后向引用指标, 构造模型训练数据集, 采用机器学习分类算法构建分类模型。【结果】获取语音识别技术领域相关专利, 对领域专利数据分类, 高等级与低等级发明专利占比约为1︰4, 符合实际情况, 证明了该模型可行性。【局限】由于使用了WordNet 词典, 对于技术特征词汇的抽取会受到词典收录局限的影响。【结论】该模型可以对专利进行发明等级分类, 从而为企业推荐高发明等级的专利。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
翟东升
胡等金
张杰
何喜军
刘鹤
关键词 专利发明等级技术特征向量词向量机器学习    
Abstract

[Objective] This paper proposes a new model to process patent information based on machine learning classification algorithm, aiming to determine the level of invention. [Methods] First, we extracted the technology feature words from the patent texts. Then, we constructed the patent technology feature vector with an algorithm trained by Word2Vec. Third, we calculated patent text indicators and backward references to build the training set. Finally, we constructed the new model with machine learning classification algorithm. [Results] We retrieved patents in the field of speech recognition technology with the proposed model. We found that the proportion of advanced level to entry level patents was around 1:4, which was in line with the actual situation. [Limitations] The WordNet dictionary will limit the results of extraction. [Conclusions] The proposed model could effectively identify the advanced patents and recommend them to the business owners.

Key wordsPatent Invention Level    Technical Feature Vector    Word Vector    Machine Learning
收稿日期: 2017-08-15      出版日期: 2017-12-29
ZTFLH:  G350 TP311  
基金资助:*本文系北京市社会科学基金项目“要素异质性视角下京津冀现代制造产业转移路径研究”(项目编号: 15JGB124)和北京市自然科学基金项目“基于技术交易数据的京津冀科技协同创新潜力挖掘”(项目编号: 9172002)的研究成果之一
引用本文:   
翟东升, 胡等金, 张杰, 何喜军, 刘鹤. 专利发明等级分类建模技术研究*[J]. 数据分析与知识发现, 2017, 1(12): 63-73.
Zhai Dongsheng,Hu Dengjin,Zhang Jie,He Xijun,Liu He. Hierarchical Classification Model for Invention Patents. Data Analysis and Knowledge Discovery, 2017, 1(12): 63-73.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.0820      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I12/63
等级 描述 实验次数 专利百分比
1 1级发明不会消除冲突, 是最小的发明。1级意味着其方法驻留与一个单一的行业的边界, 并且是通过一个相关工程学科掌握的禁言来处理。 1-10 32.0%
2 所解决的问题涉及技术, 该问题通过相关系统的工程学科已知方法可以很容易解决。 10-100 45.0%
3 一个冲突驻留于同一学科的边界(或者说通过同一科学知识就能解决它)。 100-1000 19.0%
4 一个新的技术系统被合成。由于新的系统没有提及解决技术冲突, 或许这个新的发明没有克服该冲突。事实上, 冲突是存在的, 但是他们和旧的技术系统是相关的。在4级发明中, 冲突通过原理问题所属的科学边界来被消除。 1000-10000 ≤4.0%
5 发明就是一个困难问题的复杂网络。而实验次数的无限增长导致了一种全新的系统。这种发明推出一种新的系统, 随着时间的推移其伴随着各种等级的发明。一种新的技术被创造出来。 10000+ ≤0.3%
  TRIZ 发明5级分类表
  技术特征向量构建思路
参数名称 含义 取值
-train 训练数据 Patent.txt
-output 词向量输出文件 Word2vec_model.bin
-cbow 是否使用cbow模型
(1:是, 0:不是)
1
-size 词向量维数 400
-window 上下文窗口 5-10
-threads 线程数 8
-alpha 学习速率 默认值
-min_count 单词最小频数 5
-Algo 使用Negative sampling
  词向量训练参数设置
  专利发明等级分类模型研究思路
  模型训练数据集构建流程
  文本指标示意图
真实情况 预测结果
正例 反例
正例 TP FN
反例 FP TN
  分类混淆矩阵
  专利摘要文本
  专利文本技术特征
  专利文本预处理结果
  德温特摘要技术特征相似度阈值判断
  权利要求书技术特征相似度阈值判断
技术特征词 技术词汇重要性
‘lattice’ 1.012178089
‘module’ 0.40855953
‘concatenate’ 0.253707282
‘multiple’ 0.209988341
‘applies’ 0.165597509
‘field’ 0.148309666
…… ……
‘score’ 0.095205173
‘data’ 0.039488217
‘speech’ 0.02694872
‘recognition’ 0.018010984
  技术词汇重要性结果
专利号 权利要求书_已有
技术_关键词
权利要求书_
同小类_关键词
权利要求书_
同大类_关键词
权利要求书_
其他_关键词
US20020184373A1 0.202702703 0.027027 0 0
US20020161579A1 0.239130435 0 0 0.021739
US20010041980A1 0.246153846 0.015385 0 0
US20040049388A1 0.042857143 0.007143 0 0
US20050143989A1 0.141176471 0 0 0
US20060200348A1 0.193548387 0 0 0
US20060265225A1 0.41025641 0 0 0
US20060293899A1 0.212121212 0.015152 0 0
US6205425B1 0.257142857 0.028571 0 0
US20030055642A1 0.347826087 0 0 0
  权利要求书关键词的来源分布
专利号 权利要求书_已有
技术_非关键词
权利要求书_同
小类_非关键词
权利要求书_同
大类_非关键词
权利要求书_
其他_非关键词
权利要求书_
新词汇
US20020184373A1 0.581081 0.054054 0 0 0.135135
US20020161579A1 0.695652 0.021739 0 0 0.021739
US20010041980A1 0.723077 0 0 0 0.015385
US20040049388A1 0.935714 0.014286 0 0 0
US20050143989A1 0.811765 0.011765 0 0 0.035294
US20060200348A1 0.806452 0 0 0 0
US20060265225A1 0.589744 0 0 0 0
US20060293899A1 0.772727 0 0 0 0
US6205425B1 0.685714 0 0 0 0.028571
US20030055642A1 0.652174 0 0 0 0
  权利要求书普通词的来源分布
专利号 新颖性部分_已有
技术_关键词
新颖性部分_同小类_关键词 新颖性部分_同大类_
关键词
新颖性部分_其他_关键词
US20020184373A1 0.304347826 0.043478 0 0
US20020161579A1 0.666666667 0 0 0
US20010041980A1 0.545454545 0 0 0
US20040049388A1 0.571428571 0 0 0
US20050143989A1 0.75 0 0 0
US20060200348A1 0.818181818 0 0 0
US20060265225A1 0.4375 0 0 0
US20060293899A1 0.444444444 0 0.055556 0
US6205425B1 0.307692308 0.076923 0 0
US20030055642A1 1 0 0 0
  德温特摘要新颖性部分关键词的来源分布
专利号 新颖性部分_已有
技术_非关键词
新颖性部分_
同小类_非关键词
新颖性部分_同
大类_非关键词
新颖性部分_
其他_非关键词
新颖性部分_
新词汇
US20020184373A1 0.391304 0 0 0 0.26087
US20020161579A1 0.333333 0 0 0 0
US20010041980A1 0.363636 0 0 0 0.090909
US20040049388A1 0.428571 0 0 0 0
US20050143989A1 0.25 0 0 0 0
US20060200348A1 0.181818 0 0 0 0
US20060265225A1 0.5625 0 0 0 0
US20060293899A1 0.5 0 0 0 0
US6205425B1 0.615385 0 0 0 0
US20030055642A1 0 0 0 0 0
  德温特摘要新颖性部分普通词的来源分布
专利号 相同IPC比例 相同小类比例 相同大类比例 其他IPC比例 原创性指标 引用延迟指标
US20020184373A1 0.222222222 0.666667 0.111111 0 0.839111 1.256112
US20020161579A1 0.130434783 0.217391 0.086957 0.565217 0.93077 0.362692
US20010041980A1 0.888888889 0.111111 0 0 0.865133 0.964108
US20040049388A1 0.846153846 0.128205 0 0.025641 0.945875 0.76467
US20050143989A1 0.733333333 0.233333 0.033333 0 0.8492 0.618055
US20060200348A1 0.545454545 0.363636 0 0.090909 0.799255 0.280562
US20060265225A1 0.333333333 0.333333 0 0.333333 0.48 0.727931
US20060293899A1 0.285714286 0.285714 0.214286 0.214286 0.925187 0.15219
US6205425B1 0.333333333 0.666667 0 0 0.328125 0.646833
US20030055642A1 0.444444444 0.333333 0 0.222222 0.577402 0.361963
  后向引用指标数据
训练算法 准确率 召回率 F1值
贝叶斯 70.40% 73.20% 0.7177
决策树 68.30% 60.20% 0.6399
随机森林 81.20% 75.10% 0.7803
支持向量机 73.90% 72.70% 0.7329
逻辑回归 69.40% 70.50% 0.6994
人工神经网络 83.50% 80.10% 0.8176
  0 各算法性能比较
  专利发明等级分布
[1] Mann D L.Better Technology Forecasting Using Systematic Innovation Methods[J]. Technological Forecasting & Social Change, 2003, 70(8): 779-795.
doi: 10.1016/S0040-1625(02)00357-8
[2] 张剑, 屈丹, 李真. 基于词向量特征的循环神经网络语言模型[J]. 模式识别与人工智能, 2015, 28(4): 299-305.
doi: 10.16451/j.cnki.issn1003-6059.201504002
[2] (Zhang Jian, Qu Dan, Li Zhen.Recurrent Neural Network Language Model Based on Word Vector Features[J]. Pattern Recognition and Artificial Intelligence, 2015, 28(4): 299-305.)
doi: 10.16451/j.cnki.issn1003-6059.201504002
[3] Bengio Y.Deep Learning of Representations: Looking Forward[C]// Proceedings of the 1st International Conference on Statistical Language and Speech Processing, Tarragona, Spain. Berlin, Heidelberg: Springer, 2013: 1-37.
[4] Wolf L, Hanani Y, Bar K, et al.Joint Word2Vec Networks for Bilingual Semantic Representations[J]. International Journal of Computational Linguistics and Applications, 2014, 5(1): 27-44.
[5] Su Z, Xu H, Zhang D, et al.Chinese Sentiment Classification Using a Neural Network Tool—Word2Vec[C]//Proceedings of the 2014 International Conference on Multisensor Fusion and Information Integration for Intelligent Systems, Beijing, China. Piscataway, USA: IEEE, 2014: 1-6.
[6] Mikolov T, Chen K, Corrado G, et al.Efficient Estimation of Word Representations in Vector Space[OL]. arXiv Preprint, arXiv: 1301. 3781.
[7] 根里奇·斯拉维奇·阿奇舒勒. 创新算法[M]. 谭培波, 茹海燕, Wenling Babbitt 译. 武汉: 华中科技大学出版社, 2008.
[7] (Genrikh Altshuller.The Innovation Algorithm: TRIZ, Systematic Innovation and Technical Creativity [M]. Translated by Tan Peibo, Ru Haiyan, Wenling Babbitt. Wuhan: Huazhong University of Science and Technology Press, 2008.)
[8] Li Z, Tate D, Lane C, et al.A Framework for Automatic TRIZ Level of Invention Estimation of Patents Using Natural Language Processing, Knowledge-transfer and Patent Citation Metrics[J]. Computer-Aided Design, 2012, 44(10): 987-1010.
doi: 10.1016/j.cad.2011.12.006
[9] 王艳领. 专利等级划分方法的研究与实现[D]. 天津: 河北工业大学, 2011.
[9] (Wang Yanling.Research and Implementation of the Mean of the Patent Classification [D]. Tianjin: Hebei University of Technology, 2011.)
[10] Regazzoni D, Nani R.TRIZ-Based Patent Investigation by Evaluating Inventiveness[A]// Computer-Aided Innovation (CAI)[M]. Springer US, 2008: 247-258.
[11] Verbitsky M.Semantic TRIZ[R]. Boston: Invention Machine Corporation, 2004.
[12] 张惠, 邱清盈, 冯培恩, 等. 产品专利设计知识获取方法研究[J]. 哈尔滨工程大学学报, 2009, 30(7): 785-791.
doi: 10.3969/j.issn.1006-7043.2009.07.012
[12] (Zhang Hui, Qiu Qingying, Feng Peien, et al.An Automated Method for Acquiring Design Knowledge from Product Patents[J]. Journal of Harbin Engineering University, 2009, 30(7): 785-791.)
doi: 10.3969/j.issn.1006-7043.2009.07.012
[13] 袁里驰. 基于改进的隐马尔科夫模型的词性标注方法[J]. 中南大学学报: 自然科学版, 2012, 43(8): 3053-3057.
[13] (Yuan Lichi.A Part-of-Speech Tagging Method Based on Improved Hidden Markov Model[J]. Jouranl of Central South University: Science and Technology, 2012, 43(8): 3053-3057.)
[14] Porter M F.An Algorithm for Suffix Stripping[A]// Readings in Information Retrieval[M]. Morgan Kaufmann Publishers Inc., 2006: 130-137.
[15] 吴思竹, 钱庆, 胡铁军, 等. 词形还原方法及实现工具比较分析[J]. 现代图书情报技术, 2012(3): 27-34.
[15] (Wu Sizhu, Qian Qing, Hu Tiejun, et al.Contrast Analysis of Methods and Tools for Lemmatization[J]. New Technology of Library and Information Service, 2012(3): 27-34.)
[16] 饶齐, 王裴岩, 张桂平. 面向中文专利SAO结构抽取的文本特征比较研究[J]. 北京大学学报: 自然科学版, 2015, 51(2): 349-356.
doi: 10.13209/j.0479-8023.2015.049
[16] (Rao Qi, Wang Peiyan, Zhang Guiping.Text Feature Analysis on SAO Structure Extraction from Chinese Patent Literatures[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2015, 51(2): 349-356.)
doi: 10.13209/j.0479-8023.2015.049
[17] 李欣, 王静静, 杨梓, 等. 基于SAO结构语义分析的新兴技术识别研究[J]. 情报杂志, 2016, 35(3): 80-84.
[17] (Li Xin, Wang Jingjing, Yang Zi, et al.Identifying Emerging Technologies Based on Subject-Action-Object[J]. Journal of Intelligence, 2016, 35(3): 80-84.)
[18] 许幸荣. 基于SAO结构分析的技术发展路径预测研究[D]. 北京: 北京理工大学, 2015.
[18] (Xu Xingrong.Research on Forecasting Technological Development Paths Based on SAO Structure Analysis[D]. Beijing: Beijing Institute of Technology, 2015.)
[1] 王寒雪,崔文娟,周园春,杜一. 基于机器学习的食源性疾病致病菌识别方法*[J]. 数据分析与知识发现, 2021, 5(9): 54-62.
[2] 陈东华,赵红梅,尚小溥,张润彤. 数据驱动的大型医院手术室运营预测与优化方法研究*[J]. 数据分析与知识发现, 2021, 5(9): 115-128.
[3] 车宏鑫,王桐,王伟. 前列腺癌预测模型对比研究*[J]. 数据分析与知识发现, 2021, 5(9): 107-114.
[4] 张建东, 陈仕吉, 徐小婷, 左文革. 基于词向量的PDF表格抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 34-44.
[5] 苏强, 侯校理, 邹妮. 基于机器学习组合优化方法的术后感染预测模型研究*[J]. 数据分析与知识发现, 2021, 5(8): 65-75.
[6] 曹睿,廖彬,李敏,孙瑞娜. 基于XGBoost的在线短租市场价格预测及特征分析模型*[J]. 数据分析与知识发现, 2021, 5(6): 51-65.
[7] 钟佳娃,刘巍,王思丽,杨恒. 文本情感分析方法及应用综述*[J]. 数据分析与知识发现, 2021, 5(6): 1-13.
[8] 向卓元,刘志聪,吴玉. 基于用户行为自适应推荐模型研究 *[J]. 数据分析与知识发现, 2021, 5(4): 103-114.
[9] 戴志宏, 郝晓玲. 上下位关系抽取方法及其在金融市场的应用*[J]. 数据分析与知识发现, 2021, 5(10): 60-70.
[10] 柴国荣,王斌,沙勇忠. 基于多机器学习方法联合的公共卫生风险预测研究——以兰州市流感预测为例*[J]. 数据分析与知识发现, 2021, 5(1): 90-98.
[11] 陈东,王建冬,李慧颖,蔡思航,黄倩倩,易成岐,曹攀. 融合机器学习算法和多因素的禽肉交易量预测方法研究 *[J]. 数据分析与知识发现, 2020, 4(7): 18-27.
[12] 梁野,李小元,许航,胡伊然. CLOpin:一种面向舆情分析与预警领域的跨语言知识图谱架构*[J]. 数据分析与知识发现, 2020, 4(6): 1-14.
[13] 魏庭新,柏文雷,曲维光. 词向量和语义知识相结合的汉语未登录词语义预测研究*[J]. 数据分析与知识发现, 2020, 4(6): 109-117.
[14] 杨恒,王思丽,祝忠明,刘巍,王楠. 基于并行协同过滤算法的领域知识推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 15-21.
[15] 王树义,刘赛,马峥. 基于深度迁移学习的微博图像隐私分类研究*[J]. 数据分析与知识发现, 2020, 4(10): 80-92.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn