Please wait a minute...
Advanced Search
现代图书情报技术  2013, Vol. 29 Issue (3): 38-44     https://doi.org/10.11925/infotech.1003-3513.2013.03.07
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
专利文本分类的基础问题研究
屈鹏, 王惠临
中国科学技术信息研究所 北京 100038
Fundamental Research Questions in Patent Text Categorization
Qu Peng, Wang Huilin
Institute of Scientific & Technical Information of China, Beijing 100038, China
全文: PDF (612 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 对专利文本分类中的基础问题进行研究,包括术语作为专利文本分类特征的适用性,主权项字段分类研究和相近主题对分类结果的影响等。研究在两种朴素贝叶斯分类器、kNN、Racchio和支持向量机等5个分类器上进行,测试主要采用交叉验证的方法。研究结果显示,在同样的设定下,采用术语作为特征的分类结果优于使用一般特征词;使用摘要训练,对主权项进行分类有助于改善主权项的分类效果;相近主题会降低分准率,有必要设计层次的分类器进行分类试验。研究结果可以为专利文本分类研究和实践提供参考数据,并可作为信息分析等工作使用专利文本分类技术的参考。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
屈鹏
王惠临
关键词 专利文本分类文本挖掘    
Abstract:The paper focuses on some fundamental problems in patent text categorization, including the feasibility of using terms for automatic categorization, the research on claim categorization, and the effect of classes with close-related topics on the categorization result. The research is executed on two Naive Bayesian classifiers, kNN, Racchio and SVM classifier, and cross validation is used for testing. The results of the paper are that terms are better than common features under the same settings, that training a classifier with abstracts can improve the claim categorization results, and that classes with close-related topics result in low precision and hierarchical design of classifier is necessary, correspondingly. The paper provides fundamental data for patent text categorization and can be referred by information analysis and other applications using patents.
Key wordsPatent    Text categorization    Text mining
收稿日期: 2013-03-08      出版日期: 2013-05-14
:  G353.1  
基金资助:本文系第51批中国博士后科学基金面上资助一等资助项目“科技文本信息资源中术语抽取与基于术语的分类与聚类”(项目编号:2012M510040)和中国科学技术信息研究所学科建设项目“自然语言处理”(项目编号:XK2012-6)的研究成果之一。
引用本文:   
屈鹏, 王惠临. 专利文本分类的基础问题研究[J]. 现代图书情报技术, 2013, 29(3): 38-44.
Qu Peng, Wang Huilin. Fundamental Research Questions in Patent Text Categorization. New Technology of Library and Information Service, 2013, 29(3): 38-44.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2013.03.07      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2013/V29/I3/38
[1] 李程雄, 丁月华, 文贵华. SVM-KNN组合改进算法在专利文本分类中的应用[J]. 计算机工程与应用 , 2006, 42(20): 193-195. (Li Chengxiong, Ding Yuehua, Wen Guihua. Application of SVM-kNN Combination Improvement Algorithm on Patent Text Classification[J]. Computer Engineering and Applications, 2006, 42(20): 193-195.)
[2] 丁月华, 文贵华, 郭炜强. 基于核向量空间模型的专利分类[J]. 华南理工大学学报:自然科学版 , 2005, 33(8): 58-61. (Ding Yuehua, Wen Guihua, Guo Weiqiang. Patent Categorization Based on Kernel Vector Space Model[J]. Journal of South China University of Technology: Natural Science Edition, 2005, 33(8): 58-61.)
[3] 郭炜强, 文军, 文贵华. 基于贝叶斯模型的专利分类[J]. 计算机工程与设计 , 2005, 26(8): 1986-1987,1996. (Guo Weiqiang, Wen Jun, Wen Guihua. Patent Categorization Based on Bayes Model[J]. Computer Engineering and Design, 2005, 26(8): 1986-1987,1996.)
[4] 蒋健安, 陆介平, 倪巍伟, 等. 一种面向专利文献数据的文本自动分类方法[J]. 计算机应用 , 2008, 28(1): 159-161. (Jiang Jian’an, Lu Jieping, Ni Weiwei, et al. Automatic Text Categorization for Patent Data[J]. Journal of Computer Applications, 2008, 28(1): 159-161.)
[5] 李生珍, 王建新, 齐建东, 等. 基于BP神经网络的专利自动分类法[J]. 计算机工程与设计 , 2010, 31(23): 5075-5078. (Li Shengzhen, Wang Jianxin, Qi Jiandong, et al. Automated Categorization of Patent Based on Back-propagation Network [J]. Computer Engineering and Design, 2010, 31(23): 5075-5078.)
[6] 季铎, 蔡云雷, 蔡东风, 等. 基于共享最近邻的专利自动分类技术研究[J]. 沈阳航空工业学院学报 , 2010, 27(4): 41-46. (Ji Duo, Cai Yunlei, Cai Dongfeng, et al. Patent Automatic Classification Research Based on Shared Nearest Neighbor [J]. Journal of Shenyang Institute of Aeronautical Engineering, 2010, 27(4): 41-46.)
[7] 褚晓雷. 基于机器学习的专利分类研究[D]. 上海: 上海交通大学, 2008. (Chu Xiaolei. Machine Learning Based Patent Categorization[D]. Shanghai: Shanghai Jiaotong University, 2008.)
[8] 叶志飞. 并行化最小最大模块化支撑向量机及其在专利分类中的应用[D]. 上海: 上海交通大学, 2009. (Ye Zhifei. Parallel Min-Max Modular Support Vector Machine with Application to Patent Classification[D]. Shanghai: Shanghai Jiaotong University, 2009.)
[9] Li Y Y,Bontcheva K,Cunningham H. SVM Based Learning System for F-term Patent Classification[C]. In: Proceedings of the 6th NTCIR Workshop Meeting on Evaluation of Information Access Technologies: Information Retrieval, Question Answering and CrossLingual Information Access. 2007.
[10] Fall C J, Törcsvári A, Benzineb K, et al. Automated Categorization in the International Patent Classification [J/OL]. ACM SIGIR Forum,2003,37(1):10-25. [2013-03-07]. http://www.sigir.org/forum/S2003/CJF_ Manuscript_sigir.pdf.
[11] Lai K K, Wu S J. Using the Patent Co-citation Approach to Establish a New Patent Classification System[J]. Information Processing and Management, 2005, 41(2): 313-330.
[12] Li X, Chen H, Zhang Z, et al. Automatic Patent Classification Using Citation Network Information: An Experimental Study in Nanotechnology[C].In: Proceedings of the 7th ACM/IEEE-CS Joint Conference on Digital Libraries. New York: ACM, 2007: 419-427.
[13] Porter M. The Porter Stemming Algorithm [EB/OL] . (2006-01-01). [2013-03-07]. http://tartarus.org/ ~martin/PorterStemmer/.
[14] 屈鹏, 王惠临. 面向信息分析的专利术语抽取研究[J]. 图书情报工作 , 2013, 57(1): 130-135. (Qu Peng, Wang Huilin. Patent Term Extraction for Information Analysis[J]. Library and Information Services, 2013, 57(1): 130-135.)
[15] Joachims T. Making Large-scale SVM Learning Practical[A] // Schölkopf B, Burges C, Smola A, eds. Advances in Kernel Methods-Support Vector Learning[M]. Cambridge, MA: MIT Press, 1999.
[1] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3] 张乐, 冷基栋, 吕学强, 崔卓, 王磊, 游新冬. RLCPAR:一种基于强化学习的中文专利摘要改写模型*[J]. 数据分析与知识发现, 2021, 5(7): 59-69.
[4] 黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[5] 高伊林,闵超. 中美对“一带一路”沿线技术扩散结构比较研究*[J]. 数据分析与知识发现, 2021, 5(6): 80-92.
[6] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[7] 许光,任明,宋城宇. 西方媒体新闻中的中国经济形象提取*[J]. 数据分析与知识发现, 2021, 5(5): 30-40.
[8] 代冰,胡正银. 基于文献的知识发现新近研究综述 *[J]. 数据分析与知识发现, 2021, 5(4): 1-12.
[9] 吕学强,罗艺雄,李家全,游新冬. 中文专利侵权检测研究综述*[J]. 数据分析与知识发现, 2021, 5(3): 60-68.
[10] 王艳, 王胡燕, 余本功. 基于多特征融合的中文文本分类研究*[J]. 数据分析与知识发现, 2021, 5(10): 1-14.
[11] 陈浩, 张梦毅, 程秀峰. 融合主题模型与决策树的跨地区专利合作关系发现与推荐*——以广东省和武汉市高校专利库为例[J]. 数据分析与知识发现, 2021, 5(10): 37-50.
[12] 关鹏,王曰芬,靳嘉林,傅柱. 专利合作视角下技术创新合作网络演化分析——以国内语音识别技术领域为例*[J]. 数据分析与知识发现, 2021, 5(1): 112-127.
[13] 余传明, 王曼怡, 林虹君, 朱星宇, 黄婷婷, 安璐. 基于深度学习的词汇表示模型对比研究*[J]. 数据分析与知识发现, 2020, 4(8): 28-40.
[14] 夏天. 面向中文学术文本的单文档关键短语抽取 *[J]. 数据分析与知识发现, 2020, 4(7): 76-86.
[15] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn