Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (5): 68-76     https://doi.org/10.11925/infotech.2096-3467.2018.0659
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
融合表示学习与机器学习的专利科学引文标题自动抽取研究*
张金柱(),胡一鸣
南京理工大学经济管理学院 南京 210094
Extracting Titles from Scientific References in Patents with Fusion of Representation Learning and Machine Learning
Jinzhu Zhang(),Yiming Hu
School of Economics and Management, Nanjing University of Science and Technology, Nanjing 210094, China
全文: PDF (731 KB)   HTML ( 11
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】针对专利引文类别繁多的问题, 研究自动识别其中专利科学引文这一特定类别的方法, 进而准确抽取专利科学引文的标题特征项, 支撑后续专利科学引文深度分析与挖掘。【方法】引入表示学习方法Doc2Vec实现专利科学引文整体的语义向量表示, 结合机器学习分类方法实现专利科学引文这一特定类别的识别; 在此基础上, 利用表示学习方法实现专利科学引文标题等内容元数据的语义向量表示, 结合机器学习分类方法抽取专利科学引文标题。【结果】在基因领域专利的实验中, 专利科学引文的识别精确率达到99.27%, 专利科学引文标题抽取精确率达到92.59%, 抽取精确率较单纯的机器学习方法提高5.96%。【局限】人工标注训练集较为耗时; 对实验数据格式有一定要求。【结论】本文方法在专利科学引文识别和标题抽取上具有良好效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
张金柱
胡一鸣
关键词 专利科学引文元数据抽取机器学习表示学习    
Abstract

[Objective] This paper aims to automatically identify scientific references in patent(SRP), and then extract titles from SRP to support in-depth data mining. [Methods] Firstly, we used the Doc2Vec method to generate vectors for the patent citations. Then, we identified the SRPs with support vector machine (SVM). Third, we created vectors for the metadata (such as titles) of SRP, and extracted titles with SVM. [Results] We examined the proposed method with patent citations from the genetic field. The accuracy of SRP recognition and titles extraction reached 99.27% and 92.59% respectively. The latter was 5.96% higher than those of the traditional methods. [Limitations] Manually tagging the training set was very time consuming, and there are format requirements for the experimental data. [Conclusions] The proposed method could effectively identify and extract patent citations and titles.

Key wordsScientific References in Patent    Metadata Extraction    Machine Learning    Representation Learning
收稿日期: 2018-06-20      出版日期: 2019-07-03
基金资助:*本文系国家自然科学基金青年项目“基于被引科学知识突变的突破性创新动态识别及其形成机理研究”(项目编号: 71503125)、国家重点研发计划子课题“知识产权大数据挖掘技术、智能推送技术及应用示范”(项目编号: 2017YFB1401903)、江苏省社会科学基金青年项目“基于社团结构动态演化的主题突变监测与形成机制研究”(项目编号: 17TQC003)和中央高校基本科研业务费专项资金“基于表示学习的专利科学引文元数据抽取研究”(项目编号: 30918013108)的研究成果之一
引用本文:   
张金柱,胡一鸣. 融合表示学习与机器学习的专利科学引文标题自动抽取研究*[J]. 数据分析与知识发现, 2019, 3(5): 68-76.
Jinzhu Zhang,Yiming Hu. Extracting Titles from Scientific References in Patents with Fusion of Representation Learning and Machine Learning. Data Analysis and Knowledge Discovery, 2019, 3(5): 68-76.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.0659      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2019/V3/I5/68
[1] Narin F, Hamilton K S, Olivastro D.The Increasing Linkage Between U.S. Technology and Public Science[J]. Research Policy, 1997, 26(3): 317-330.
[2] 姜霖, 王东波. 引文元数据的自动发现和标注方法研究——以外文引文为例[J]. 数据分析与知识发现, 2017, 1(1): 47-54.
[2] (Jiang Lin, Wang Dongbo.Automatically Detecting and Tagging Foreign Language Citation Metadata[J]. Data Analysis and Knowledge Discovery, 2017, 1(1): 47-54.)
[3] 高霞, 官建成. 非专利引文衍生的科学期刊共被引网络分析[J]. 科学学研究, 2010, 28(5): 675-680.
[3] (Gao Xia, Guan Jiancheng.Co-citation Analysis of Scientific Journal Networks Derived from Non-patent Reference[J]. Studies in Science of Science, 2010, 28(5): 675-680.)
[4] Wei W, King I, Lee H M.Bibliographic Attributes Extraction with Layer-upon-Layer Tagging[C]// Proceedings of the 9th International Conference on Document Analysis and Recognition. 2007: 804-808.
[5] 钱建立, 吴广茂, 蒋路. 基于特征相似度的科技论文元数据提取算法研究[J]. 微电子学与计算机, 2008, 25(8): 129-132.
[5] (Qian Jianli, Wu Guangmao, Jiang Lu.Research on Paper Metadata Extraction Algorithm Based on Feature Similarity[J]. Microelectronics and Computer, 2008, 25(8): 129-132.)
[6] 杨宇, 张铭, 周宝曜. 基于多种规则的课程元数据自动抽取[J]. 计算机科学, 2008, 35(3): 94-96.
[6] (Yang Yu, Zhang Ming, Zhou Baoyao.A Rule-based Metadata Extractor for Learning Materials[J]. Computer Science, 2008, 35(3): 94-96.)
[7] Day M Y, Tsai T H, Sung C L, et al.Reference Metadata Extraction Using a Hierarchical Knowledge Representation Framework[J]. Decision Support Systems, 2007, 43(1): 152-167.
[8] Cortez E, Silva A S D, Mesquita F, et al. FLUX-CIM: Flexible Unsupervised Extraction of Citation Metadata[C]// Proceedings of the 7th ACM/IEEE-CS Joint Conference on Digital Libraries. ACM, 2007: 215-224.
[9] Seymore K, McCallum A, Rosenfeld R. Learning Hidden Markov Model Structure for Information Extraction[C]// Proceedings of the 1999 AAAI Workshop on Machine Learning for Information Extraction. 1999: 37-42.
[10] Nanba H, Anzen N, Okumura M.Automatic Extraction of Citation Information in Japanese Patent Applications[J]. International Journal on Digital Libraries, 2008, 9(2): 151-161.
[11] Han H, Giles C L, Manavoglu E, et al.Automatic Document Metadata Extraction Using Support Vector Machines[C]// Proceedings of the 2003 Joint Conference on Digital Libraries. IEEE, 2003: 37-48.
[12] 张铭, 银平, 邓志鸿, 等. SVM+BiHMM: 基于统计方法的元数据抽取混合模型[J]. 软件学报, 2008, 19(2): 358-368.
[12] (Zhang Ming, Yin Ping, Deng Zhihong, et al.SVM+BiHMM: A Hybrid Statistic Model for Metadata Extraction[J]. Journal of Software, 2008, 19(2): 358-368.)
[13] 蒋新. 英美学术文献的几种主要引文方式[J]. 图书与情报, 2003(3): 26-30.
[13] (Jiang Xin.Several Main Quotation Ways in British-American Academic Documents[J]. Library and Information, 2003(3): 26-30.)
[14] Le Q, Mikolov T.Distributed Representations of Sentences and Documents[C]// Proceedings of the 2014 International Conference on Machine Learning. 2014: 1188-1196.
[15] Mikolov T, Chen K, Corrado G, et al.Efficient Estimation of Word Representations in Vector Space[OL]. arXiv Preprint. arXiv: 1301.3781.
[16] Hinton G E.Learning Distributed Representations of Concepts[C]// Proceedings of the 8th Annual Conference of the Cognitive Science Society. 1986: 1-12.
[17] 于政. 基于深度学习的文本向量化研究与应用[D]. 上海:华东师范大学, 2016.
[17] (Yu Zheng.The Study and Application of Text Embeddings with Deep Learning Technique[D]. Shanghai: East China Normal University, 2016.)
[1] 王寒雪,崔文娟,周园春,杜一. 基于机器学习的食源性疾病致病菌识别方法*[J]. 数据分析与知识发现, 2021, 5(9): 54-62.
[2] 陈东华,赵红梅,尚小溥,张润彤. 数据驱动的大型医院手术室运营预测与优化方法研究*[J]. 数据分析与知识发现, 2021, 5(9): 115-128.
[3] 车宏鑫,王桐,王伟. 前列腺癌预测模型对比研究*[J]. 数据分析与知识发现, 2021, 5(9): 107-114.
[4] 苏强, 侯校理, 邹妮. 基于机器学习组合优化方法的术后感染预测模型研究*[J]. 数据分析与知识发现, 2021, 5(8): 65-75.
[5] 曹睿,廖彬,李敏,孙瑞娜. 基于XGBoost的在线短租市场价格预测及特征分析模型*[J]. 数据分析与知识发现, 2021, 5(6): 51-65.
[6] 钟佳娃,刘巍,王思丽,杨恒. 文本情感分析方法及应用综述*[J]. 数据分析与知识发现, 2021, 5(6): 1-13.
[7] 陈文杰,文奕,杨宁. 基于节点向量表示的模糊重叠社区划分算法*[J]. 数据分析与知识发现, 2021, 5(5): 41-50.
[8] 向卓元,刘志聪,吴玉. 基于用户行为自适应推荐模型研究 *[J]. 数据分析与知识发现, 2021, 5(4): 103-114.
[9] 张鑫,文奕,许海云. 一种融合表示学习与主题表征的作者合作预测模型*[J]. 数据分析与知识发现, 2021, 5(3): 88-100.
[10] 张金柱, 于文倩. 基于短语表示学习的主题识别及其表征词抽取方法研究[J]. 数据分析与知识发现, 2021, 5(2): 50-60.
[11] 余传明, 张贞港, 孔令格. 面向链接预测的知识图谱表示模型对比研究*[J]. 数据分析与知识发现, 2021, 5(11): 29-44.
[12] 柴国荣,王斌,沙勇忠. 基于多机器学习方法联合的公共卫生风险预测研究——以兰州市流感预测为例*[J]. 数据分析与知识发现, 2021, 5(1): 90-98.
[13] 余传明, 王曼怡, 林虹君, 朱星宇, 黄婷婷, 安璐. 基于深度学习的词汇表示模型对比研究*[J]. 数据分析与知识发现, 2020, 4(8): 28-40.
[14] 陈东,王建冬,李慧颖,蔡思航,黄倩倩,易成岐,曹攀. 融合机器学习算法和多因素的禽肉交易量预测方法研究 *[J]. 数据分析与知识发现, 2020, 4(7): 18-27.
[15] 梁野,李小元,许航,胡伊然. CLOpin:一种面向舆情分析与预警领域的跨语言知识图谱架构*[J]. 数据分析与知识发现, 2020, 4(6): 1-14.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn