Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (12): 52-60    DOI: 10.11925/infotech.2096-3467.2019.0554
     研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于专利科学引文内容表示学习的科学技术主题关联分析研究 *
张金柱1,2(),王玥1,胡一鸣1
1 南京理工大学经济管理学院 南京 210094
2 江苏省社会公共安全科技协同创新中心 南京 210094
Analyzing Sci-Tech Topics Based on Semantic Representation of Patent References
Jinzhu Zhang1,2(),Yue Wang1,Yiming Hu1
1 School of Economics and Management, Nanjing University of Science and Technology, Nanjing 210094, China
2 Jiangsu Collaborative Innovation Center of Social Safety Science and Technology, Nanjing 210094, China
全文: PDF(2200 KB)   HTML ( 6
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】从专利科学引文的文本内容语义表示角度, 形成专利科学引文内容挖掘技术和方法, 探索科学技术在内容层次上的关联关系, 提高科学技术关联分析的准确性、全面性和可解释性。【方法】识别和抽取专利科学引文的关键词、摘要等特征项表示专利科学引文内容, 利用文本表示学习方法对内容特征项进行语义向量表示, 基于向量相似度计算方法计算特征项间的语义相似度, 进而通过聚类方法分别得到专利技术与专利科学引文内容的研究主题, 并分析特定领域科学技术间的主题关联。【结果】在纳米技术领域的实证分析表明, 该方法能更好地发现科学技术间主题映射和关键词对应关系, 从内容角度深入分析了科学技术间的主题关联关系。【局限】仅从专利以及专利科学引文的摘要和关键词层面进行探索性研究, 使得专利全文本内容表示和分析的广度和深度还不够,分析维度的多样化还需加强。【结论】该方法能够从内容层面提高科学技术间的主体关联分析效果, 结果可解释性更强。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
张金柱
王玥
胡一鸣
关键词 专利科学引文表示学习主题关联内容挖掘    
Abstract

[Objective] This paper explores the content mining method for scientific references in patent (SRP) based on text semantic representation. It also improves the accuracy, comprehensiveness and interpretability of knowledge flow analysis. [Methods] Firstly, we extracted keywords and abstracts from patents to represent the SRPs and created vectors for these items. Then, we computed the distance between vectors to calculate their semantic similarities. Finally, we obtained and mapped the topics of patents and SRP contents from the field of nanotechnology. [Results] We found our method could map relationship among sci-tech topics from the content perspective effectively. [Limitations] We only conducted exploratory research with abstracts and keywords rather than full texts. [Conclusions] The proposed method improves the knowledge flow analysis of patents.

Key wordsScientific References in Patent    Representation Learning    Topic Linkage    Content Mining
收稿日期: 2019-05-24     
中图分类号:  G254  
基金资助:*本文系国家自然科学基金面上项目“基于表示学习的专利信息语义融合与深度挖掘研究”(项目编号: 71974095);国家重点研发计划子课题“知识产权大数据挖掘技术、智能推送技术及应用示范”(项目编号: 2017YFB1401903);江苏省社会科学基金青年项目“基于社团结构动态演化的主题突变监测与形成机制研究”(项目编号: 17TQC003)
通讯作者: 张金柱     E-mail: zhangjinzhu@njust.edu.cn
引用本文:   
张金柱,王玥,胡一鸣. 基于专利科学引文内容表示学习的科学技术主题关联分析研究 *[J]. 数据分析与知识发现, 2019, 3(12): 52-60.
Jinzhu Zhang,Yue Wang,Yiming Hu. Analyzing Sci-Tech Topics Based on Semantic Representation of Patent References. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2019.0554.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0554
图1  专利科学引文内容特征项识别与抽取
图2  Word2Vec模型
图3  专利科学引文摘要向量聚类可视化展示
聚类 聚类中心点(专利标题) 应用方向
1 Study of fire retardant behavior of carbon nanotube membranes and carbon nanofiber paper in
carbon fiber reinforced epoxy composites
纳米材料领域
2 Gold nanoparticle probes for the detection of nucleic acid targets 纳米生物领域
3 Binding properties of replication protein A from human and yeast cells 纳米生物/纳米医学领域
4 Selective retention of bone marrow-derived cells to enhance spinal fusion 纳米生物/纳米医学领域
5 An investigation of plasma chemistry for dc plasma enhanced chemical vapour deposition of
carbon nanotubes and nanofibres
纳米材料领域
表1  专利科学引文摘要各聚类中心点
图4  专利摘要向量聚类可视化展示
聚类 聚类中心点
(专利号)
聚类中心点
(专利标题)
应用方向
1 8895067 Immune response stimulating
composition comprising
nanoparticles based on a methyl
vinyl ether-maleic acid copolymer
纳米生物/纳米材料领域
2 8288759 Vertical stacking of carbon
nanotube arrays for current
enhancement and control
纳米材料
领域
3 8124518 Semiconductor heterostructure
nanowire devices
纳米材料
领域
表2  专利摘要各聚类中心点
图5  纳米技术领域专利词语聚类及共现图
图6  纳米技术领域专利科学引文词语聚类及共现图
排序 专利关键词 专利科学引文关键词
1
2
3
4
5
6
7
8
9
10
graphene
nanoparticles
quantum
molecular
substrate
semiconductor
carbon
nanotubes
magnetic
nanowire
cell
nanoparticles
dna
patients
surface
membrane
tumor
hypoxia
materials
nanptubes
表3  专利及专利科学引文关键词(top10)
相似度
关键词
cell dna patients surface membrane
graphene
quantum
molecular
substrate
semiconductor
0.132352
0.245108
0.217644
0.314112
0.177933
0.300034
0.147008
0.160576
0.106681
0.220436
0.103014
0.003866
0.057919
-0.02874
-0.01617
0.163717
0.164707
0.19299
0.632933
0.258763
0.25389
0.17078
0.202147
0.484191
0.213334
表4  关键词相似度计算结果
[1] 陈凯, 徐峰, 程如烟 . 非专利引文分析研究进展[J]. 图书情报工作, 2015,59(5):137-144.
( Chen Kai, Xu Feng, Cheng Ruyan . Review on Development of Non-Patent References Research[J]. Library and Information Service, 2015,59(5):137-144.)
[2] 陈亮, 张志强, 尚玮姣 . 专利引文分析方法研究进展[J]. 现代图书情报技术, 2013(7/8):75-81.
( Chen Liang, Zhang Zhiqiang, Shang Weijiao . Reviews on Development of Patent Citation Research[J]. New Technology of Library and Information Service, 2013(7/8):75-81.)
[3] Narin F . Patent Bibliometrics[J]. Scientometrics, 1994,30(1):147-155.
[4] Narin F, Breitzman A, Thomas P . Using Patent Citation Indicators to Manage a Stock Portfolio[M]. Springer Netherlands, 2004.
[5] Verbeek A, Debackere K, Luwel M , et al. Linking Science to Technology: Using Bibliographic References in Patents to Build Linkage Schemes[J]. Scientometrics, 2002,54(3):399-420.
[6] Breschi S, Catalini C . Tracing the Links Between Science and Technology: An Exploratory Analysis of Scientists’ and Inventors’ Networks[J]. Research Policy, 2010,39(1):14-26.
[7] 赵黎明, 高杨, 韩宇 . 专利引文分析在知识转移机制研究中的应用[J]. 科学学研究, 2002,20(3):297-300.
( Zhao Liming, Gao Yang, Han Yu . Application of Patent Citation Analysis to the Research of Knowledge-transfer Mechanism[J]. Studies in Science of Science, 2002,20(3):297-300.)
[8] 赵黎明, 李海霞, 韩宇 . 基于数据挖掘的专利引文研究与知识发现[J]. 预测, 2002,21(6):6-9.
( Zhao Liming, Li Haixia, Han Yu . The Analysis of Citation in Patents and Knowledge Discovery Based on Data Mining[J]. Forecasting, 2002,21(6):6-9.)
[9] Callaert J, Looy B V . Delineating the Scientific Footprint in Technology: Identifying Scientific Publications within Non-patent References[J]. Scientometrics, 2012,91(2):383-398.
[10] 张金柱, 张晓林 . 利用引用科学知识突变识别突破性创新[J]. 情报学报, 2014,33(3):259-266.
( Zhang Jinzhu, Zhang Xiaolin . Identification of Radical Innovation Based on Mutation of Cited Scientific Knowledge[J]. Journal of the China Society for Scientific and Technical Information, 2014,33(3):259-266.)
[11] 赵志耘, 雷孝平 . 我国生物科技领域技术创新与基础研究关联分析——从专利引文分析的角度[J]. 情报学报, 2012,31(12):1283-1289.
( Zhao Zhiyun, Lei Xiaoping . Analysis of Scientific Linkage Between China’s Technology Innovation and Basic Research in Biotechnology Industry Based on Patent Citation[J]. Journal of the China Society for Scientific and Technical Information, 2012,31(12):1283-1289.)
[12] Mikolov T, Chen K, Corrado G S , et al. Efficient Estimation of Word Representations in Vector Space[OL]. arXiv Preprint, arXiv: 1301.3781.
[13] Le Q, Mikolov T . Distributed Representations of Sentences and Documents [C]//Proceedings of the 31st International Conference on Machine Learning, 2014: 1188-1196.
[14] Mahata D, Kuriakose J, Shah R R , et al. Key2Vec: Automatic Ranked Keyphrase Extraction from Scientific Articles Using Phrase Embeddings [C]//Proceedings of the 16th Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2018: 634-639.
[15] Pagliardini M, Gupta P, Jaggi M . Unsupervised Learning of Sentence Embeddings Using Compositional n-Gram Features [C]//Proceedings of Conference of the North American Chapter of the Association for Computational Linguistics. 2017: 528-540.
[16] Saha T K, Joty S, Al Hasan M . Con-S2V: A Generic Framework for Incorporating Extra-Sentential Context into Sen2Vec [C]//Proceedings of ECML PKDD: Joint European Conference on Machine Learning and Knowledge Discovery in Databases. 2017: 753-769.
[17] Tian H, Zhuo H H . Paper2vec: Citation-Context Based Document Distributed Representation for Scholar Recommendation[OL]. arXiv Preprint, arXiv: 1703.06587.
[18] Jain S, Howe B, Yan J , et al. Query2Vec: An Evaluation of NLP Techniques for Generalized Workload Analytics[OL]. arXiv Preprint, arXiv: 1801.05613.
[19] Han J, Song Y, Zhao W X , et al. Hyperdoc2vec: Distributed Representations of Hypertext Documents[OL]. arXiv Preprint, arXiv: 1805. 03793.
[1] 曾庆田,胡晓慧,李超. 融合主题词嵌入和网络结构分析的主题关键词提取方法 *[J]. 数据分析与知识发现, 2019, 3(7): 52-60.
[2] 曾庆田,戴明弟,李超,段华,赵中英. 轨迹数据融合用户表示方法的重要位置发现*[J]. 数据分析与知识发现, 2019, 3(6): 75-82.
[3] 张金柱,胡一鸣. 融合表示学习与机器学习的专利科学引文标题自动抽取研究*[J]. 数据分析与知识发现, 2019, 3(5): 68-76.
[4] 刘俊婉,龙志昕,王菲菲. 基于LDA主题模型与链路预测的新兴主题关联机会发现研究*[J]. 数据分析与知识发现, 2019, 3(1): 104-117.
[5] 余传明,冯博琳,安璐. 基于深度表示学习的跨领域情感分析*[J]. 数据分析与知识发现, 2017, 1(7): 73-81.
[6] 徐月梅,李杨,梁野,蔡连侨. 基于流形学习的新闻主题关系构建和演化研究*[J]. 现代图书情报技术, 2016, 32(10): 59-69.
[7] 秦晓慧, 乐小虬. 基于LDA主题关联过滤的领域主题演化研究[J]. 现代图书情报技术, 2015, 31(3): 18-25.
[8] 王强. 基于事务标识列表的关联规则挖掘算法[J]. 现代图书情报技术, 2008, 24(8): 63-69.
[9] 王曰芬,徐丹丹,李飞. 专利信息内容挖掘及其试验研究*[J]. 现代图书情报技术, 2008, 24(12): 59-65.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn