基于专利科学引文内容表示学习的科学技术主题关联分析研究 *

doi:10.11925/infotech.2096-3467.2019.0554

基于专利科学引文内容表示学习的科学技术主题关联分析研究 ^*

张金柱^,^,¹^,², 王玥¹, 胡一鸣¹

1 南京理工大学经济管理学院南京 210094

2 江苏省社会公共安全科技协同创新中心南京 210094

Analyzing Sci-Tech Topics Based on Semantic Representation of Patent References

Zhang Jinzhu^,^,¹^,², Wang Yue¹, Hu Yiming¹

1 School of Economics and Management, Nanjing University of Science and Technology, Nanjing 210094, China

2 Jiangsu Collaborative Innovation Center of Social Safety Science and Technology, Nanjing 210094, China

通讯作者: 张金柱, ORCID: 0000-0003-1470-6568, E-mail:zhangjinzhu@njust.edu.cn

收稿日期: 2019-05-24 修回日期: 2019-08-18 网络出版日期: 2019-12-25

基金资助:

*本文系国家自然科学基金面上项目“基于表示学习的专利信息语义融合与深度挖掘研究”.  项目编号: 71974095
国家重点研发计划子课题“知识产权大数据挖掘技术、智能推送技术及应用示范”.  项目编号: 2017YFB1401903
江苏省社会科学基金青年项目“基于社团结构动态演化的主题突变监测与形成机制研究”.  项目编号: 17TQC003

Received: 2019-05-24 Revised: 2019-08-18 Online: 2019-12-25

摘要

【目的】从专利科学引文的文本内容语义表示角度, 形成专利科学引文内容挖掘技术和方法, 探索科学技术在内容层次上的关联关系, 提高科学技术关联分析的准确性、全面性和可解释性。【方法】识别和抽取专利科学引文的关键词、摘要等特征项表示专利科学引文内容, 利用文本表示学习方法对内容特征项进行语义向量表示, 基于向量相似度计算方法计算特征项间的语义相似度, 进而通过聚类方法分别得到专利技术与专利科学引文内容的研究主题, 并分析特定领域科学技术间的主题关联。【结果】在纳米技术领域的实证分析表明, 该方法能更好地发现科学技术间主题映射和关键词对应关系, 从内容角度深入分析了科学技术间的主题关联关系。【局限】仅从专利以及专利科学引文的摘要和关键词层面进行探索性研究, 使得专利全文本内容表示和分析的广度和深度还不够,分析维度的多样化还需加强。【结论】该方法能够从内容层面提高科学技术间的主体关联分析效果, 结果可解释性更强。

关键词： 专利科学引文 ; 表示学习 ; 主题关联 ; 内容挖掘

Abstract

[Objective] This paper explores the content mining method for scientific references in patent (SRP) based on text semantic representation. It also improves the accuracy, comprehensiveness and interpretability of knowledge flow analysis. [Methods] Firstly, we extracted keywords and abstracts from patents to represent the SRPs and created vectors for these items. Then, we computed the distance between vectors to calculate their semantic similarities. Finally, we obtained and mapped the topics of patents and SRP contents from the field of nanotechnology. [Results] We found our method could map relationship among sci-tech topics from the content perspective effectively. [Limitations] We only conducted exploratory research with abstracts and keywords rather than full texts. [Conclusions] The proposed method improves the knowledge flow analysis of patents.

Keywords： Scientific References in Patent ; Representation Learning ; Topic Linkage ; Content Mining

PDF (2200KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

张金柱, 王玥, 胡一鸣. 基于专利科学引文内容表示学习的科学技术主题关联分析研究 ^*. 数据分析与知识发现[J], 2019, 3(12): 52-60 doi:10.11925/infotech.2096-3467.2019.0554

Zhang Jinzhu. Analyzing Sci-Tech Topics Based on Semantic Representation of Patent References. Data Analysis and Knowledge Discovery[J], 2019, 3(12): 52-60 doi:10.11925/infotech.2096-3467.2019.0554

1 引言

专利引文一般分为两类: 一类是指专利引用的与本专利申请相关的专利文献, 另一类是专利引用的非专利文献, 称为非专利引文(Non-Patent References, NPR)。非专利引文包括期刊论文、会议论文、著作、文件等多种类型, 而其中的期刊论文、会议论文等科学论文, 称为专利科学引文(Scientific References in Patent, SRP), 是非专利引文的重要类别之一^[1]。

专利科学引文是科学知识(科学论文)与技术创新(专利)之间产生关联关系的媒介。通过分析专利科学引文, 可以掌握科学知识与创新技术间的关联关系, 进而获知科学知识与技术应用间的知识转移和流动。当前, 只有少数开放数据把非专利引文看作一个整体, 当作专利信息的一种特征, 并以非专利引文整体来计算科学关联度。而实际上, 由于非专利引文类型多样, 不仅包括科学论文, 还包括研究报告、数据库文件等其他类型, 导致直接使用非专利引文计算科学技术关联度可能并不准确。尤为重要的是, 科学关联度可以从宏观上定量分析科学技术的关联紧密程度, 但从内容角度深入分析科学技术主题关联还需加强。因此, 本文引入文本内容表示学习方法, 从非专利引文类别下的专利科学引文的内容语义表示角度出发, 更深层次地揭示和发现科学技术之间的主题关联, 从而更准确、全面发掘科学技术在哪些学科、哪些领域、哪些技术间产生知识流动并产生何种影响, 实现专利科学引文的深层次内容挖掘, 提高科学技术之间知识流动分析的准确性、全面性和可解释性。

基于上述问题, 本文首先从非专利引文中识别出专利科学引文, 之后抽取专利科学引文的内容特征项, 引入文本表示学习方法, 形成专利科学引文内容的语义向量表示, 借鉴相似度计算方法和聚类方法, 分别得到专利主题、专利科学引文内容主题, 进而分析两者的关联关系, 为后续科学技术主题的深层次关联分析提供支撑。

2 国内外研究现状

专利科学引文把科学研究(科学论文)和技术应用(专利)关联起来, 通过对专利科学引文进行分析, 可以探究科学研究与技术应用之间的关联关系。专利科学引文分析的发展经历了专利引文分析——非专利引文分析——专利科学引文分析的历程。本文通过表示学习的方法, 将抽取出来的专利科学引文的内容元数据进行向量化表示,因此,下文将从科学技术主题关联分析以及内容表示学习两个方面展开评述。

2.1 科学技术主题关联分析

科学技术主题关联分析一般以专利引用非专利引文来实现^[2]。作为专利引文中的重要类别, 非专利引文可以在一定程度上体现科学研究对技术应用的影响, 是研究者分析科学与技术关联的媒介。Narin^[3]基于文献计量学思想, 提出专利计量学(Patent Bibliometrics)^[4], 确定了科学关联度(Science Linkage)指标, 为非专利引文的分析奠定了基础。Verbeek等^[5]设计了一种可用来进行科学技术关联与匹配的模型, 采用专利的IPC分类与非专利引文所属期刊的学科分类之间的对应关系表示技术创新方向与科学研究方向之间的关联关系。Breschi等^[6]将引文网络分析方法引入非专利引文的研究中, 分析论文作者合著关系网络和发明人合作关系网络之间的关联关系, 以研究科学与技术间的联系。赵黎明等^[7,8]系统地总结了国外关于科学研究与技术创新间知识转移机制的研究, 并在此基础上, 将数据挖掘方法引入非专利引文分析中, 利用Apriori关联规则挖掘算法对科学技术间关联关系进行挖掘。

由于非专利引文中不仅包含科学论文, 还包含著作、数据库文件等其他类型引文, 所以并不适合将所有非专利引文作为科学知识的代表来分析科学技术关联。因此, 为了对科学技术关联关系进行更深入、更精确的分析, 一些研究者提出应使用专利科学引文进行科学技术关联关系的相关研究。Callaert等^[9]将机器学习算法引入专利科学引文分析中, 以自动识别出非专利引文中的科学文献; 实验结果表明, 基于非专利引文和基于专利科学引文之间存在一定的差异, 差异程度取决于专利制度、专利申请国和专利所处技术领域。张金柱等^[10]运用专利科学引文的关键词和学科分类作为专利引用科学知识的表示, 以进行特定技术领域内突破性创新的识别, 在基因工程领域验证了该方法的有效性。赵志耘等^[11]将非专利引文与SCI数据库进行匹配, 得到专利引用的科学论文, 在此基础上展开我国生物科技领域的科学关联度分析、期刊来源分析、论文国别分析、公共科学分析等研究。

科学技术主题关联分析集中在非专利引文、专利科学引文分析上, 并通常把专利科学引文看成一个整体进行研究, 解析专利科学引文元数据进而实现内容分析的研究还较少, 特别是从专利科学引文内容语义表示的角度开展科学技术主题关联分析还需进一步深入。

2.2 内容表示学习

文本表示指将自然语言的符号表示转换成计算机能够处理的向量表示。传统的文本表示有向量空间模型、语言模型、后缀树模型和本体等。随着深度学习的兴起, 文本表示学习逐步成为深度学习的一个新兴分支, 由此形成了多种基于深度学习的文本表示方法与模型。

Mikolov等^[12]提出的词表示学习方法(Word2Vec)开启了文本表示学习的热潮。词表示学习的基本思想是通过神经网络模型训练语料, 结合每个词语的上下文信息, 将语料中每个词映射成K维实值向量, 通过词之间的距离(比如余弦相似度、欧氏距离等)判断它们之间的语义相似度。这种分布式的词向量表示方式已被广泛应用于词性分析、相关词推荐、关键词聚类与分类等方面。之后, Le等^[13]将词表示学习扩展到短语、句子和文档等研究对象中, 形成了文档学习模型(Doc2Vec)。文档学习模型与词表示学习模型类似, 主要区别在于训练过程中将长文本作为一个特殊段落引入语料中, 在训练过程中同时结合上下文、单词顺序和段落特征, 因而不仅可以表示词向量, 还能表示段落向量, 并在文本相似度、情感分类等方面表现出较好的效果。

在这两个模型的基础上, 研究者对关键词、句子、上下文内容等不同层次的文本表示学习方法进行改进, 形成Key2Vec^[14]、Senten2Vec^[15]、Con-S2Vec^[16]等模型, 并构建了适应特定领域数据的模型, 如针对论文、查询、超文本分别形成Paper2Vec^[17]、Query2Vec^[18]、Hyperdoc2Vec^[19]等模型, 在特定任务和数据集上提升了语义表示的效果, 并应用在信息检索、知识图谱、自动问答和自然语言处理领域。

3 专利科学引文内容表示学习的科学技术主题关联分析方法

3.1 专利科学引文内容特征项的识别与抽取

专利科学引文的内容特征项主要以标题、关键词和摘要等表示, 而在专利信息中主要以专利科学引文整体来表示, 无法直接获得内容特征项。因此, 首先下载专利引文数据, 并对其进行解析和预处理; 然后利用表示学习方法Doc2Vec, 将每条专利科学引文整体作为输入, 对应到Doc2Vec方法中的“Doc”, 实现每条专利引文数据的向量化表示, 结合支持向量机分类方法(Support Vector Machine, SVM)识别出非专利引文中的专利科学引文; 接着基于多种标点符号和空格等分隔符对识别出的专利科学引文整体进行分割, 将各个分割单位对应到Word2Vec中的单词(Word), 并把分割单位序列作为输入, 利用表示学习方法Word2Vec对各分割单位进行向量化表示, 并结合支持向量机分类方法对切割单位进行归类, 识别专利科学引文的标题; 最后在Web of Science数据库中通过专利科学引文标题进行模糊匹配, 获取专利科学引文的关键词、摘要等内容特征项。具体技术路线如图1所示。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 专利科学引文内容特征项识别与抽取

3.2 基于表示学习的专利科学引文内容语义表示

表示学习本质上是基于深度学习的一种特征学习方法, 其思想在于将文本中的关键词或短语通过非线性模型转变为更高层次的特征表示, 从而获得更抽象的表达。与特征工程中需要人工设计特征不同, 表示学习方法会自动从文本内容中学习关键词或短语的特征表示。本文利用Word2Vec和Doc2Vec表示学习方法分别得到专利科学引文的关键词语义表示和摘要内容语义表示, 进而从内容语义表示视角分析科学技术主题关联。

关键词语义表示以专利及专利科学引文摘要中的关键词为研究对象, 通过Word2Vec文本表示学习方法自动学习特定关键词的上下文语义信息, 主要包括CBOW(Continuous Bag Of Words)和Skip-gram两种模型^[11]。CBOW模型是利用词w_t的前后各c个词去预测当前词, 而Skip-gram模型相反, 是利用当前词w_t预测其前后各c个词, 原理如图2所示。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 Word2Vec模型

CBOW模型和Skip-gram模型的优化目标函数如公式(1)和公式(2)所示, 通过对数似然函数使得模型收敛。利用Word2Vec方法可将每个词映射到多维向量空间中的特定向量, 且每一维向量都表示一定的语义信息, 从而实现专利及专科科学引文的关键词语义表示。在由这些词向量组成的多维向量空间中, 语义相关的词汇对应的词向量会相对集中在同一片区域, 利用这样的特性, 可以从语义层面对不同的词语进行聚类和主题识别。

(1)${{L}_{CBOW}}=\sum\nolimits_{w(t)\in C}{\sum\nolimits_{-k\le c\le k}{\mathrm{log}p(w(t)\text{ }\!\!|\!\!\text{ }w(t+c))}}$

(2)${{L}_{Skip-gram}}=\sum\nolimits_{w(t)\in C}{\sum\nolimits_{-k\le c\le k}{\mathrm{log}p(w(t+c)\text{ }\!\!|\!\!\text{ }w(t))}}$

摘要内容语义表示则是基于Doc2Vec表示学习方法实现。Doc2Vec的原理与Word2Vec类似, 主要包括DM(Distributed Memory)和DBOW(Distributed Bag Of Words)两种模型^[13], 在训练过程中不仅结合上下文语境信息, 还考虑到句子特征和段落特征。Doc2Vec方法是在基于Word2Vec的词语义表示基础上, 进而得到句子、段落和文档的语义表示, 由此可以形成专利摘要、专利科学引文摘要的语义向量表示。

3.3 科学技术主题关联分析

科学技术通过专利引用科学论文产生关联, 因此, 可以通过专利内容和专利科学引文内容分析科学技术主题关联。其中, 技术应用以专利内容来代表, 并以专利摘要的语义向量表示, 科学知识以专利科学引文来代表, 并以专利科学引文的内容特征项的语义向量表示, 进而通过引用关系把科学知识与技术应用关联起来, 发现科学技术关联。

科学技术主题关联分析首先利用Doc2Vec表示学习方法, 得到专利内容、专利科学引文内容特征项的语义向量表示, 接着利用余弦相似度、欧氏距离等多种相似度计算方法, 计算专利内容间、专利科学引文内容特征项间的相似程度, 并以此表示相关程度, 最后利用T-SNE算法对专利内容、专利科学引文内容特征项的语义向量进行聚类, 通过LDA(Latent Dirichlet Allocation)主题模型抽取关键词表示特定主题的研究方向, 对科学技术的主题聚类结果进行比较分析, 发现科学技术间的主题关联。

T-SNE算法是一种应用于高维数据的降维算法, 可以将高维数据降维到二维或三维向量中并进行可视化, 此时每一条摘要向量被表示为向量空间内的一个点; 之后根据向量间的距离对这些点进行聚类, 同一聚类内的点更紧密。通过这样的方式可以将内容相近的专利科学引文摘要以及专利摘要进行聚类。

4 科学技术主题关联的实证分析

4.1 数据来源

本文专利科学引文数据来源于美国专利和商标局(United States Patent and Trademark Office, USPTO)提供的XML格式授权专利数据, 时间跨度为2012年至2016年。选取纳米技术领域进行科学技术主题关联分析, 原因在于已有多项研究证实纳米技术领域对科学知识的依赖程度较高, 有利于分析科学技术间的主题关联分析, 以纳米技术(Nanotechnology)的分类号977进行查询, 得到3 690条专利数据。通过XML文件解析入库获取专利科学引文数据, 利用专利科学引文内容特征识别方法获取专利科学引文的关键词、摘要等内容特征项。其中, 专利信息中识别出的非专利引文标题数目为16 277条, 在数据库中具有匹配项的专利科学引文有11 789条, 由于部分专利科学引文标题对应多个结果, 对该部分内容进行剔除, 最终得到9 281条专利科学引文的内容特征项。

4.2 基于摘要内容的科学技术主题关联分析

利用Doc2Vec对专利科学引文的摘要内容进行表示学习, 得到摘要内容的语义向量表示, 利用余弦相似度计算向量相似度, 并通过聚类方法分别得到专利、专利科学引文的研究主题, 并对结果进行简单分析, 发现纳米领域科学技术间的主题关联。

(1) 专利科学引文摘要内容形成的研究主题

基于Python 2.7.2版本gensim包中的Word2Vec以及Doc2Vec模块构建专利引文向量, 语料是上述9 281条专利科学引文的摘要内容。其中重要的参数设置为: “DM=1”, 即使用Doc2Vec中的DM模型; “size=100”表示向量维度为100, 即每条数据都表示为100维空间中的一个点; “window=5”表示取距离当前位置为5的词作为上下文信息。其余的主要参数设置为: min_count=1, dbow_words=1, iter=10, alpha=0.015, dm_concat=1。

利用TensorFlow^①(①http://projector.tensorflow.org.)提供的T-SNE算法对专利科学引文摘要向量进行聚类以及可视化展示, 结果如图3所示。利用表示学习方法Doc2Vec得到科学专利引文内容的语义向量表示, 将其映射在同一向量空间内, 相似的主题集中分布在同一片区域, 如图3所示的5个聚类主题, 而相关的主题分布十分靠近。通过专利科学引文的摘要内容形成5个研究主题, 选取每个主题中靠近中心的点作为各个聚类的代表, 各聚类中心点附近的专利科学引文信息如表1所示。通过这5个中心点附近专利科学引文的标题和摘要, 确定对应专利科学引文的研究方向, 从而确定各聚类内的专利科学引文对应的研究方向。结果显示, 纳米技术领域内的专利科学引文研究主要分布在纳米生物、纳米医学领域, 在纳米材料领域也有一定的分布, 表明纳米技术可能吸收借鉴并反作用于生物、医学、材料等基础研究, 形成的纳米材料、纳米医学、纳米生物学等新兴研究领域在专利和科学论文中都有所体现, 其中, 纳米医学是将纳米科学与技术的原理、方法应用于医学, 纳米生物学是用于研究生命现象的纳米技术, 它是纳米技术和生物学的结合。节点数较多的两个聚类是聚类3和聚类4, 且两者十分接近并具有交叉融合的趋势, 可以认为这两个主题表示的纳米生物、医学领域的研究具有一定的代表性, 是纳米技术领域的重要研究方向。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 专利科学引文摘要向量聚类可视化展示

表1 专利科学引文摘要各聚类中心点

聚类	聚类中心点(专利标题)	应用方向
1	Study of fire retardant behavior of carbon nanotube membranes and carbon nanofiber paper in carbon fiber reinforced epoxy composites	纳米材料领域
2	Gold nanoparticle probes for the detection of nucleic acid targets	纳米生物领域
3	Binding properties of replication protein A from human and yeast cells	纳米生物/纳米医学领域
4	Selective retention of bone marrow-derived cells to enhance spinal fusion	纳米生物/纳米医学领域
5	An investigation of plasma chemistry for dc plasma enhanced chemical vapour deposition of carbon nanotubes and nanofibres	纳米材料领域

新窗口打开| 下载CSV

(2) 专利摘要内容形成的技术主题

以3 690篇专利的摘要内容作为训练语料, 对专利科学引文对应的专利的摘要进行向量化表示, 同样进行聚类以及可视化展示, 如图4所示。这些专利摘要向量形成了三个较大的聚类。专利摘要的聚类数量与专利科学引文摘要的聚类数量(5个)相比较少, 说明纳米技术领域内的技术应用较少, 并更集中于几个重点应用方向。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 专利摘要向量聚类可视化展示

选取每个聚类中靠近中心的专利代表每个聚类, 各聚类中心点附近的专利信息如表2所示。通过这三个中心点附近专利的标题以及摘要, 分析该聚类内的专利的应用方向。结果显示, 纳米技术领域内的专利集中于纳米材料的相关研究, 其中聚类2和聚类3是节点数量较多的相关主题, 说明纳米技术在专利中的应用更集中于这两个聚类代表的材料领域。

表2 专利摘要各聚类中心点

聚类	聚类中心点 (专利号)	聚类中心点 (专利标题)	应用方向
1	8895067	Immune response stimulating composition comprising nanoparticles based on a methyl vinyl ether-maleic acid copolymer	纳米生物/纳米材料领域
2	8288759	Vertical stacking of carbon nanotube arrays for current enhancement and control	纳米材料领域
3	8124518	Semiconductor heterostructure nanowire devices	纳米材料领域

新窗口打开| 下载CSV

经过比较可知, 技术应用(专利)侧重于纳米材料领域, 而科学研究(专利科学引文)侧重于纳米生物、纳米医学领域, 尤其在生物领域开展的研究所占比重高于纳米材料领域, 这是纳米技术领域内科学研究和技术应用的一大区别。不过科学研究的方向与技术应用的方向之间具有一定的相关性, 而纳米材料是科学和技术共同关注的焦点。

4.3 基于关键词内容的科学技术主题关联分析

通过专利科学引文关键词, 构建关键词共现网络, 通过聚类方法分别形成科学技术主题, 并对科学技术主题关联进行分析; 与此同时, 利用表示学习方法对专利科学引文关键词进行语义向量表示, 借助向量相似度计算方法, 进而分析科学技术主题关联。

(1) 关键词共现网络下的科学技术主题关联分析

为进一步探究纳米技术领域内科学研究与技术应用之间的关系, 使用VOSviewer分别对专利以及专利科学引文的内容进行词的聚类和共现分析, 可视化结果如图5和图6所示。

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 纳米技术领域专利词语聚类及共现图

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 纳米技术领域专利科学引文词语聚类及共现图

不同的颜色表示词语形成的不同聚类, 节点的大小代表词的出现频次, 节点之间的连边表示两个节点的共现关系。以各个聚类中频次最高或者与其他节点产生连边最多的节点作为中心点, 以中心点和其他点的共现关系表示各个聚类代表的研究方向。在专利的关键词聚类中, “nanoparticle”代表的红色聚类和“nanowire”代表的蓝色聚类是最大的两个类, “cell”代表的黄色聚类和“biocompatible polymer”代表的青色聚类是两个代表生物方向的类。总的来看, 纳米技术领域内的专利以在材料领域的应用为主, 应用方向主要有“voltage”、“semiconductor”等。同时, 在生物领域的应用也占据一定的比重, 生物领域的中心节点“cell”、“biocompatible polymer”与“nanoparticle”产生了最多的连边, 说明纳米技术在生物领域的应用主要通过纳米粒子实现。

在专利科学引文的关键词聚类中, “carbon nanotube”代表的红色聚类和“patient”代表的黄色聚类是节点数量最多的两个聚类, 分别代表纳米技术在材料领域和医学领域的研究。“carbon nanotube”类的中心点与其他节点的连边集中在聚类内部, 而“patient”类的中心点贡献了整个网络中最多的连边数, 且与青色聚类(中心点为“t cell”)有着紧密的联系。可见, 在纳米技术领域的科学研究中, 材料领域并不是唯一的焦点, 医学、生物领域的研究获得了更多关注。

(2) 关键词语义表示下的科学技术主题关联分析

除了对关键词的聚类和共现外, 本文还利用表示学习将关键词向量化, 从内容层面分析专利和专利科学引文关键词间的异同。首先利用LDA主题模型抽取专利科学引文摘要的主题, 然后将主题中代表研究方向的词语作为对应的专利科学引文的关键词, 最后选取权重前10的关键词进行结果展示。同样地, 再利用LDA抽取专利摘要的主题, 选择代表应用方向的词语作为对应的专利的关键词。表3分别列出专利和专利科学引文的权重值最高10个的关键词。

表3 专利及专利科学引文关键词(top10)

排序	专利关键词	专利科学引文关键词
1 2 3 4 5 6 7 8 9 10	graphene nanoparticles quantum molecular substrate semiconductor carbon nanotubes magnetic nanowire	cell nanoparticles dna patients surface membrane tumor hypoxia materials nanptubes

新窗口打开| 下载CSV

利用表示学习方法的语义表示结合上下文语义信息, 将关键词表示成每一维都具有一定语义信息的向量, 而不是简单计算词频和共现情况。从表3基于语义表示的关键词结果可以看出, 除了共同的关键词“nanoparticles”外, 专利科学引文的关键词更多集中于生物、医学领域, 如“cell”、“dna”、“patients”、“tumor”等; 而专利的关键词中, 材料领域的关键词占据了更重要的位置, 如“graphene”、“nanoparticles”、“quantum”、“semiconductor”等, 这与之前的词频分布和聚类结果相吻合, 进一步说明纳米技术领域内, 专利的应用方向与专利科学引文的研究方向重合度不高, 专利偏向纳米材料方向的应用, 而专利科学引文倾向于生物、医学的研究。为了分析两者研究方向间的联系, 将专利科学引文关键词与专利关键词进行向量化表示, 在向量空间中计算这些关键词所代表的研究热点间的相似度, 结果如表4所示。本文选取专利科学引文与专利中权重最高的5个关键词(除两边均出现的“nanoparticles”外), 分别为(’cell’,’dna’,’ patients’,’surface’,’membrane’), (’graphene’,’quantum’,’ molecular’,’substrate’,’semiconductor’)。

表4 关键词相似度计算结果

相似度关键词	cell	dna	patients	surface	membrane
graphene quantum molecular substrate semiconductor	0.132352 0.245108 0.217644 0.314112 0.177933	0.300034 0.147008 0.160576 0.106681 0.220436	0.103014 0.003866 0.057919 -0.02874 -0.01617	0.163717 0.164707 0.19299 0.632933 0.258763	0.25389 0.17078 0.202147 0.484191 0.213334

新窗口打开| 下载CSV

从表4可以看到, 除了在专利科学引文关键词和专利关键词中均出现的“nanoparticles”外, 专利科学引文关键词和专利关键词整体的相似度并不高。其中相似度最高的关键词为“surface”和“substrate”以及“membrane”和“substrate”, 相似度分别为0.632933以及0.484191, 其余的关键词之间的相似度最高值在0.3左右, 大部分分布在(0,0.2)的区间内。“surface”和“substrate”的含义分别是“表层”和“底层”, 一般用于表示纳米技术作用于涂层的位置, 因此在语义上具有相似性。“substrate”同时也有“基质”的意思, 这可能是它与“membrane”(膜)有一定相似性的原因。由于“substrate”与“surface”的相似度高于其与“membrane”的相似度, 且与“cell”的相似度仅为0.314112, 可以认为“substrate”在专利摘要中, 其含义更多地偏向于“底层”。

除了“surface”、“substrate”、“membrane”外, 其余关键词, 尤其是权重值排在前三的关键词之间的相似度均较低。这一结果再次验证了纳米技术领域内, 专利的应用方向与专利科学引文的研究方向重合度不高。造成这种情况的原因可能有4个:

(1) 纳米材料的产业化已经比较成熟, 相对来说生物、医学领域的纳米技术研究可能更多地停留在理论阶段, 科学知识尚未完全转化为技术;

(2) 与相对成熟的纳米材料领域相比, 纳米生物、医学领域的研究还有待完善, 将纳米技术运用到这两个领域可能是当前较热门的研究方向;

(3) 生物、医学领域研究的平均引用文献数量较高, 而医学、生物领域的专利可能也具有这一特性;

(4) 由于专利从申请到授权的周期较长, 这导致了专利文献具有一定的滞后性, 而相对来说, 科学论文由于其发表周期较短, 则并不存在这样的问题。因此, 两者的方向存在一定的差异属于正常情况。

综上, 纳米技术领域的应用方向和科学研究方向有所交集, 但存在一定的差异。材料领域是技术和科学共同关注的焦点, 而两者的差异性在于对生物领域的关注度, 与科学研究相比, 纳米技术应用在该领域只是略有涉及, 深度和广度都还有待提高; 生物医学领域是当前纳米技术科学研究的重点。未来纳米技术在医学、生物领域的应用会越来越多, 可能出现更多用于临床治疗的应用。

5 结语

本文从专利科学引文的内容角度出发, 利用表示学习的方法, 分析科学知识与技术应用之间的主题关联关系, 形成专利科学引文的识别及内容挖掘技术, 具体可分为基于专利科学引文摘要的内容挖掘以及基于专利科学引文关键词的内容挖掘两个部分, 从内容层面提高了科学技术间的主体关联分析效果, 并且在纳米技术领域进行实证分析。实证结果验证了利用专利内容和专利科学引文内容进行科学技术主题分析的可用性; 以及分析了纳米技术在技术应用和科学研究方向上的异同。但是, 本方法也存在一些不足: 首先, 当前的专利科学引文内容挖掘研究还处于初步阶段, 仅从专利以及专利科学引文的摘要和关键词的层面进行探索性研究, 缺乏对专利和专利科学引文的全文本内容的分析; 其次, 仅从语义角度分析专利科学引文的文本信息, 分析维度的单一可能会导致结果不够全面。

后续研究可以从以下方向扩展: 首先, 通过获取更多的数据类型, 如专利科学引文位置、专利科学引文正文等, 进一步提高分析的全面性; 其次, 利用引用关系网络, 建立专利文献和科学论文间的语义映射关系, 进行更深层次的科学技术主题关联分析; 再次, 将更多方法引入专利科学引文的内容挖掘中, 从更多的维度进行分析; 最后, 扩展研究领域, 在对单一领域进行分析的基础上, 进行多领域交叉的专利科学引文内容挖掘。

作者贡献声明

张金柱: 提出研究思路, 设计研究方案, 修改论文;

王玥: 进行实验, 起草论文;

胡一鸣: 修改论文。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: zhangjinzhu@njust.edu.cn。

[1] 张金柱, 胡一鸣, 王玥. SRPmining.rar. 专利科学引文内容挖掘实验程序实现.

[2] 张金柱, 王玥. Experimental data.rar. 实验数据.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

陈凯, 徐峰, 程如烟 .

非专利引文分析研究进展

[J]. 图书情报工作, 2015,59(5):137-144.

检索词推荐：