WoS数据库中专利分析论文的主题动态演进研究
张云1,2, 华薇娜2, 袁顺波1, 苏保朵3
1嘉兴学院商学院 嘉兴 314001
2南京大学信息管理学院 南京 210093
3嘉兴学院南湖学院 嘉兴 314001
通讯作者:张云, ORCID: 0000-0002-0662-5090, E-mail:842638105@qq.com

作者贡献声明:

华薇娜: 提出研究思路, 设计研究方案;

张云: 进行实验;

苏保朵: 采集、清洗和分析数据;

张云, 袁顺波: 论文起草, 最终版本修订。

摘要

【目的】利用SciMAT确定特定领域主题动态演进情况。【方法】以SciMAT为图谱绘制工具, 以WoS数据库中专利分析的研究论文为研究对象, 进行可视化图谱的制作和分析, 探讨WoS数据库中专利分析领域的主题演进状况。【结果】WoS中专利分析研究的重要主题包括知识管理、专利分析技术、专利对企业和产业发展的促进作用等, 知识产权保护、知识转移、确定演进趋势是近年来新的研究热点。【结论】SciMAT能结合反映质量特性的计量指标、多种图谱从不同角度有效揭示主题演进情况。

关键词: 专利分析; 文献计量; 主题演进; 可视化分析; h指数; SciMAT
中图分类号:G353
Research on the Themes Dynamic Evolutions of the Patent Analysis Papers from WoS Database
Zhang Yun1,2, Hua Weina2, Yuan Shunbo1, Su Baoduo3
1School of Business, Jiaxing University, Jiaxing 314001, China
2School of Information Management, Nanjing University, Nanjing 210093, China
3Nanhu College, Jiaxing University, Jiaxing 314001, China
Abstract

[Objective] SciMAT is used to determine the themes dynamic evolutions in the specific area.[Methods] The records on patent analysis from WoS databases are analyzed and the visual maps based on SciMAT are drawn and analyzed to explore the evolutions of patent analysis.[Results] The most important topics in patent analysis from WoS databases mainly include knowledge management, patent analysis technologies and how to promote the development of enterprises and industries by patents. The new hot topics include intellectual property, knowledge transfer and how to judge the evolution trends.[Conclusions] SciMAT can be used to effectively reveal the themes evolutions from different views by combining indicators reflecting quality characteristics and a varity of maps.

Keyword: Patent analysis; Bibliometrics; Theme evolution; Visualization analysis; h-index; SciMAT
1 引言

当前文献计量学中最常见方法包括两种: 性能分析和科学图谱绘制[1], 两者结合的方式能更准确、生动地表达学科领域发展演进情况。近年来国内研究人员在研究主题演进时采用较多的科学图谱绘制工具为CiteSpace和VOSviewer, 利用CiteSpace能对某领域的重要作者、期刊、文献、研究热点与研究前沿进行可视化展示[2], 但对主题研究的动态展示功能不够强大; VOSviewer则需要将数据以特定格式导入, 不支持数据预处理功能。此外, 战略坐标图也被用来研究主题演进态势[3], 但需要结合大量手工工作和相关软件的处理。

候月明等[4]介绍了几款新型的分析软件, 包括SciMAT、NWB、Sci2、GUESS等, 这些工具在国内的研究中较为少见。以SciMAT为例, 与现有的几款可视化软件相比, 该软件在展示学科演进方面有独到之处: 具有较强的数据预处理功能, 可通过计算机、手工结合方式提高分析数据的质量; 将演进图、战略图、聚类网络图结合起来, 从点、面、纵向联系方面揭示主题的演进变化情况; 包含引用总数、h指数、g指数等反映质量特性的计量指标, 并按这些指标调节图谱的表达, 从而使SciMAT在表达学科演进、主题演进方面独具特色。鉴于此, 本文以SciMAT为主要图谱绘制工具, 以WoS数据库中专利分析研究论文为研究对象, 进行可视化图谱的制作和分析, 以深入探讨WoS数据库中专利分析领域的主题演进状况。

2 SciMAT的工作原理

SciMAT是一个开源的知识图谱绘制工具, 支持数据预处理、网络精简、聚类、可视化图谱制作等多种功能, 可获得战略图、聚类网络图、演进图、覆盖图4种图谱[5]。战略图如图1所示, 图中结点代表聚类, 结点的大小对应所选计量指标的大小; 横轴表示中心度, 纵轴表示密度, 中心度代表聚类在研究领域的重要程度, 密度代表聚类的发展程度。结点所在象限具有不同的战略意义, 右上象限称为引擎类聚类区, 代表发展较好且较为重要的主题, 左上象限往往是一些专门性、外围性聚类, 左下象限代表新兴的、衰退的聚类, 右下象限则代表一些横向的、广义的或基本的聚类。战略图中每个结点对应一张聚类网络图, 如图2所示, 其中结点表示分析单元相关文献量的多少, 连线表示分析单元间存在关联, 线的粗细、深浅对应关联强度[6]

图2 聚类网络图[6]

SciMAT的演进图如图3所示, 其中列代表时间段, 列中的结点代表时间段内分析单元的聚类, 聚类的大小对应所选计量指标。两个聚类间如有线相连, 表示研究具有持续性, 其中实线表示两个聚类共享重要的分析单元, 虚线表示两个聚类共享的不是主要的分析单元, 边的粗细与进化关系的权重成正比关系。演进图还可用来说明主题区域的演进状况, 如图3中有两个不同的演进区域, 其中一个演进区域由聚类A1、A2构成, 另一个演进区域由聚类B1、B2、C2构成, 聚类D1不连续, D2表示新出现的聚类[6]

SciMAT的覆盖图如图4所示, 其中圈内的数字代表某个时间段内分析单元的数量, 圈顶上进入的箭头代表该时间段内新出现的分析单元, 出去的箭头表示该时间段内出现、但未在后续时间段内继续研究的分析单元。水平箭头表示两个时间段间分析单元的连续性, 括号前的数字代表两个时间段共享的分析单元, 括号里的数值则表示两个时间段间的稳定指数[6]

3 研究方法
3.1 数据来源

考虑到WoS数据库是一个集成了自然科学、社会科学等多学科领域学术文献的数据库, 笔者于2014年6月5日对WoS数据库进行了专利分析研究论文的检索, 检索词包括专利分析("patent* analysis" OR "patent* analyz* " OR "patent* study* ")、专利计量("patent* bibliometrics* " OR "patentmetrics* ")、专利引用("patent* citation* " OR "patent* citing* " OR "patent* cited* ")、专利共被引("patent* co citation* " OR "patent* cocitation* ")、专利挖掘("patent* mining* ")、专利可视化("patent* visualiz* ")、专利地图("patent* landscaping* " OR "patent* mapping* " OR "patent* drawing* ")、专利分析工具(TDA OR AUREKA OR Patentguider OR Thomson Data Analyzer OR Delphion PatentLab OR Matheo Patent), 排除医学方面的专业术语“ 卵圆孔未闭” (Patent Foramen Ovale)、“ 动脉导管未闭” (Patent Ductus Arteriosus), 检索年限为所有年, 语种为所有语种, 共获得原始数据1 616条。下载后的数据通过题目阅读、文摘阅读等方式进行手工筛选, 只要内容与专利相关的均保留, 共获得有效数据1 433条, 最早的数据始于1903年。

3.2 WoS中专利分析研究的时间阶段划分

以发文总量为横轴, 以作者总量为纵轴, 得到1903年-2013年WoS中专利分析研究的散点图, 如图5所示:

图5 1903年-2013年WoS中专利分析研究 发文总量及作者总量散点图

图5可知, WoS中专利分析的研究虽始于1903年, 但在1903年-1994年间, 发展极为缓慢, 1995年-2002年间专利分析的研究人员、发文数量有所提高, 但到2003年-2013年间才真正迎来专利分析领域的快速发展。

为提高主题演进分析的时效性, 笔者将检索得到的2014年数据也纳入后续分析中。截至2014年6月5日, 检索到的2014年论文数量为57篇, 作者总量为151人, 与2013年同期数据相当。结合2003年-2013年的总体上升趋势, 笔者将2014年划分入最后一个阶段, 即将整个研究区间划分为4个时间段, 分别是1903年-1994年、1995年-2002年、2003年-2008年、2009年-2014年, 4个时间段的发文量分别为185篇、194篇、351篇、703篇。

4 WoS中专利分析研究主题演进分析
4.1 关键词总体变化分析

在SciMAT软件中设置分析单元为词, 设置4个时间段的数据精简阈值为1, 3, 5, 7, 设置矩阵为共现矩阵, 设置网络精简阈值为1, 3, 3, 3[7, 8], 得到1903年-2014年WoS中专利分析研究覆盖图, 如图6所示:

图6 1903年-2014年WoS中专利分析研究覆盖图

图6可知, 在WoS的专利分析研究领域, 关键词的数量总体呈快速增长趋势, 经原始数据分析后发现, 1903年-1994年间关键词数量较少, 由于大量文献中缺少关键词著录信息, 1995年后关键词数量的增加, 既反映研究力量的加强, 也反映研究人员文献著录行为规范性的提高。从各时间段出入箭头看, 新进入的关键词较多, 从该时间段消失的关键词占半数以上, 说明在不同时间段中, 研究人员积极从不同角度开展探索研究, 但多数关键词并未获得持续深入研究。各时间段间的稳定指数也反映了同一情况, 图6中稳定指数从0.05增长到0.15, 但共享关键词, 即连续研究关键词的总量占关键词总量的比重还较小。总体而言, 专利分析方面的研究在近几年迅速增长, 但多数研究仍是一种短期研究行为, 能够引起大家广泛、长期关注的研究主题还较为匮乏。

4.2 1903年-2014年主题演进分析

在SciMAT中可得到1903年-2014年专利分析研究主题演进图, 如图7所示, 其中各结点的大小对应聚类的文献总量, 线的粗细与包含指数成正比关系, 有线连接的两个聚类表示研究的连续性, 线的粗细代表关联的紧密程度。

图7 1903年-2014年WoS中专利分析研究主题演进图

(1) 在1903年-1994年的92年间, WoS中专利分析研究的文献为185篇, 形成5个主题聚类, 分别是创新(Innovation)、计算语言学技术(Computational-Linguistics- Techniques)、碳氢化合物(Hydrocarbons)、产品(Product)、技术(Technology), 这些聚类的发文量、引用次数、h指数指标均较低。从主题聚类的文献分布看, 5个聚类涉及到8篇文献, 占该时间段文献总量的4.3%, 其中引用次数最高的文献是日本大阪燃气有限公司的Tabata等人于1994年在《今日催化》上发表的《研究催化剂方面的专利文献以寻找新的氮氧化物去除过程》一文, 总引用次数为46次。该时间段内, 文献数量不多, 研究内容极为分散, 文献质量偏低, 对后期研究影响也较小。

(2) 在1995年-2002年的8年间, WoS中专利分析研究的文献为194篇, 形成三个主题聚类, 分别是创新(Innovation)、医药产业(Pharmaceutical-Industry)和指标(Indicators), 其中创新、指标聚类的总引用次数、h指数有明显提高。从主题聚类的文献分布看, 三个聚类涉及到75篇文献, 占该时间段文献总量的38.66%, 其中引用次数最高的是美国乔治敦大学Almeida等人于1999年在《管理科学杂志》上发表的《知识的本地化及区域网络中工程师的流动性》一文, 总引用次数为610次, 文中指出工程师在企业间的流动性影响本地的知识转移, 知识流嵌入在本地劳动力网络中。其次是美国密歇根大学的Hall等人于2001年在《兰德经济学杂志》上发表的《专利悖论重审: 美国半导体业专利实证研究》和美国宾夕法尼亚大学Rosenkopf等人于2001年在《战略管理杂志》上发表的《本地搜索之外: 边界跨越、探索及其对光盘业的影响》, 前一篇文章指出美国在20世纪80年代早期加强了专利权, 促进了半导体企业专利行为倾向的显著提高; 后一篇文章指出跨组织边界、不跨技术边界的探索, 对光盘领域后续技术演进影响最大, 而同时跨组织边界、技术边界的探索, 对光盘领域之外后续技术发展影响最大, 两篇文章的总引用次数分别是464次和458次。该时间段内, 研究主题呈现一定集中倾向, 研究质量有较大提高。

(3) 在2003年-2008年的6年间, WoS中专利分析研究的文献为351篇, 形成6个主题聚类, 分别是创新(Innovaiton)、知识溢出(Knowledge-Spillovers)、科学(Science)、吸收能力(Absorptive-Capacity)、公共科学(Public-Science)、保护(Protection), 其中创新仍是重要的研究主题, 发文量、总引用次数、h指数继续大幅提高。从主题聚类的文献分布看, 6个聚类涉及到248篇文献, 占该时间段文献总量的70.66%, 其中引用次数最高的是美国加利福尼亚大学伯克利分校的Hall等人于2005年在《兰德经济杂志》上发表的《市场价值和专利引用》, 美国西北大学的Wuchty等人于2007年在《科学》上发表的《知识生产中团队越来越占据主导地位》, 美国宾夕法尼亚大学的Rosenkopf等人于2003年在《管理科学》上发表的《通过联盟和流动性来克服本地搜索》, 引用次数分别是386次、314次和258次。第一篇文章指出研发与资产股份的比率、专利与研发的比率、引用与专利的比率都显著地影响市场价值; 第二篇文章指出知识创造过程中团队正越来越多成为知识生产的主导, 团队能产出具有极高影响力的研究; 第三篇文章指出企业可采用知识获取机构来填补现有技术、地理环境中的漏洞。该时间段内创新方面的研究渐趋成熟, 出现了两个较为重要、但发展较弱的主题聚类, 即吸收能力和知识溢出, 说明随着研究的深入, 专利行为中蕴含的知识管理、知识再造问题, 专利与经济增长的关系问题在专利分析的研究中日趋重要。

(4) 在2009年-2014上半年的6年间, WoS中专利分析研究的文献为703篇, 形成14个主题聚类, 分别是专利引用(Patent-Citation)、技术(Technology)、生物技术(Biotechnology)、指标(Indicators)、网络(Networks)、模型(Models)、聚集(Agglomeration)、技术转移(Technology-Transfer)、产品开发(Product- Devlopment)、网络分析(Network-Analysis)、系统(Systems)、知识产权(Intellectual-Property-Rights)、国外直接投资(Foreign- Direct-Investment)、全球化(Globalization), 其中专利引用、技术、生物技术等主题聚类文献量较高, 但引用量、h指数不算高。从主题聚类的文献分布看, 14个聚类涉及到614篇文献, 占该时间段内文献总量的87.34%, 其中引用较高的是美国乔治梅森大学Acs等人于2009年在《小企业经济学》上发表的《创业知识溢出理论》, 意大利博科尼大学的Breschi于2009年在《经济地理杂志》上发表的《熟练工人的流动性和共发明网络: 本地知识流解析》, 美国南卡罗来纳大学的Tellis于2009年在《市场营销杂志》上发表的《跨国重大创新: 卓越的企业文化》, 引用次数分别是109次、85次和84次。第一篇文章指出企业创造的内生知识能形成知识溢出, 并有助于企业家识别和利用机会; 第二篇文章指出一旦对发明人的流动性及其形成的共发明网络进行控制, 空间上的邻近性对知识扩散的影响将会显著降低; 第三篇文章指出企业文化是重大跨国创新的最强驱动因素, 重大创新的商业化能反映企业的财务表现, 而且是一个更强大的预测指标。该时间段内研究主题进一步集中, 且呈现多样化趋势, 发文量显著增加, 但由于发文时间较短, 其影响力还未完全展现出来, 故而反映质量特性的计量指标偏低。此外, 专利引用分析、专利网络研究正成为近年来专利分析研究中的重要内容。

从WoS中专利分析研究的主题区域演变情况看, 创新是其中最大的主题区域, 随着时间的推移, 创新方面的文献量越来越大, 且不断进行着主题的分化、演进。如在1995年-2002年间, 创新主题演变为创新和指标两个主题聚类, 到了2003年-2008年间, 创新、指标分别演进为创新、知识溢出、吸收能力、科学、公共科学等聚类, 到了2009年-2014年间, 创新、知识溢出、吸收能力等又进一步分化、演变为包含专利引用、技术、网络等较为多样化的主题。图7中还可看到知识产权保护的主题区域, 说明随着国际竞争的加剧, 知识产权战略成为世界各国经济、科技发展的重要战略, 围绕专利的知识产权保护研究也逐渐发展起来。此外, 还有一些孤立主题, 如1903年-1994年间的计算语言学技术、碳氢化合物、产品等主题聚类, 并未在后期得到进一步发展, 而2009年-2014年间的技术转移、网络分析则代表新出现的主题聚类, 是否能驱动后续研究还有待进一步验证。

4.3 近10年重要研究主题分析

为对近年来研究热点进行分析, 在SciMAT中重新设置2004年-2014年的时间段, 设置结点精简参数为3, 链接精简参数为3, 设置结点大小对应聚类的h指数, 可得到近10年的主题聚类战略图, 如图8所示:

图8 近10年WoS中专利分析研究主题战略图

(1) WoS中专利分析研究最为重要的主题是位于右上象限的专利引用、专利分析、知识流、竞争优势、纳米技术和本地化。结合SciMAT中各结点的聚类网络图可知, 专利引用聚类中专利引用、创新、研发、知识溢出等关键词间表现出较强的关联。专利分析聚类中最为明显的联系是专利挖掘与自然语言处理间的关联。知识流聚类中韩国、中国台湾两个关键词与流动关键词联系较紧密, 聚类中还包括审查员引用、劳动者移动性等关键词, 但词间联系较弱。竞争优势聚类包含基于资源的观点、战略联盟、战略管理、联盟形成等关键词, 但词间关联较弱。纳米技术聚类中信息可视化、自组织地图、技术领域等关键词间表现出较强的关联。本地化聚类中制造业与地理位置集中之间表现出较强的关联。

(2) WoS中专利分析研究的基本主题是位于右下象限的生产力、产业聚类。生产力聚类中关键词国外直接投资、国内企业间表现出较强的关联。产业聚类中主要包括中国、亚洲、技术融合、技术预测等关键词。

(3) WoS中专利分析研究的专门性主题是位于左上象限的学术研究、大学聚类。学术研究聚类中关键词学术研究、大学研究、产业创新表现出较强的关联。大学聚类中只包括大学、高等教育、规模三个关键词。

(4) WoS中专利分析研究的衰退或新兴主题是位于左下象限的知识产权、协作、政策、模式、趋势等聚类。其中知识产权聚类主要包括范围、权利、许可、反对、保护等关键词。协作聚类主要包括发明人、组织、小世界、知识转移等关键词。政策聚类包括政策、美国、知识产权、影响等关键词。模式聚类包含国际化、科学合作、网络化等关键词。趋势聚类中包括演进、相似性、趋势等关键词。

由此可知, WoS中专利分析研究比较重要的研究课题主要包括专利在知识管理中的应用、专利分析技术、专利对企业、产业发展的促进作用等方面。其中专利在知识管理中的应用集中体现在利用专利分析法促进知识的再造, 知识本地化问题研究, 以及利用劳动者移动性研究知识的流动、传播特性, 专利分析技术突出表现在专利挖掘、信息可视化等方面, 专利在企业、产业中的应用主要表现在利用专利分析技术促进企业战略联盟形成, 研究技术融合、技术预测问题, 促进国内经济增长。WoS中专利分析研究中比较专门的研究课题主要涉及大学层面的专利申请、保护, 高校、企业合作促进产业创新等。此外, 如何利用专利的范围、权利、许可进行知识产权保护, 如何通过发明人网络、协作等促进知识转移, 如何判断演进趋势成为近年来WoS中专利分析新的研究热点。

5 结语

由WoS中专利分析研究的计量与分析可知, 该领域的研究始于1903年, 但其快速增长主要在近10年。从关键词变化看, 该领域研究力量不断增强, 但能引起大家广泛关注、持续研究的重要课题较少。从主题演进分析知, 该领域主题聚集现象逐渐明显, 且呈现多样化。其中早期文献的数量、质量计量指标均不理想, 且研究成果较为分散; 中间阶段一些重要主题的文献数量、质量计量指标有较大程度提高, 说明研究人员重视程度提高, 研究实力增强; 近期文献数量指标较高, 但质量计量指标偏低, 主要与文献发表时间短, 影响力还未完全展开有关。

通过本文研究可知, SciMAT在主题演进研究上具有预处理功能较强、能结合多种图谱从不同角度揭示主题演进变化情况、能将质量计量指标融入图谱制作等优点。不足之处有: SciMAT主要支持词、作者、参考文献、参考文献作者、参考文献来源等分析点, 对于其他分析点支持不足。此外在SciMAT现有的分析点上, 利用词进行主题演进方面的研究更具实践意义, 而其他分析点的图谱制作尚需借助其他软件进行配合, 以更好展示社会结构、知识结构的变化情况。最后SciMAT还存在图谱转化效果不理想等问题。

参考文献
[1] Cobo M J, López-Herrera A G, Herrera-Viedma E, et al. An Approach for Detecting, Quantifying, and Visualizing the Evolution of a Research Field: A Practical Application to the Fuzzy Sets Theory Field[J]. Journal of Informetrics, 2011, 5(1): 146-166. [本文引用:1]
[2] 张璇, 苏楠, 杨红岗, . 2000-2011年国际电子政务的知识图谱研究——基于CiteSpace和VOSviewer的计量分析[J]. 情报杂志, 2012, 31(12): 51-57.
Zhang Xuan, Su Nan, Yang Honggang, et al. Knowledge Mapping of Research on International E-government During 2000-2011 Based on CiteSpace and VOSviewer[J]. Journal of Intelligence, 2012, 31(12): 51-57. [本文引用:1]
[3] 崔鹏, 孙宝文, 王天梅, . 基于共词分析的网络虚拟社会领域热点及演进态势研究[J]. 情报杂志, 2013, 32(2): 40-44, 56.
Cui Peng, Sun Baowen, Wang Tianmei, et al. Study on Network Virtual Society Area Hotspots and Evolution Based on Co-word Analysis[J]. Journal of Intelligence, 2013, 32(2): 40-44, 56. [本文引用:1]
[4] 侯月明, 乔晓东, 孙卫, . 开源分析工具在中文文献分析中的应用[J]. 现代图书情报技术, 2013(3): 71-76.
Hou Yueming, Qiao Xiaodong, Sun Wei, et al. Application of Open Source Analysis Tools in Chinese Literature Analysis[J]. New Technology of Library and Information Service, 2013(3): 71-76. [本文引用:1] [CJCR: 1.073]
[5] Cobo M J. SciMAT - Science Mapping Analysis Tool [EB/ OL]. [2014-03-22]. http://sci2s.ugr.es/scimat/. [本文引用:1]
[6] Cobo M J, López-Herrera A G, Herrera-Viedma E, et al. SciMAT: A New Science Mapping Analysis Software Tool[J]. Journal of the American Society for Information Science and Technology, 2012, 63(8): 1609-1630. [本文引用:3] [JCR: 2.005]
[7] SciMAT. SciMAT Version 1. 0 User Guide [EB/OL]. [2014-03-22]. http://sci2s.ugr.es/scimat/download.html. [本文引用:1]
[8] López-Herrera A G, Cobo M J, Herrera-Viedma E, et al. A Bibliometric Study about the Research Based on Hybridating the Fuzzy Logic Field and the Other Computational Intelligent Techniques: A Visual Approach[J]. International Journal of Hybrid Intelligent Systems, 2010, 7(1): 17-32. [本文引用:1]