中国科学技术信息研究所 北京 100038
中图分类号: G255.53 R318.6
通讯作者:
收稿日期: 2015-09-29
修回日期: 2015-11-8
网络出版日期: 2016-03-25
版权声明: 2016 《现代图书情报技术》编辑部 《现代图书情报技术》编辑部
基金资助:
展开
摘要
【目的】探索基于两种相似度矩阵的专利引文耦合分析方法以识别研究前沿。【方法】基于原始观测值和余弦距离两种相似度算法, 建立专利相似度矩阵, 利用社会网络分析得到研究前沿簇, 并进行簇类命名, 从而得到研究前沿。并利用Innography数据库的脑机接口领域专利对以上方法进行案例研究。【结果】发现两种相似度矩阵中, 基于原始观测值算法得到6个研究前沿簇, 涉及6类BCI研究内容; 基于余弦距离算法得到9个研究前沿簇, 涉及8类BCI研究内容, 两者的FID重合率均为43%。【局限】本文侧重于两种算法的结果, 即研究前沿数量、重合度和内容进行比较, 缺少对于算法本身特性的比较。【结论】基于这两种相似度算法的引文耦合法均可识别出领域的研究前沿, 余弦距离相似度算法能识别出更多数量的研究前沿, 且比基于原始观测值相似度算法的识别结果更全面。
关键词:
Abstract
[Objective] This study aims to identify the research trends (RT) based on patent bibliographic coupling method with the help of similarity algorithms. [Methods] We first established two types of patent similarity matrixes with two similarity algorithms - observed value (OV-BCA) and cosine distance (CD-BCA). We then used social network analysis to get the RT of Brain-Computer Interface (BCI) Patents. [Results] Six BCI research trend clusters were retrieved by OV-BCA algorithm, while CD-BCA algorithm got nine RT clusters. The two algorithms’ family ID coincidence rates were 43%. [Limitations] We focused on the comparison of results, including number, content and coincidence degree. More research is needed to study the characteristics of these algorithms. [Conclusions] RT can be retrieved by bibliographic coupling method with the help of the proposed algorithms. Specifically, the cosine distance algorithm can find more detailed research trends than the observed value algorithm.
Keywords:
研究前沿(Research Fronts, RF)最早由De Solla Price[1]于1965年提出, 即一组高被引文献, 用于描述领域内的瞬态特征和动态变化, 是对领域已有主题进行的评价和分析。1974年, Small等[2]首先提出使用共被引分析来识别活跃领域的研究前沿。而基于耦合分析识别研究前沿的定义也于1994年由Persson[3]提出, 即对一簇引用共同参考文献形成了耦合关系的相似文献, 其施引文献构成了研究前沿, 而被引的参考文献称为研究前沿的知识基础。Persson还结合文献耦合分析、作者共被引分析和文献共被引分析等方法研究了1986年-1990年JASIS中的文章, 分析了情报学领域的研究前沿及其与知识基础的关系。Glanzel等[4]也提出耦合分析是识别研究前沿的新的有效方法。之后, Morris等[5]将研究前沿进一步描述为一簇趋于引用固定的、不随时间变化的基础文献, 即文献耦合集, 以获得一个领域的整体发展趋势、可视化结构和动态变化。同时, 采用一种创新的研究前沿分析和展现的时间线方法, 即基于文献耦合聚类, 并引入连续的时间轴, 以展示各个研究前沿的出现增长和减弱消失的时间点, 进而得到研究前沿的演进变化, 以及潜在新研究前沿等信息。Yang等[6]利用耦合分析对1978年-2006年囊状纤维化症领域进行分析, 得到20项研究前沿, 特别是与骨质密度相关的研究前沿。张婷[7]利用耦合分析识别了科学传播领域的研究前沿。另外, 有学者结合耦合分析和其他分析方法对研究前沿进行识别。如Jarneving[8]结合耦合分析和完全连接聚类分析识别了严重呼吸道症候群领域的研究前沿。Chen等[9]利用专利耦合分析结合自然语言处理技术对美国和全球在智能电网行业的研究前沿进行比较。因此, 在文献计量学领域, 研究前沿既可以通过论文数据的识别表征科学基础前沿, 也可以通过专利数据的识别表征创新技术前沿。
研究表明, 文献耦合方法具有较好的时效性, 因为论文发表后即可获得参考文献数据, 而不需要其被引用数据, 故最近发表的文献也能被聚成一类[10], 能够比较快速地反映领域研究前沿的进展变化。但其也不可避免地存在所有基于引用关系的文献计量方法的限制: 如引用行为的偏好, 引用内容不同侧重点不同, 不同领域的文献被人为聚在一起, 分析样本的代表性问题, 忽视部分重要的文献, 以及数据库的问题等[11]。
目前文献计量学领域对于研究前沿的识别分析, 多以论文作为数据源, 较少涉及专利数据的分析。世界知识产权组织公布的一组数据显示[12], 专利说明书中含有90%-95%的研发成果, 其中85%以上的技术将不再出现于其他技术文献中, 且要比其他载体早公开一到两年, 因此专利数据涵盖更为丰富的技术信息, 适于领域的研究前沿分析。但专利数据具有其特殊性, 在实际分析中要针对实际情况做灵活的处理。本文将在已有基于论文耦合方法识别研究前沿的基础上, 以专利为数据源, 对专利型数据做相应处理后, 进行研究前沿的识别。
专利数据存在专利家族的特殊性, 一个专利家族的同族专利指拥有相同优先权专利, 在不同国家或组织多次申请、多次公布或审核批准的一系列内容相同或相似的专利文献[13], 表征相同或相似的技术。故本文对专利家族, 而非单个专利进行研究。ProQuest Dialog公司的Innography专利信息检索和分析平台有专利家族号(Family ID, FID)字段, 同族专利的家族成员拥有相同的FID, 代表一个技术点, 因而采用该数据库作为数据源进行研究前沿分析。数据库中的专利后向引用指标(Backward Citations, BC)即该专利对其他专利的引用情况, 可用于评估发明的新颖性及其技术基础, 在本研究中用于耦合分析[14]。
将同一FID所有家族成员的后引数据合并, 使得每个FID仅出现一次。但是, 在合并后引数据时, 对于一个专利家族多个成员都引用的相同专利, 存在两种计数方式, 产生出两种相似度计算方法, 进而衍生出两种耦合相似度矩阵生成方法。
(1) 基于原始观测值(Observed Value, OV)的相似度计算方法, 即在合并后引数据时, 对于相同的后引专利全部归一, 无论后引专利被专利家族中几个专利成员引用, 都只计数1次, 专利对间的相似度即为两个专利家族相同后引专利的数量。
(2) 基于余弦距离(Cosine Distance, CD)的相似度计算方法, 是将专利家族合并后的后引数据转化成空间向量, 然后计算两两向量间夹角的余弦值, 得到余弦距离(也称为余弦相似度[15])。余弦距离用向量间的夹角来衡量相似度, 重视向量在方向上的差异。两个n维向量A [A1, A2, …, An]和B [B1, B2, …, Bn]间的余弦距离为:
第一种方法反映的是专利对间绝对的共现次数, 可以真实地反映共现次数, 但该计算方法的缺点是在家族所有的相同后引专利归一化后, 不能反映它们在家族中所占的比重。比如, 某一项后引专利在多个家族成员的施引数据中出现, 则反映了该后引专利对这一专利家族存在引用偏好, 但归一化处理后, 这种引用偏好无法体现。第二种方法反映的是专利对间相对的共现次数, 这种将专利的引用情况向量化, 以向量的夹角大小反映专利对间的相似度, 可以保留专利家族的引用偏好, 但缺点是无法还原现实的共现次数。两种方法各有利弊, 互为补充, 因此本文采用两种相似度计算方法建立耦合相似度矩阵。
相似度矩阵的行和列均为FID, 根据专利后向引用指标和两种相似度算法分别计算专利家族对间的相似度, 遍历所有专利家族对后, 即可分别建立基于原始观测值的耦合相似度矩阵(OV-BCA)和基于余弦距离的耦合相似度矩阵(CD-BCA)。
根据张嘉彬[11]的研究, 利用社会网络分析法对两种耦合相似度矩阵进行聚类, 连续调节阈值直到能获得比较清晰的聚类结果, 并且聚类数量控制在15个以内, 所得簇类即研究前沿。同时, 将包含三个及以上的专利家族聚类算作一个研究前沿。
最后, 对识别出的研究前沿进行命名, 依据其共同的合作专利分类号(Cooperative Patent Classification, CPC)以及摘要和权利要求项的内容综合运用人工解读、切词技术和专家智慧对研究前沿簇进行命名。
脑科学领域的脑机接口技术(Brain Computer Interface, BCI)指在无外周神经系统和肌肉组织参与的条件下, 通过计算机等电子设备采集转化大脑活动信号为输出控制信号, 进而与外界环境进行交流。BCI开辟了一种全新的模式, 给人类提供了一种可根据不同情境的大脑活动来操控电脑或者通信设备进行活动的可能[16], 为用意念或思维控制外部设备提供了可行手段[17]。其涉及计算机科学、神经生理学和康复医学等领域[18], 被国际多个权威机构选为21世纪的研究前沿和热点之一[19], 因此识别脑机接口领域的研究前沿意义重大。
本研究在Innography专利信息检索和分析平台检索到脑机接口技术领域相关专利共3 546件, 检索时间范围为2006年1月1日-2015年5月30日, 检索日期为: 2015年5月30日。进行数据清洗剔除无关专利, 最终得到相关专利3 543件, 涉及专利家族1 848个。
检索策略由4部分组成:
①BCI的各种变形表达: @(abstract, pclaims, title) ("Brain machine interface*") OR ("brain response interface*") OR ("Brain and Computer Interface*") OR ("direct neural interface") OR ("Brain Computer Interface*")@*
②BCI技术分类的表达: (@(abstract, pclaims, title) ("brain activity") OR ("neurophysiological signal*") OR ("cortical neuronalactivity") OR ("cortical neuronal action potential*")) AND (@(abstract, pclaims, title) ("Steady-State Visual Evoked Potential*") OR ("Event Related Potential or Evoked Potential*") OR (" Slow Cortical Potential ") OR ("Visual Evoked Potential ") OR ("P300 evoked potential*") OR ("P300") OR ("event related desynchronization") OR ("Event Related synchronization") OR ("mental task") OR ("spontaneous rhythm*"))@*
③BCI技术的国际专利分类号: @meta CPC_G06F000301 5000@*
④BCI技术相关的CPC再利用BCI技术分类进行限定: ((@meta CPC_A61B0005044800) OR (@meta CPC_A61B000 5047600 ) OR (@meta CPC_A61B0005040010) OR (@meta CPC_A61B0005004200)) AND (@(abstract, pclaims, title) (Signal Acquisition) OR (Feature Extraction) OR (Translation Algorithm) OR (Device Command*) OR ("Brain Computer Interface*") OR ("Brain machine interface*") OR ("brain response interface*") OR ("Brain and Computer Interface*") OR ("direct neural interface"))@*
根据第2节所述方法, 利用VBA编程计算专利对间相似度, 得到1848×1848的脑机接口领域的耦合相似度矩阵。识别聚类簇得到图1所示结果, 图中每个圆圈代表一个技术点, 以专利家族号表示, 线的粗细表示FID间联系的紧密程度。基于原始观测值的耦合分析法(OV-BCA), 调节观测值的阈值为10, 聚类出的研究前沿簇达到6个, 涵盖35个专利家族, 共116件专利。最后, 对研究前沿簇进行命名, 得到表1中的命名结果。图1中右侧的聚类簇所含专利家族号最多, 达到21个, 进一步细分可得到两个研究前沿: B5神经响应测量的市场化应用与用户评价; B6利用植入式神经刺激器进行神经系统调制, 治疗神经系统疾病。
表1 基于OV-BCA的研究前沿识别结果
时间 | 阈值 | 序号 | 研究前沿 | 聚类中专利 | 数量 | 所占比例(%) | |||
---|---|---|---|---|---|---|---|---|---|
平均优 先权年 | 平均公 布年 | 专利 家族 | 专利 | 专利 家族 | 专利 | ||||
2006- 2015 | 10 | B1 | 用于视觉刺激电路的生物活性剂 | 2008 | 2011 | 5 | 9 | 14.3 | 7.8 |
B2 | 使用小波变换对脑电图的波形信号进行处理 | 2009 | 2011 | 3 | 13 | 8.6 | 11.2 | ||
B3 | 用于调节神经系统活动或治疗的磁疗法, 如脑电同步化磁震荡治疗 | 2008 | 2011 | 3 | 16 | 8.6 | 13.8 | ||
B4 | 基于任务相关刺激产生的自发脑电的检测、测量或记录 | 2008 | 2012 | 3 | 6 | 8.6 | 5.2 | ||
B5 | 神经响应测量(如脑磁图(MEG)、脑电图(EEG)、皮电反应(GSR)、心电图(EKG)、眼动电图(EOG), 眼动跟踪和面部情绪编码测量等)的市场化应用与用户评价 | 2007 | 2011 | 9 | 32 | 25.7 | 27.5 | ||
B6 | 利用植入式神经刺激器进行神经系统调制(如电、热、磁调制), 治疗神经系统疾病(如神经系统紊乱) | 2008 | 2011 | 12 | 40 | 34.2 | 34.5 |
表1揭示的是零散的前沿技术点, 为便于宏观分析, 对脑机接口研究前沿按照BCI的分类、组成和应用三方面共13个类别对零散的前沿技术点进行归类, 具体包括: 植入式BCI和非植入式BCI。非植入BCI又可细分为基于诱发响应的BCI、基于自发响应的BCI和fNIRS-BCI(Functional Near-Infrared Spectroscopy- BCI); 信号采集、信号处理和控制器; 辅助神经系统类疾病的诊断或治疗、脑功能研究、交流和通信、运动与转移、游戏娱乐和康复训练。按上述13个类别对B1到B6涉及的内容进行归类: 非植入式BCI(B1), 植入式BCI(B6), 信号采集(B4、B5), 信号处理(B2), 辅助诊断和治疗(B3), 脑功能研究(B6), 共6类。
反映了BCI在近10年的两个前沿重点: 一个是专注于BCI的市场化应用, 且引入了用户的喜好评价, 使得BCI的设计更加人性化; 另一个是从之前的以无创性非植入式的EEG作为BCI的主要信号源, 发展到微创性的植入式BCI研究, 这也是BCI发展的必然趋势。2013年举行的第5届国际脑机接口会议上对于BCI未来发展方向中也提到相同内容[20]: 相比于非植入式BCI, 植入式BCI展现出其对大脑活动信号控制更好的质量和速度, 而成为新的研究聚焦点, 及未来对于BCI设计用户体验友好性、易用性的不断追求。国际脑机接口会议每3年举行一次, 于2013年举行了第5届脑机接口国际会议, 其所展示的研究前沿内容具备权威性, 且最能反映近10年, 乃至未来1-3年的重要发展方向。
根据第2节所述方法, 利用TDA(Thomson Data Analyzer)工具计算专利对间余弦相似度, 得到1848×1848的脑机接口领域的耦合相似度矩阵。调节余弦距离的阈值为0.53, 识别聚类簇得到图2所示结果, 基于余弦距离的耦合分析法(CD-BCA), 得到9个研究前沿簇, 涵盖35个专利家族, 共59件专利。对研究前沿簇进行命名, 得到表2中的命名结果。图2中所占比例最大的是b3神经响应测量的市场化应用与用户评价, 达到20%。b1-b9涉及的内容包括: 非植入式BCI(b5), 植入式BCI(b6), 信号采集(b2、b3、b7、b9), 信号处理(b8), 辅助诊断和治疗(b4), 脑功能研究(b6), 运动与转移(b1), 康复训练(b7), 共8类。
表2 基于CD-BCA的研究前沿识别结果
时间 | 阈值 | 序号 | 研究前沿 | 聚类中专利 | 数量 | 所占比例(%) | |||
---|---|---|---|---|---|---|---|---|---|
平均优 先权年 | 平均公 布年 | 专利 家族 | 专利 | 专利 家族 | 专利 | ||||
2006- 2015 | 0.53 | b1 | 以神经系统活动为输入的控制系统, 如控制车辆 | 2008 | 2010 | 3 | 3 | 8.6 | 5.1 |
b2 | 用于脑的成像设备, 如核磁共振, 光学断层扫描或阻抗断层扫描装置 | 2012 | 2014 | 3 | 3 | 8.6 | 5.1 | ||
b3 | 神经响应测量(如脑磁图(MEG)、脑电图(EEG)、皮电反应(GSR)、心电图(EKG)、眼动电图(EOG), 眼动跟踪和面部情绪编码测量等)的市场化应用与用户评价 | 2007 | 2012 | 7 | 18 | 20 | 30.5 | ||
b4 | 计算机辅助医疗诊断或治疗的医疗保健及康复的系统和方法 | 2009 | 2010 | 5 | 5 | 14.2 | 8.5 | ||
b5 | 基于视觉诱发电位的控制系统, 例如视觉刺激生成器, 基于虚拟现实的脑机接口, 动眼追踪等 | 2009 | 2012 | 3 | 6 | 8.6 | 10.2 | ||
b6 | 利用植入式神经刺激器进行神经活动调制, 如热调制、电调制、磁调制等 | 2008 | 2010 | 4 | 10 | 11.4 | 16.9 | ||
b7 | 用于视觉刺激电路的生物活性剂 | 2008 | 2011 | 4 | 7 | 11.4 | 11.8 | ||
b8 | 基于小波分析技术的脑电图运动区功能定位系统 | 2012 | 2012 | 3 | 3 | 8.6 | 5.1 | ||
b9 | 利用生理活性数据(如脑电数据、脑血氧水平等)反映人的精神、心理状态, 如脑电图, 正电子发射断层扫描, 磁共振成像, 功能磁共振成像, 功能性近红外成像, 或脑磁图 | 2008 | 2009 | 3 | 4 | 8.6 | 6.8 |
识别出的B5和b3所包含的研究前沿, 二者FID高度一致, 且均在近10年内占据很大比例, 一方面表明这就是该时间窗内的重要研究前沿, 另一方面说明对于相关度较强且引用次数较高的多个专利家族, 用不同的相似度计算方法都能将其识别出来。此外, B1和b7二者所含FID也高度一致。
仔细比较表1和表2内容可以发现, CD-BCA的识别内容几乎涵盖了OV-BCA识别出的所有内容, 包括: 非植入式BCI、植入式BCI、信号采集、信号处理、辅助诊断和治疗、脑功能研究, 此外还识别出OV-BCA未识别出的BCI涉类, 如运动与转移及康复训练。因而, CD-BCA能识别出OV-BCA识别不出的新的前沿簇, 其前沿识别能力更强。
汇总基于原始观测值的耦合分析法(OV-BCA)和基于余弦距离的耦合分析法(CD-BCA) 的研究前沿识别结果, 如表3所示。可以看出, 基于余弦距离的相似度算法能识别出的更多数量的研究前沿簇。
表3 基于OV-BCA和CD-BCA所得研究前沿情况
比较项 | 相似度计算方法 | 数值 |
---|---|---|
阈值 | OV-BCA CD-BCA | 10 0.53 |
前沿个数(个) | OV-BCA CD-BCA | 6 9 |
前沿所包含的 FID数量(个) | OV-BCA CD-BCA | 35 35 |
计算OV-BCA和CD-BCA的研究前沿重合率, 发现两者的FID重合率都为43%, 其中, 重合的FID尤其能够代表已引发学科共同体广泛关注的高质量研究, 如表4所示。同时, 由3.4节已知CD-BCA能识别出OV-BCA识别不出的前沿簇, 其前沿识别能力更强。
表4 OV-BCA和CD-BCA的研究前沿重合率
重合FID数量 | 前沿数量(个) | 前沿所包含的FID总数(个) | FID重合率 | |||
---|---|---|---|---|---|---|
OV-BCA | CD-BCA | OV-BCA | CD-BCA | OV-BCA | CD-BCA | |
15 | 6 | 9 | 35 | 35 | 0.43 | 0.43 |
本文采用引文耦合分析法, 利用专利数据源, 基于两种相似度矩阵, 分析了脑机接口领域近10年的研究前沿情况。同时对基于原始观测值和基于余弦距离的两种相似度算法进行了对比研究。
引文耦合分析识别研究前沿, 最关键的一步是耦合相似度矩阵的建立, 之后可通过聚类识别出所探求的前沿结果。因为专利数据具有专利家族的特殊性, 而一个专利家族对应一个技术点, 因而相比于单篇专利更适合于研究前沿中技术点的识别。然而, 两个专利家族间相似度的计算, 是两类专利文献集间相似度的计算, 在合并同一FID所有家族成员的后引数据后, 由于对相同后引数据的计数有两种方式, 因此, 必然导致两种相似度计算方式的使用, 并分别获得两种耦合相似度矩阵及不同的研究前沿。结果表明, 这两种方法都可以识别出脑机接口领域的研究前沿情况; 同时, 结果表明基于余弦距离相似度算法的耦合方法的前沿识别能力更强, 所得前沿数量更多, 且识别结果更细致。
但是, 本文仅侧重于对两种相似度算法结果的比较, 即对研究前沿数量、重合度和内容进行比较, 对于算法本身特性的比较并没有展开, 存在一定的欠缺。另外, 仅选取一个领域进行研究, 并且是按照专利家族建立的矩阵, 数据量不够丰富, 后续将选取多个领域进行案例研究, 以进一步验证两种算法的适应性。同时, 因为专利的重要引用关系除了耦合关系, 还有共被引关系。未来将在本耦合方法研究的基础上, 探索基于共被引方法进行研究前沿识别的方法, 并比较两者结果的异同, 以期对研究前沿识别这一关键问题获得较为全面科学的探索。
高楠: 共同设计研究方案, 针对专利数据的专利家族特点提出两种相似度计算方法, 进行研究前沿耦合识别方法和脑机接口领域研究进展的文献调研, 制定专利检索策略, 获取、处理与分析数据, 撰写及修订论文;
傅俊英: 提出用专利引文耦合方法识别研究前沿的研究思路, 共同设计研究方案, 进行研究前沿耦合识别方法的文献调研, 并对论文最终版本提出修改意见;
赵蕴华: 共同设计研究方案, 并对论文最终版本提出修改意见。
所有作者声明不存在利益冲突关系。
支撑数据见期刊网络版http://www.infotech.ac.cn。
[1] 高楠, 傅俊英, 赵蕴华. 06-15CD-BCA.xlsx. 基于余弦距离算法的专利相似度矩阵.
[2] 高楠, 傅俊英, 赵蕴华. 06-15OV-BCA.xlsx. 基于原始观测值的专利相似度矩阵.
/
〈 |
|
〉 |