学术数据库中研究主题术语的质量测度及分布研究*
Measurement and Distribution of Index Quality in Research Topics from Academic Databases
通讯作者: 王昊,ORCID: 0000-0002-0131-0823,E-mail:ywhaowang@nju.edu.cn。
收稿日期: 2019-11-8 网络出版日期: 2020-06-25
基金资助: |
|
Received: 2019-11-8 Online: 2020-06-25
【目的】 对学术数据库中研究主题的索引术语的质量进行测度并探究其分布特点。【方法】 从Web of Science、CNKI中采集来自人文、社会和自然科学领域的研究主题的索引术语,构建主题、领域和数据库层次的术语空间,将术语区分能力(Term Discriminative Capacity,TDC)作为术语质量评价指标,采用ANOVA分析方法探究不同数据库、领域的研究主题的术语质量分布特点。【结果】 不同领域的研究主题的术语质量在字段分布上均满足:“Abstract”>平均水平>“Keyword”;CNKI的“Title”(Web of Science的“Keyword Plus”)与平均水平相比在不同领域中有所差异,但均低于“Abstract”;Web of Science的“Title”与“Abstract”相比在不同领域中有所差异,但均高于平均水平。【局限】 研究主题不够丰富。【结论】 TDC测度方法具有稳定性和可靠性;通过探究研究主题的术语质量分布特点,可以为选择检索字段入口和提高术语质量提供方向与依据。
关键词:
[Objective] This paper measures the quality of index terms from research topics in academic databases and explores their distribution characteristics. [Methods] We collected the index terms of research topics in humanities, society and natural sciences from Web of Science and CNKI. Then, we constructed terminology spaces based on research topics, domains and databases. Third, we used term discriminative capacity (TDC) to evaluate their quality. Finally, we conducted ANOVA testing to explore the distribution characteristics of index terms quality from different databases/domains. [Results] The index term quality of research topics followed the rules of “Abstract”> average level >“Keyword”. The “Title” of CNKI (“Keyword Plus” in Web of Science) were lower than “Abstract”, while the “Title” in WoS were lower than average. [Limitations] The amount of research topics in this study needs to be expanded. [Conclusions] The TDC measure method is stable and reliable, which helps us improve the information retrieval services and terms quality.
Keywords:
本文引用格式
李轲禹, 王昊, 龚丽娟, 唐慧慧.
Li Keyu.
1 引言
学术数据库提供了许多面向作者的检索字段,如标题(Title)、关键词(Keyword)、摘要(Abstract)等(后文中英文数据库字段统一用英文表示),这些字段的术语均来自文档本身。另外,Web of Science (WoS)还提供了面向系统的检索字段,如Keyword Plus,该字段的术语来源于系统同义词库[6],在实际文献检索中,选择合适的检索字段,对提高检索效率有一定的帮助[7]。由于国内外不同学科领域的研究内容与性质均存在差异[8],这种差异可能在不同字段的术语质量上有所体现,因此了解不同数据库、不同学科领域(简称为“领域”)的不同字段的术语质量表现,对提高索引术语质量和检索效率尤为重要。
本文将研究领域限定为知识的三大部类:自然科学、社会科学和人文科学[9],在WoS和中国学术期刊全文数据库(CNKI)中采集来自不同领域的研究主题的术语。将术语区分能力(TDC)作为新的索引术语质量评价指标。在研究主题、领域和数据库层次的术语空间中,从字段、领域等角度探究研究主题的术语质量分布特点,比较不同数据库、领域的研究主题的术语质量分布特点差异,为选择检索字段和提高术语质量提供方向与依据。
2 相关研究
影响文献检索效率的因素中,文献标引质量不容忽视,而随着电子文档数量的迅速增长,高效的自动标引技术已被广泛使用。自动标引可分为自动抽词与自动赋词标引[10],前者从文献中抽取关键词作为检索标志,而后者将关键词转化为受控词。在目前的数字资源标引中,自动抽词标引应用较为广泛[11,12],关键词抽取的相关研究也受到许多关注,一些机器学习和深度学习的方法被应用在关键词抽取和权重设置上[13,14]。自动标引多从Title、Keyword、Abstract等字段中抽取关键词,但部分国外数据库对更精确的信息进行标引,如EBSCO、Ovid、ProQuest Dialog对文献中的化学物质的分子式及构成、数值等进行标引[15,16]。不同的标引源,由于其含有的内容不同,标引能力也有所差异[17],如何对不同标引源的术语质量进行客观评价成为一个重要的研究问题。
穷尽性(有意义的术语的数量)和特异性(文档频率)[3,4]是评价索引术语质量的重要指标,属于术语的内在属性,只针对同一文档集合的术语,不能有效区分不同主题文档集合的术语,且易受到文档长度及数量的影响。Salton等[5]提出的术语区分模型(Term Discrimination Model,TDM),是从文档区分能力角度评价索引术语质量最广泛使用的方法之一,该模型中术语区分值(Term Discrimination Value, TDV)被作为衡量索引术语质量的指标,但其计算时间复杂度较高[18],有学者针对该问题进行改进[19,20],TDV已被应用于计算术语之间的语义关联[21]、设置索引术语权重[22]、选择主题关键词[23]、选择文本分类特征[24]等研究中。此外,还有一些基于统计的方法能够度量术语区分不同文档的能力,除了熟知的Inverted Document Frequency(IDF)、Entropy(ENPY)等,还有一些改进方法,如Bernauer等[25]提出从术语出现的负二项分布模型中导出的计算方法、Lakshmi等[26]提出的基于语义关系的模糊逻辑词频排序计算方法。目前对索引术语质量的研究集中在重新定义术语质量或计算少量术语的TDV上,对术语质量大规模测量和应用的研究较少。TDV根据术语抽取后文档空间的密度变化间接衡量术语区分能力,且笔者课题组研究发现[27],TDV对DF有较高依赖性,因此本文借鉴TDV思想,提出通过术语抽取后术语空间的密度变化,直接衡量术语区分能力的TDC方法。
综上,本文采用TDC测度方法,从术语区分能力角度对索引术语质量进行评价,然后进一步探究不同数据库、不同领域的研究主题的术语质量分布特点差异,为从索引术语质量角度提高检索效率提供依据与思路。
3 数据与方法
3.1 研究框架
为探究学术数据库中研究主题的术语质量分布特点,本文提出如下假设:
H1:TDC能够作为衡量中英文索引术语质量的指标。
H2:相同领域的不同研究主题的术语质量的字段分布特点相似;同时,不同领域的研究主题的术语质量的字段分布特点存在明显差异。
H3:WoS和CNKI的术语质量的字段、领域分布特点存在明显差异。
H4:整合来自不同研究主题的术语会对术语质量分布产生影响。
基于上述假设,本文设计研究框架如图1所示。
图1
(1)数据采集与预处理:在WoS、CNKI中检索人文、社会和自然科学领域的研究主题,在检索得到的文档集合中随机抽取等量文档,从文档题录信息中提取所需字段,预处理后得到术语集合;
(2)TDC计算:构建主题、领域和数据库层次的术语空间,计算术语空间密度,计算每个术语抽取后术语空间密度的变化,得到术语的TDC值集合(TDCs);
(3)实验结果分析:以领域层次术语空间的TDCs为例,通过绘制散点图与频率直方图,验证假设H1,然后基于不同层次术语空间的TDCs,采用方差分析(Analysis of Variance,ANOVA)方法探究研究主题的术语质量分布特点,比较不同数据库、领域的研究主题的术语质量分布特点差异,验证假设H2、H3、H4。
3.2 数据来源与预处理
英文数据采集自WoS,分别在Arts & Humanities Citation Index(A&HCI)、Social Science Citation Index(SSCI)和Science Citation Index(SCI)库中检索属于人文、社会和自然科学领域的各三个主题;中文数据采集自CNKI,在Chinese Social Science Citation Index(CSSCI)库中检索分别属于社会、人文科学领域的各三个主题,在Chinese Science Citation Database(CSCD)库中检索属于自然科学领域的三个主题。为了后续可以准确地比较不同字段的术语质量,仅保留“Title”、“Keyword”、“Keyword Plus”、“Abstract”四项题录信息完整的英文文献和“Title”、“Keyword”、“Abstract”三项题录信息完整的中文文献作为有效文献,最后从检索得到的有效文献中随机抽取100篇文献作为分析对象。在主题选择上,遵循以下原则:
(1)主题带有明显的学科领域特征,且相互存在明显差异;
(2)文献检索量适中,且有效文献量具有一定的规模,适合进行抽样;
(3)主题相对独立,研究范围较清晰。
基于上述原则,笔者首先明确不同领域的学科范围,借助百度词条分类和头脑风暴,在相应的学科中选择具有代表性的主题进行研究。由于A&HCI中有效文献率较低,为保证足够的数据量,英文文献采集时间范围为1989年-2018年,而中文文献采集时间范围为2009年-2018年。具体的检索结果如表1所示。
表1 WoS与CNKI文献检索情况
Table 1
主题序号 | 领域标识 | 研究主题 | 检索文献数(篇) | 有效文献数(篇) | 选用文献数(篇) | 术语数量(个) |
---|---|---|---|---|---|---|
1 | A&HCI | Aristotle (亚里士多德) | 2 897 | 323 | 100 | 2 727 |
2 | Realism(现实主义) | 5 374 | 1 026 | 100 | 2 555 | |
3 | Christianity(基督教) | 4 364 | 743 | 100 | 3 247 | |
4 | SSCI | Government failure(政府失效) | 4 254 | 1 871 | 100 | 3 184 |
5 | Population urbanization(人口城市化) | 3 882 | 2 782 | 100 | 3 463 | |
6 | Economic depression(经济萧条) | 4 988 | 3 208 | 100 | 3 430 | |
7 | SCI | Petrology(岩石学) | 6 887 | 4 542 | 100 | 4 740 |
8 | Rubella(风疹) | 4 940 | 2 709 | 100 | 3 913 | |
9 | Supersaturated solution(过饱和溶液) | 5 072 | 2 745 | 100 | 3 377 | |
10 | CSSCI_A | 文学批评 | 4 561 | 4 468 | 100 | 2 308 |
11 | 黑格尔 | 2 257 | 2 225 | 100 | 1 914 | |
12 | 非物质文化遗产 | 2 405 | 2 334 | 100 | 1 958 | |
13 | CSSCI_S | 通货膨胀 | 4 315 | 4 297 | 100 | 1 873 |
14 | 产业集聚 | 4 324 | 4 316 | 100 | 1 732 | |
15 | 经济危机 | 4 455 | 4 367 | 100 | 1 905 | |
16 | CSCD | 粒子群算法 | 4 553 | 4 552 | 100 | 1 889 |
17 | 细胞移植 | 5 912 | 5 799 | 100 | 2 021 | |
18 | 配合物 | 5 240 | 5 171 | 100 | 2 185 |
基于随机抽取的有效文献,使用文献题录信息统计分析工具SATI[28]进行题录格式转换,并抽取出关键字段。使用SATI对英文文献的4项字段进行分词、去停用词和词根化处理,得到英文术语集合,对中文文献的三项字段用NLPIR汉语分词系统[29]进行分词处理,并基于停用词表(哈尔滨工业大学停用词表、四川大学机器智能实验室停用词库、百度停用词表)去停用词,得到中文术语集合。需要注意,SATI在对“Keyword”、“Keyword Plus”进行文本预处理时,没有进行分词处理,而是按分隔符分割提取术语,为保证实验的一致性,中文文献题录信息的处理也按照相同的模式,对“Keyword”按分隔符分割提取术语,至于基于词粒度对“Keyword”、“Keyword Plus”的切分研究,在文献[30]中进一步探讨。
3.3 TDC测度方法
区别于Salton等[5]提出的TDV,TDC测度方法通过术语抽取后所有术语与术语空间中心的平均相似度的变化,衡量术语区分能力,计算过程主要包括三个步骤:构建术语空间(Term Space,TS);计算术语空间密度(Term Space Density,TSD);计算术语抽取后TSD的变化。
(1)构建TS:基于预处理得到的术语集合,构建文档×术语矩阵(DTM),用术语向量描述文档。DTM为一个
其中,
(3)计算术语抽取后TSD的变化:当从当前的术语空间抽取出术语
其中,
公式(3)计算得到的
3.4 术语质量分布特点探究方法
分别在WoS和CNKI中采集索引术语,构建18个研究主题、6个领域和中英文数据库的术语空间,计算每个术语空间的TDCs,然后将计算结果按字段、领域划分到不同组别,采用ANOVA分析方法探究每个组别的术语质量差异,其中涉及的符号说明如表2所示。
表2 符号说明
Table 2
WoS | CNKI | |||
---|---|---|---|---|
编号 | 含义 | 编号 | 含义 | |
字段 | 1 | Title | 1 | Title |
2 | Keyword | 2 | Keyword | |
3 | Keyword Plus | 3 | Abstract | |
4 | Abstract | |||
领域 | 1 | A&HCI | 1 | CSSCI_A |
2 | SSCI | 2 | CSSCI_S | |
3 | SCI | 3 | CSCD |
以A&HCI的术语空间为例,比较术语的TDV、TDC值分布情况,以及与DF的依赖关系,验证TDC方法的合理性,即验证假设H1。在不同层次的术语空间进行ANOVA分析:
(1)在主题、领域的术语空间中,对字段因素进行One-Way ANOVA分析,探究主题的术语质量的字段分布特点,比较不同、相同领域的主题的术语质量的字段分布特点差异,即验证假设H2;
(2)在WoS、CNKI的术语空间中,分别对字段、领域因素进行One-Way ANOVA分析,探究WoS、CNKI的术语质量的字段、领域分布特点,比较两个数据库的术语质量分布特点差异,即验证假设H3,并对字段、领域两个因素进行Two-Way ANOVA分析,讨论在同一个术语空间中,字段与领域之间是否存在相互作用。
同时,在上述过程中,比较不同层次术语空间的术语质量分布,讨论不同研究主题术语的整合对术语质量分布是否存在影响,即验证假设H4。
4 实验结果分析
4.1 方法合理性论证
图2
图2
A&HCI中术语TDV、TDC频次直方图
Fig.2
Frequency Histogram of TDV、TDC of Terms in A&HCI
(1)TDV的取值区间跨度过大,且集中在0值附近,术语区分效果不明显;
(2)TDC的取值分布在-2~3之间,分布范围较大但控制在同一量级上,频次总体分布大致呈现中间高、两边低的状态,接近于正态分布,TDC值大于0占大部分,即在A&HCI的术语空间中大部分术语对文档区分起积极作用。
图3
综上,TDC比TDV的频次分布更合理,术语质量的区分性更好,且对DF指标不具有高度依赖性,因此TDC能够作为衡量索引术语质量的指标,即假设H1成立。
4.2 研究主题的术语质量分布
(1) 人文科学领域
图4
图4
A&HCI中各研究主题TDC的One-Way ANOVA结果
Fig.4
One-Way ANOVA Results of TDC for Each Research Topic in A&HCI
可以发现三个子图的术语质量在字段分布上存在共同点:
①“Abstract”>A_M_TDC,“Title”、“Keyword”、“Keyword Plus”均<A_M_TDC;
②“Abstract”的M_TDC最大,“Keyword”的M_TDC最小,即在A&HCI的各个主题文档空间中,通过“Abstract”检索文档,检索效果最好,而通过“Keyword”检索,可能会得到许多除检索目标以外的其他类似文档;
③相比于“Abstract”的术语质量,“Keyword Plus”与“Keyword”的术语质量更接近,“Keyword”与“Abstract”之间的折线感较明显。
来自CSSCI_A的三个主题的TDC的One-Way ANOVA结果如图5所示,由于在CNKI中不包含“Keyword Plus”,故字段仅为三项。三个子图的术语质量的字段分布均满足:“Abstract”>A_M_TDC>“Title”>“Keyword”,且“Title”与A_M_TDC存在的差距较大。
图5
图5
CSSCI_A中各研究主题TDC的One-Way ANOVA结果
Fig.5
One-Way ANOVA Results of TDC for Each Research Topic in CSSCI_A
(2) 社会科学领域
来自SSCI的三个主题的TDC的One-Way ANOVA结果如图6所示,三个子图存在共同点:
图6
图6
SSCI中各研究主题TDC的One-Way ANOVA结果
Fig.6
One-Way ANOVA Results of TDC for Each Research Topic in SSCI
①“Title”、“Abstract”均大于A_M_TDC,而“Keyword”、“Keyword Plus”均小于A_M_TDC;
②“Title”和“Abstract”非常接近,而“Keyword”与“Keyword Plus”也相差不大,在4个字段上M_TDC的分布接近于“U”型。
图7
图7
CSSCI_S中各研究主题TDC的One-Way ANOVA结果
Fig.7
One-Way ANOVA Results of TDC for Each Research Topic in CSSCI_S
(3) 自然科学领域
来自SCI的三个主题的TDC的One-Way ANOVA结果如图8所示,三个子图存在共同点:
图8
图8
SCI中各研究主题TDC的One-Way ANOVA结果
Fig.8
One-Way ANOVA Results of TDC for Each Research Topic in SCI
①“Abstract”>A_M_TDC,“Title”、“Keyword”、“Keyword Plus”均小于A_M_TDC;
②“Abstract”最好,“Keyword”最差;
③相比于“Keyword”,“Keyword Plus”与“Abstract”更接近,但“Keyword”与“Abstract”之间的折线感不如在A&HCI、SSCI中明显。
来自CSCD的三个主题术语的TDC的One-Way ANOVA结果如图9所示,三个子图均满足:“Abstract”>A_M_TDC>“Title”>“Keyword”,“Title”与A_M_TDC存在的差距较小。
图9
图9
CSCD中各研究主题TDC的One-Way ANOVA结果
Fig.9
One-Way ANOVA Results of TDC for Each Research Topic in CSCD
综上,在WoS、CNKI的研究主题的术语空间中,属于相同学科领域的主题,字段术语质量表现虽然存在一些差异,但其分布特点具有较高的相似性,故假设H2前半分句成立,而属于不同学科领域的主题,WoS的差异较明显,但CNKI可能由于只有三项字段,差异似乎不明显,4.3节将进一步探讨不同领域研究主题的术语质量的字段分布差异。
4.3 学科领域的术语质量分布
(1) WoS的学科领域
构建以领域为单位的术语空间(4.3节的术语空间均为领域层次),统计A&HCI、SSCI、SCI中TDC值正负数目,并与主题1-主题9的术语空间中术语质量分布对比,如图10所示,其中y轴代表主题、领域,x轴代表术语占比。
图10
图10
WoS中研究主题、领域的积极与消极术语数量分布
Fig.10
Distribution of Positive and Negative Terms of Research Topics、Domains in WoS
①积极术语占比顺序为:SSCI>SCI>A&HCI,A&HCI的术语质量分布情况最差,SSCI最好;
②主题1-主题3的消极术语占比均小于A&HCI(主题4-主题6与SSCI,主题7-主题9与SCI均成立),随着不同研究主题术语的整合,领域内语义重复的术语增多,对术语空间起积极区分作用的术语减少,即相同领域内不同研究主题术语的整合会促进消极术语占比的增加。
WoS中各领域的TDC的One-Way ANOVA结果如图11所示。
图11
图11
WoS中各领域TDC的One-Way ANOVA结果
Fig.11
One-Way ANOVA Results of TDC for Each Domain in WoS
①“Title”均有较大的相对增长幅度,在A&HCI中,其略高于平均水平;在SSCI中,其与“Abstract”的差距增大,明显优于“Abstract”;在SCI中,其不仅达到平均水平之上,而且优于“Abstract”;
②“Keyword Plus”也均有一定的相对增长幅度,在A&HCI、SSCI中,其与“Abstract”的差距减小,减弱了“Keyword”与“Abstract”间的折线感,在SCI中,“Keyword Plus”达到平均水平之上,与“Abstract”的差距更小,增强了“Keyword”与“Abstract”间的折线感;
③“Keyword”和“Abstract”的相对表现均较稳定,分别维持在一个相对较低和较高的水平。
(2) CNKI的学科领域
统计CSSCI_A、CSSCI_S、CSCD中TDC值正负数目,并与主题10-主题18的术语空间中术语质量分布对比,如图12所示。
图12
图12
CNKI中研究主题、领域的积极与消极术语数量分布
Fig.12
Distribution of Positive and Negative Terms of Research Topics、Domains in CNKI
①CSSCI_A、CSSCI_S和CSCD的积极术语占比差别不大,均在95.30%左右;
②存在部分主题的消极术语占比格外高,尤其在CSSCI_A和CSCD中,例如主题17(细胞移植)的消极术语占比明显高于CSCD,分析该主题的文档内容,发现在主题17中,文档的研究范围比较集中,主要与干细胞方面研究有关,因此主题术语之间的综合相似度较高,区分能力较弱,即主题的研究范围越集中,其术语质量表现越差;
③主题10-主题12的消极术语平均占比低于CSSCI_A(主题13-主题15与CSSCI_S,主题16-主题18与CSCD均成立),说明在CNKI中,相同领域内不同主题的术语的整合对术语质量分布存在消极影响。
CNKI中各领域的TDC的One-Way ANOVA结果如图13所示。
图13
图13
CNKI中各领域TDC的One-Way ANOVA结果
Fig.13
One-Way ANOVA Results of TDC for Each Domain in CNKI
①“Title”均有不同程度的相对增长幅度,在CSSCI_A中,其与平均水平的差距减小,但仍然存在明显差距,在CSSCI_S中,其明显超过平均水平,在CSCD中,其接近于平均水平;
②“Abstract”、“Keyword”仍然分别处于最高、最低水平。
综上,可以得到如下结论:
(1)不同学科领域研究主题的术语质量的字段分布特点存在明显差异,WoS中主要体现在“Title”和“Keyword Plus”上,CNKI中则主要体现在“Title”与平均水平的差距上,故假设H2后半句成立;
(2)随着领域内不同研究主题术语的整合,术语空间中消极术语的占比在增加,“Title”和“Keyword Plus”均有一定的相对增长幅度,故假设H4成立,字段相对表现变化原因可能是来自相同主题的题名(关键词)术语的重复使用现象较严重,术语相似度较大,但在领域内,由于跨主题,不同主题的题名(关键词)内容差异较大,术语区分性更大,但关键词为词组,具有组合性和复杂性,表现始终不佳,而附加关键词来源于系统词表,具有更好的规范性和可控性,表现优于关键词,能更好反映出差异的变化。
4.4 数据库的术语质量分布
(1) One-Way ANOVA分析
构建以数据库为单位的术语空间,统计WoS、CNKI中TDC值正负数目,与领域的术语空间中术语质量分布对比,如图14所示。
图14
图14
WoS、CNKI术语空间中积极与消极术语数量分布
Fig.14
Distribution of Positive and Negative Terms of WoS and CNKI
①各个领域的消极术语占比均低于WoS、CNKI的消极术语占比,说明不同领域的研究主题术语的整合,对WoS、CNKI的术语质量分布存在消极影响;
②WoS的积极术语占比高于CNKI,可能是由于中文缺少英文空格的天然分割符,在分词上准确性不如英文高,更容易造成语义重复的现象。
WoS、CNKI的术语质量的字段分布如图15所示。
图15
①在WoS中,“Title”>“Abstract”>“Keyword Plus”>A_M_TDC>“Keyword”,其中“Keyword Plus”与“Abstract”的差距远小于与“Keyword”的差距,“Keyword Plus”较好的表现说明系统同义词库具有一定的实用性,因此在CNKI中可考虑提供同样的检索字段,“Title”和“Abstract”的表现接近,对于WoS的文档空间,“Title”与“Abstract”均适合作为检索字段;
②在CNKI中,“Abstract”>“Title”>A_M_TDC>“Keyword”,其中“Abstract”与“Title”之间存在明显差距,对于CNKI的文档空间,“Abstract”为最佳的检索字段。
综上,在WoS和CNKI中,字段术语质量分布的差异主要体现在“Title”上,虽然“Title”在两个术语空间中均具有较好的相对表现,但是在WoS中更优异,说明中文的标题术语表达不如英文准确,中文作者需要更注意标题的表达方式,以便能准确地反映文档所研究的内容。
WoS、CNKI的术语质量的领域分布如图16所示。
图16
①在WoS和CNKI中,均是自然科学领域的文档最容易被检索到,可能是因为自然科学研究客观性和专业性较强,用词严谨规范,研究对象为自然界的事物,国内外的研究具有共通性,而在社会、人文科学中,属于不同学科的研究主题术语具有较强的跨学科性和融合性;
②WoS和CNKI的领域术语质量分布差异主要体现在人文科学上,可能是因为国内外的人文环境不同,研究范围与内容存在明显差异。
综上,从字段、领域角度看,WoS和CNKI的术语质量分布虽然有共同特点,但也存在明显差异,故假设H3成立。
(2) Two-way ANOVA分析
对字段、领域两个因素进行Two-Way ANOVA分析:
图17
图17
领域、字段因素作为固定因子的Two-Way ANOVA分析结果
Fig.17
Two-Way ANOVA Results with Domain、Field Factors as Fixed Factors
由图17可知:
①在WoS中,SCI的字段术语质量高低顺序与A&HCI、SSCI不同,体现在“Keyword Plus”上,其优于“Abstract”,也远优于SSCI、A&HCI的“Keyword Plus”,说明SCI的系统同义词库的建设更成功,而A&HCI和SSCI的系统词库还有很大改进空间;
②在CNKI中,CSSCI_S的各个字段术语质量高低顺序与CSSCI_A、CSCD不同,体现在“Title”上,其略优于“Abstract”,且与另两个领域的“Title”差距较小,说明CSSCI_S的“Title”比其“Keyword”、“Abstract”用词更加严谨和准确,尤其是该字段与另两个领域的“Keyword”存在的差距较大,说明在CSSCI_S中,不同研究主题的关键词术语重复使用现象较严重,术语质量较差。
5 讨论
在结果分析中,发现在同一术语空间中,“Abstract”的术语数量一般较多,其术语质量相对较好,而“Keyword”的术语数量较少,其术语质量相对较差,同样,主题、领域术语数量的大小顺序与术语质量高低顺序也一致,故将探讨字段(横向)、主题/领域(纵向)的术语数量与M_TDC是否高度线性相关。
以WoS的术语空间为例,绘制4个字段的M_TDC与其术语数量的散点图如图18(a)所示,统计各个主题、领域的M_TDC及其术语数量,共计12组数据,绘制散点图如图18(b)所示。图18(a)的线性拟合的R2值仅为0.126,拟合效果较差,说明字段术语质量的高低不是简单地由术语数量的大小所决定;在图18(b)中,从总体上看,纵向因素的术语数量与M_TDC不存在明显的线性关系,但是在主题、领域的层次上各自具有一定的线性关系。为验证主题、领域的术语数量与M_TDC之间是否真的高度线性相关,统计相同字段中各个主题、领域的术语数量与M_TDC,若两者真的存在高度线性关系,则两者在各个字段中均呈现高度线性相关。
图18
图18
WoS术语空间中横纵向因素的M_TDC与术语数量之间的关系
Fig.18
The Relationship Between M_TDC and the Number of Terms of Horizontal and Vertical Factors in WoS
统计三个领域在4个字段中的M_TDC与术语数量,绘制的散点图及拟合线性曲线如图19所示,4幅子图的线性拟合的R2值分别为0.996、0.024、0.814和1.000,虽然在三个字段中各个领域的M_TDC与术语数量均有明显的线性关系,但在“Keyword”中线性关系较弱,说明在领域因素上M_TDC与术语数量高度线性相关具有偶然性。
图19
图19
WoS术语空间中领域的M_TDC与术语数量之间的关系
Fig.19
The Relationship Between M_TDC and the Number of Terms of Domains in WoS
图20
图20
WoS术语空间中主题的M_TDC与术语数量之间的关系
Fig.20
The Relationship Between M_TDC and the Number of Terms of Topics in WoS
综上,在同一个术语空间中,在横纵向因素上,术语数量与M_TDC之间不存在高度线性关系,横纵向因素在术语空间的表现好坏也更多受本身的研究特性影响,并非由其术语数量直接决定。
6 结论
本文采集来自WoS、CNKI的三个领域各三个主题的索引术语,基于不同层次的术语空间,采用ANOVA方法从字段、领域等角度探究术语质量分布特点,比较和总结学术数据库中研究主题的术语质量分布特点差异,得到以下结论:
(1)TDC总体分布大致符合正态分布,且不依赖于DF,能够作为衡量中英文索引术语质量的指标;
(2)相同领域的不同研究主题的术语质量的字段分布特点相似度较高,不同领域的术语质量的字段分布在“Title”(“Keyword Plus”)上存在差异;
(3)WoS的整体术语质量分布优于CNKI,WoS和CNKI的差异主要体现在“Title”和人文科学上;
(4)在同一个术语空间中,领域与字段存在一定的相互作用;
(5)不同研究主题术语的整合对消极术语占比的增加和“Title”(“Keyword Plus”)的相对表现存在积极影响,因此当确定检索目标的领域时,尽量在该领域的子数据库中,而不是WoS、CNKI中执行检索操作。
由于在结果分析中发现,在WoS、CNKI的各个层次的文档空间中,“Abstract”表现均相对较好,而“Keyword”最差,因此在实际检索中,建议首选“Abstract”作为检索字段,而不建议通过“Keyword”检索,此外在SSCI、SCI的文档空间中,通过“Title”检索,或许能获得更好的检索结果。另外,虽然WoS的“Keyword Plus”表现较好,但A&HCI、SSCI的系统同义词库还有较大的改进空间,将TDC应用于系统同义词库的过滤是一个较好的改进思路。
本文主要将TDC应用于研究主题的索引术语质量测度上,未来可以应用于学者、文献、期刊等其他实体的术语质量测度上,从术语区分能力角度对这些实体进行评价。由于计算能力的限制,在各个领域中,本文实验无法覆盖全部主题,且选择单个主题,带来的误差较大,因此笔者选择三个主题,总结其术语质量分布的共同规律,探索该领域的术语质量分布情况,从而减小误差,但不同主题的术语使用习惯可能存在差异,因此实验结论仍然存在一定的局限。此外,由于主题代表领域的局限性,WoS、CNKI的术语质量实际分布情况与实验结论可能存在一些差异,即主题数目越多,各领域的主题覆盖范围越广,实验结果就越准确和可靠。
作者贡献声明
李轲禹:数据采集及清洗,进行实验,论文起草;
王昊:提出研究思路,设计研究方案;
龚丽娟:论文最终版本修订;
唐慧慧:进行TDC合理性论证方面的实验。
利益冲突声明
所有作者声明不存在利益冲突关系。
支撑数据:
支撑数据见期刊网络版,
[1] 李轲禹.文献相关数据.zip.实验选用的文献数据及预处理结果.
[2] 李轲禹.TDC结果.zip.各层次术语空间术语的TDC计算结果.
[3] 李轲禹, 唐慧慧.A&HCI的TDC与TDV.xlsx.图2-3的支撑数据.
[4] 李轲禹.研究主题的字段TDC数据.zip.图4-9的支撑数据.
[5] 李轲禹.学科领域的字段TDC数据.zip.图11、13的支撑数据.
[6] 李轲禹.数据库的字段领域TDC数据.zip.图15-17的支撑数据.
[7] 李轲禹.各层次术语空间中积极术语与消极术语占比.xlsx.图10、12、14的支撑数据.
[8] 李轲禹.WoS中术语数量与M_TDC的关系.xlsx.图18-20的支撑数据.
参考文献
应用检索实例谈谈信息检索的查全率和查准率
[J]. ,
Analysis on Recall Ratio and Accuracy Ratio of Information Retrieval Based on Retrieval Practices
[J].
中刊库检索效率及其影响因素比较分析
[J]. ,
Comparative Analysis of the Retrieval Functions of China Journal Database and Its Influence Factors
[J].
The Impact of Term-indexing Characteristics on a Document Space
[J]. ,
An Investigation of the Influence of Indexing Exhaustivity and Term Distributions on a Document Space
[J]. ,DOI:10.1002/(ISSN)1532-2890 URL [本文引用: 2]
A Vector Space Model for Automatic Indexing
[J]. ,DOI:10.1145/361219.361220 URL [本文引用: 4]
Comparing Keywords Plus of WOS and Author Keywords: A Case Study of Patient Adherence Research
[J]. ,
基于Web of Science的机构文献检索策略
[J]. ,
Organization Literature Retrieval Strategy Based on Web of Science
[J].
自然科学、社会科学、人文科学的关系——一种“学科光谱”分析
[J]. ,
Relations Among Natural Science, Social Science and Human Studies Under the Analysis on the Spectrum of Disciplines
[J].
知识的三大部类:自然科学、社会科学和人文学科
[J]. ,
Three Divisions of Knowledge: Natural Science, Social Science and the Humanities
[J].
自动标引
[EB/OL].[
Automatic Indexing
[EB/OL]. [
MTI自动文献标引系统研究
[J]. ,MTI是一个知名的生物医学文献自动标引系统,其基于医学主题词表MeSH推荐文献标引结果。从处理过程、基本原理、应用效果等方面对MTI进行全面研究,试图为开发高质量的中文生物医学文献自动标引系统提供一些有价值的借鉴与参考。
Research on Medical Text Indexer
[J].MTI是一个知名的生物医学文献自动标引系统,其基于医学主题词表MeSH推荐文献标引结果。从处理过程、基本原理、应用效果等方面对MTI进行全面研究,试图为开发高质量的中文生物医学文献自动标引系统提供一些有价值的借鉴与参考。
面向文献主题自动标引的通用概念表建设
[J]. ,
Construction of Common Concept List for Automatic Text Subject Indexing
[J].
基于深度学习的中文分词和关键词抽取模型研究
[D]. ,
Research on Chinese Word Segmentation and Keyword Extraction Model Based on Deep Learning
[D]. ,
CRFs字角色标注方法在中文附加关键词抽取中的应用研究
[J]. ,
Application of CRFs Chinese Character Role Labeling Method in Chinese Keywords Plus Extraction
[J].
Chemical Indexing
[EB/OL]. [
Numerical Indexing
[EB/OL].[
不同标引策略下的文本主题表达质量比较研究
[J]. ,
Comparative Study of Subject Presentation with Different Indexing Strategies
[J].
An Algorithm for the Calculation of Exact Term Discrimination Values
[J]. ,DOI:10.1016/0306-4573(85)90107-4 URL [本文引用: 2]
Visualization of Term Discrimination Analysis
[J]. ,DOI:10.1002/(ISSN)1532-2890 URL [本文引用: 1]
Compactness-A Useful Feature for Generating Search Index
[C]// .
Learning Semantic Relatedness from Term Discrimination Information
[J]. ,DOI:10.1016/j.eswa.2007.12.072 URL [本文引用: 1]
An Automatic Approach to Weighted Subject Indexing-An Empirical Study in the Biomedical Domain
[J]. ,DOI:10.1002/asi.23290 URL [本文引用: 1]
Vocabulary Size and Its Effect on Topic Representation
[J]. ,DOI:10.1016/j.ipm.2017.01.003 URL [本文引用: 1]
A Novel Multivariate Filter Method for Feature Selection in Text Classification Problems
[J]. ,DOI:10.1016/j.engappai.2017.12.014 URL [本文引用: 1]
Term Discrimination for Text Search Tasks Derived from Negative Binomial Distribution
[J]. ,DOI:10.1016/j.ipm.2018.01.003 URL [本文引用: 1]
Novel Term Weighting Schemes for Document Representation Based on Ranking of Terms and Fuzzy Logic with Semantic Relationship of Terms
[J]. ,DOI:10.1016/j.eswa.2019.07.022 URL [本文引用: 1]
面向学术资源的术语区分能力的测度方法研究
[J]. ,
A Study on the Measurement Methods of Term Discriminative Capacity for Academic Resources
[J].
文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例
[J]. ,利用C#编程技术基于.NET平台设计开发出文献题录信息统计分析工具软件SATI,可导入处理EndNote格式、NoteExpress格式及NoteFirst格式的国内文献题录数据和HTML格式的WoS国际文献题录数据,进行数据格式的转换、字段信息的抽取、词条频次的统计和知识单元共现矩阵、词条频率逐年分布矩阵及文档词条矩阵的构建,以辅助生成聚类图、多维尺度图谱、网络知识图谱、策略坐标图等可视化结果。以2006~2010年中外图书情报学各十种具有代表性的核心期刊刊载的17440篇论文数据为实例,基于聚类与多维尺度分析结果,呈现出中外图书情报学三大主要研究领域,并结合共词分析与社会网络分析方法,通过绘制共现网络知识图谱与策略坐标图,进一步揭示研究领域结构的内部联系及其特征。
A Study on Mining Bibliographic Records by Designed Software SATI: Case Study on Library and Information Science
[J].利用C#编程技术基于.NET平台设计开发出文献题录信息统计分析工具软件SATI,可导入处理EndNote格式、NoteExpress格式及NoteFirst格式的国内文献题录数据和HTML格式的WoS国际文献题录数据,进行数据格式的转换、字段信息的抽取、词条频次的统计和知识单元共现矩阵、词条频率逐年分布矩阵及文档词条矩阵的构建,以辅助生成聚类图、多维尺度图谱、网络知识图谱、策略坐标图等可视化结果。以2006~2010年中外图书情报学各十种具有代表性的核心期刊刊载的17440篇论文数据为实例,基于聚类与多维尺度分析结果,呈现出中外图书情报学三大主要研究领域,并结合共词分析与社会网络分析方法,通过绘制共现网络知识图谱与策略坐标图,进一步揭示研究领域结构的内部联系及其特征。
NLPIR汉语分词系统
[CP/OL].[
NLPIR Chinese Word Segmentation System
[CP/OL]. [
中文术语粒度对其区分能力测度的影响分析
[J]. ,
Impacts of Chinese Term Granularity on Measuring Term Discriminative Capacity
[J].
A Distance and Angle Similarity Measure Method
[J]. ,DOI:10.1002/(SICI)1097-4571(1999)50:9<>1.0.CO;2-J URL [本文引用: 1]
Theory of Term Importance in Automatic Text Analysis
[J]. ,DOI:10.1002/(ISSN)1097-4571 URL [本文引用: 1]
/
〈 | 〉 |