学术数据库中研究主题术语的质量测度及分布研究*

图1 研究框架

Fig.1 Research Framework

（1）数据采集与预处理：在WoS、CNKI中检索人文、社会和自然科学领域的研究主题,在检索得到的文档集合中随机抽取等量文档,从文档题录信息中提取所需字段,预处理后得到术语集合;

（2）TDC计算：构建主题、领域和数据库层次的术语空间,计算术语空间密度,计算每个术语抽取后术语空间密度的变化,得到术语的TDC值集合(TDCs);

（3）实验结果分析：以领域层次术语空间的TDCs为例,通过绘制散点图与频率直方图,验证假设H₁,然后基于不同层次术语空间的TDCs,采用方差分析(Analysis of Variance,ANOVA)方法探究研究主题的术语质量分布特点,比较不同数据库、领域的研究主题的术语质量分布特点差异,验证假设H₂、H₃、H₄。

3.2 数据来源与预处理

英文数据采集自WoS,分别在Arts & Humanities Citation Index(A&HCI)、Social Science Citation Index(SSCI)和Science Citation Index(SCI)库中检索属于人文、社会和自然科学领域的各三个主题;中文数据采集自CNKI,在Chinese Social Science Citation Index(CSSCI)库中检索分别属于社会、人文科学领域的各三个主题,在Chinese Science Citation Database(CSCD)库中检索属于自然科学领域的三个主题。为了后续可以准确地比较不同字段的术语质量,仅保留“Title”、“Keyword”、“Keyword Plus”、“Abstract”四项题录信息完整的英文文献和“Title”、“Keyword”、“Abstract”三项题录信息完整的中文文献作为有效文献,最后从检索得到的有效文献中随机抽取100篇文献作为分析对象。在主题选择上,遵循以下原则：

（1）主题带有明显的学科领域特征,且相互存在明显差异;

（2）文献检索量适中,且有效文献量具有一定的规模,适合进行抽样;

（3）主题相对独立,研究范围较清晰。

基于上述原则,笔者首先明确不同领域的学科范围,借助百度词条分类和头脑风暴,在相应的学科中选择具有代表性的主题进行研究。由于A&HCI中有效文献率较低,为保证足够的数据量,英文文献采集时间范围为1989年-2018年,而中文文献采集时间范围为2009年-2018年。具体的检索结果如表1所示。

表1 WoS与CNKI文献检索情况

Table 1 Literature Search in WoS and CNKI

主题序号	领域标识	研究主题	检索文献数（篇）	有效文献数（篇）	选用文献数（篇）	术语数量（个）
1	A&HCI	Aristotle （亚里士多德）	2 897	323	100	2 727
2		Realism（现实主义）	5 374	1 026	100	2 555
3		Christianity（基督教）	4 364	743	100	3 247
4	SSCI	Government failure（政府失效）	4 254	1 871	100	3 184
5		Population urbanization（人口城市化）	3 882	2 782	100	3 463
6		Economic depression（经济萧条）	4 988	3 208	100	3 430
7	SCI	Petrology（岩石学）	6 887	4 542	100	4 740
8		Rubella（风疹）	4 940	2 709	100	3 913
9		Supersaturated solution（过饱和溶液）	5 072	2 745	100	3 377
10	CSSCI_A	文学批评	4 561	4 468	100	2 308
11		黑格尔	2 257	2 225	100	1 914
12		非物质文化遗产	2 405	2 334	100	1 958
13	CSSCI_S	通货膨胀	4 315	4 297	100	1 873
14		产业集聚	4 324	4 316	100	1 732
15		经济危机	4 455	4 367	100	1 905
16	CSCD	粒子群算法	4 553	4 552	100	1 889
17		细胞移植	5 912	5 799	100	2 021
18		配合物	5 240	5 171	100	2 185

新窗口打开| 下载CSV

基于随机抽取的有效文献,使用文献题录信息统计分析工具SATI^[28]进行题录格式转换,并抽取出关键字段。使用SATI对英文文献的4项字段进行分词、去停用词和词根化处理,得到英文术语集合,对中文文献的三项字段用NLPIR汉语分词系统^[29]进行分词处理,并基于停用词表（哈尔滨工业大学停用词表、四川大学机器智能实验室停用词库、百度停用词表）去停用词,得到中文术语集合。需要注意,SATI在对“Keyword”、“Keyword Plus”进行文本预处理时,没有进行分词处理,而是按分隔符分割提取术语,为保证实验的一致性,中文文献题录信息的处理也按照相同的模式,对“Keyword”按分隔符分割提取术语,至于基于词粒度对“Keyword”、“Keyword Plus”的切分研究,在文献[30]中进一步探讨。

3.3 TDC测度方法

区别于Salton等^[5]提出的TDV,TDC测度方法通过术语抽取后所有术语与术语空间中心的平均相似度的变化,衡量术语区分能力,计算过程主要包括三个步骤：构建术语空间(Term Space,TS);计算术语空间密度(Term Space Density,TSD);计算术语抽取后TSD的变化。

（1）构建TS：基于预处理得到的术语集合,构建文档×术语矩阵(DTM),用术语向量描述文档。DTM为一个 $m \times n$ 的矩阵, $m$ 代表文档数量, $n$ 代表术语数量,DTM[ $i$ ][ $j$ ]取值为0或1,1代表术语 $j$ 在文档 $i$ 中出现,0则代表没有出现。TDV是基于文档空间进行计算,即基于 $DTM$ 进行计算,而TDC是基于术语空间进行计算,因此需要将 $DTM$ 转置得到术语×文档矩阵(TDM),用文档向量表示术语,并用文档向量之间的余弦相似度描述术语之间的关系,得到术语×术语矩阵(TTM),TTM[ $i$ ][ $j$ ]代表术语 $i$ 与术语 $j$ 之间的余弦距离^[31],形成一个 $n \times n$ 的TS。

（2）计算TSD：在TDV的改进算法中,文档空间密度(DSD)为文档空间中所有文档到文档空间中心余弦距离的平均值^[18],借助此思想计算TSD。TSD代表所有术语到术语空间中心(Centroid)的平均相似度, $Centroid$ 为一个n维向量,代表 $TTM$ 的中心。术语 $T_{i}$ 与 $Centroid$ 的相似度计算如公式(1)^[32]所示。

(1)

DS (T_{i}) = \frac{1}{c^{Dist (T_{i}, Centroid)}} \begin{matrix} c = 1.3 \end{matrix}

其中, $Dist (T_{i}, Centroid)$ 代表术语 $T_{i}$ 与 $Centroid$ 之间的欧氏距离。TSD则为所有术语DS的平均值,如公式(2)^[33]所示。

(2)

TSD = \{\frac{\sum_{i = 1}^{n} DS (T_{i})}{n}\}

（3）计算术语抽取后TSD的变化：当从当前的术语空间抽取出术语 $T_{i}$ 时,得到一个新的 $(n - 1) \times (n - 1)$ 的术语空间,根据步骤（2）计算得到新的术语空间密度( $TS D_{T_{i}}$ ),则术语 $T_{i}$ 抽取后TSD的变化计算如公式(3)所示。

(3)

TD C_{T_{i}} = \frac{TS D_{T_{i}} - TSD}{TS D_{AVG}}

其中, $TS D_{AVG}$ 代表术语空间的平均密度差,计算方法如公式(4)所示。

(4)

TS D_{AVG} = \frac{\sum_{i = 1}^{n} |TS D_{T_{i}} - TSD|}{n}

公式(3)计算得到的 $TD C_{T_{i}}$ 即是本文中用来衡量术语 $T_{i}$ 区分能力大小的指标。在较低密度的信息空间中,术语之间往往距离较远,没有聚集在一起,当一个术语与空间中的其他术语明显不同时,将该术语用作查询术语,则可以清楚地检索到与该术语相关联的文档,即低密度的信息空间对应一个良好的检索环境。因此,如果 $TD C_{T_{i}}$ 大于0,则代表术语 $T_{i}$ 对 $TSD$ 的变化起积极作用,属于积极术语;相反,如果 $TD C_{T_{i}}$ 小于0,则代表术语 $T_{i}$ 为消极术语。此外,如果术语集合的TDC平均值越高,则检索文档的效率就越高。

3.4 术语质量分布特点探究方法

分别在WoS和CNKI中采集索引术语,构建18个研究主题、6个领域和中英文数据库的术语空间,计算每个术语空间的TDCs,然后将计算结果按字段、领域划分到不同组别,采用ANOVA分析方法探究每个组别的术语质量差异,其中涉及的符号说明如表2所示。

表2 符号说明

Table 2 Symbolic Explanation

	WoS		CNKI
	编号	含义	编号	含义
字段	1	Title	1	Title
	2	Keyword	2	Keyword
	3	Keyword Plus	3	Abstract
	4	Abstract
领域	1	A&HCI	1	CSSCI_A
	2	SSCI	2	CSSCI_S
	3	SCI	3	CSCD

新窗口打开| 下载CSV

以A&HCI的术语空间为例,比较术语的TDV、TDC值分布情况,以及与DF的依赖关系,验证TDC方法的合理性,即验证假设H₁。在不同层次的术语空间进行ANOVA分析：

（1）在主题、领域的术语空间中,对字段因素进行One-Way ANOVA分析,探究主题的术语质量的字段分布特点,比较不同、相同领域的主题的术语质量的字段分布特点差异,即验证假设H₂;

（2）在WoS、CNKI的术语空间中,分别对字段、领域因素进行One-Way ANOVA分析,探究WoS、CNKI的术语质量的字段、领域分布特点,比较两个数据库的术语质量分布特点差异,即验证假设H₃,并对字段、领域两个因素进行Two-Way ANOVA分析,讨论在同一个术语空间中,字段与领域之间是否存在相互作用。

同时,在上述过程中,比较不同层次术语空间的术语质量分布,讨论不同研究主题术语的整合对术语质量分布是否存在影响,即验证假设H₄。

4 实验结果分析

4.1 方法合理性论证

分别采用TDV^[5]和TDC测度方法计算A&HCI的术语空间中术语的区分能力,统计TDV、TDC值的频次,结果如图2所示。

图2

图2 A&HCI中术语TDV、TDC频次直方图

Fig.2 Frequency Histogram of TDV、TDC of Terms in A&HCI

（1）TDV的取值区间跨度过大,且集中在0值附近,术语区分效果不明显;

（2）TDC的取值分布在-2~3之间,分布范围较大但控制在同一量级上,频次总体分布大致呈现中间高、两边低的状态,接近于正态分布,TDC值大于0占大部分,即在A&HCI的术语空间中大部分术语对文档区分起积极作用。

进一步分析TDV、TDC与DF之间存在的关系,绘制术语TDV、TDC与DF关系散点图如图3所示。若对图3中的点进行曲线拟合,得到图3(a)和图3(b)的拟合曲线的确定系数R²分别为0.982 3、0.000 7,图3(a)拟合效果较好,说明TDV与DF之间存在紧密的关系,即TDV可以由DF通过某种公式推导出来,而图3(b)拟合效果较差,说明TDC对DF不存在高度依赖性,具有较强的独立性。

图3

图3 A&HCI中术语TDV、TDC与DF关系图

Fig.3 Relationship Between TDV 、TDC and DF in A&HCI

综上,TDC比TDV的频次分布更合理,术语质量的区分性更好,且对DF指标不具有高度依赖性,因此TDC能够作为衡量索引术语质量的指标,即假设H₁成立。

4.2 研究主题的术语质量分布

（1）人文科学领域

构建以研究主题为单位的术语空间（4.2节的术语空间均为研究主题层次）,对来自A&HCI的三个主题,分别计算其术语的TDC值,并得到One-Way ANOVA的结果如图4所示,其中x轴代表4个字段,y轴代表该字段术语的TDC平均值(M_TDC),参考线代表所有术语的TDC平均值(A_M_TDC)。

图4

图4 A&HCI中各研究主题TDC的One-Way ANOVA结果

Fig.4 One-Way ANOVA Results of TDC for Each Research Topic in A&HCI

可以发现三个子图的术语质量在字段分布上存在共同点：

①“Abstract”>A_M_TDC,“Title”、“Keyword”、“Keyword Plus”均<A_M_TDC;

②“Abstract”的M_TDC最大,“Keyword”的M_TDC最小,即在A&HCI的各个主题文档空间中,通过“Abstract”检索文档,检索效果最好,而通过“Keyword”检索,可能会得到许多除检索目标以外的其他类似文档;

③相比于“Abstract”的术语质量,“Keyword Plus”与“Keyword”的术语质量更接近,“Keyword”与“Abstract”之间的折线感较明显。

来自CSSCI_A的三个主题的TDC的One-Way ANOVA结果如图5所示,由于在CNKI中不包含“Keyword Plus”,故字段仅为三项。三个子图的术语质量的字段分布均满足：“Abstract”>A_M_TDC>“Title”>“Keyword”,且“Title”与A_M_TDC存在的差距较大。

图5

图5 CSSCI_A中各研究主题TDC的One-Way ANOVA结果

Fig.5 One-Way ANOVA Results of TDC for Each Research Topic in CSSCI_A

由图4和图5可知,在人文科学主题的术语空间中,WoS与CNKI在“Title”、“Keyword”和“Abstract”上的术语质量分布相似：“Abstract”>A_M_TDC>“Title”>“Keyword”,“Title”与A_M_TDC存在较明显差距。

（2）社会科学领域

来自SSCI的三个主题的TDC的One-Way ANOVA结果如图6所示,三个子图存在共同点：

图6

图6 SSCI中各研究主题TDC的One-Way ANOVA结果

Fig.6 One-Way ANOVA Results of TDC for Each Research Topic in SSCI

①“Title”、“Abstract”均大于A_M_TDC,而“Keyword”、“Keyword Plus”均小于A_M_TDC;

②“Title”和“Abstract”非常接近,而“Keyword”与“Keyword Plus”也相差不大,在4个字段上M_TDC的分布接近于“U”型。

来自CSSCI_S的三个主题的TDC的One-Way ANOVA结果如图7所示,三个子图大部分满足：“Abstract”>A_M_TDC>“Title”>“Keyword”,与图5相比,“Title”与A_M_TDC的差距较小,尤其是在图7(b)中,甚至略高于A_M_TDC。

图7

图7 CSSCI_S中各研究主题TDC的One-Way ANOVA结果

Fig.7 One-Way ANOVA Results of TDC for Each Research Topic in CSSCI_S

由图6和图7可知,在社会科学主题的术语空间中,WoS与CNKI在“Title”上的表现存在差异,对于SSCI的主题文档空间,“Title”与“Abstract”接近,均高于平均水平,两者均适合作为检索字段,而对于CSSCI_S的主题文档空间,“Title”与“Abstract”之间存在明显差距,“Abstract”最优。

（3）自然科学领域

来自SCI的三个主题的TDC的One-Way ANOVA结果如图8所示,三个子图存在共同点：

图8

图8 SCI中各研究主题TDC的One-Way ANOVA结果

Fig.8 One-Way ANOVA Results of TDC for Each Research Topic in SCI

①“Abstract”>A_M_TDC,“Title”、“Keyword”、“Keyword Plus”均小于A_M_TDC;

②“Abstract”最好,“Keyword”最差;

③相比于“Keyword”,“Keyword Plus”与“Abstract”更接近,但“Keyword”与“Abstract”之间的折线感不如在A&HCI、SSCI中明显。

来自CSCD的三个主题术语的TDC的One-Way ANOVA结果如图9所示,三个子图均满足：“Abstract”>A_M_TDC>“Title”>“Keyword”,“Title”与A_M_TDC存在的差距较小。

图9

图9 CSCD中各研究主题TDC的One-Way ANOVA结果

Fig.9 One-Way ANOVA Results of TDC for Each Research Topic in CSCD

由图8和图9可知,在自然科学主题的术语空间中,WoS与CNKI在三个字段上的术语质量分布相似：“Abstract”>A_M_TDC>“Title”>“Keyword”,但“Title”与A_M_TDC存在的差距较小。

综上,在WoS、CNKI的研究主题的术语空间中,属于相同学科领域的主题,字段术语质量表现虽然存在一些差异,但其分布特点具有较高的相似性,故假设H₂前半分句成立,而属于不同学科领域的主题,WoS的差异较明显,但CNKI可能由于只有三项字段,差异似乎不明显,4.3节将进一步探讨不同领域研究主题的术语质量的字段分布差异。

4.3 学科领域的术语质量分布

（1） WoS的学科领域

构建以领域为单位的术语空间（4.3节的术语空间均为领域层次）,统计A&HCI、SSCI、SCI中TDC值正负数目,并与主题1-主题9的术语空间中术语质量分布对比,如图10所示,其中y轴代表主题、领域,x轴代表术语占比。

图10

图10 WoS中研究主题、领域的积极与消极术语数量分布

Fig.10 Distribution of Positive and Negative Terms of Research Topics、Domains in WoS

①积极术语占比顺序为：SSCI>SCI>A&HCI,A&HCI的术语质量分布情况最差,SSCI最好;

②主题1-主题3的消极术语占比均小于A&HCI（主题4-主题6与SSCI,主题7-主题9与SCI均成立）,随着不同研究主题术语的整合,领域内语义重复的术语增多,对术语空间起积极区分作用的术语减少,即相同领域内不同研究主题术语的整合会促进消极术语占比的增加。

WoS中各领域的TDC的One-Way ANOVA结果如图11所示。

图11

图11 WoS中各领域TDC的One-Way ANOVA结果

Fig.11 One-Way ANOVA Results of TDC for Each Domain in WoS

在三个领域的术语空间中,4个字段的术语质量表现特点存在明显差异,主要体现在“Title”和“Keyword Plus”上,总体来看,与图4和图6相比,图11中4个字段的表现均接近“V”型：

①“Title”均有较大的相对增长幅度,在A&HCI中,其略高于平均水平;在SSCI中,其与“Abstract”的差距增大,明显优于“Abstract”;在SCI中,其不仅达到平均水平之上,而且优于“Abstract”;

②“Keyword Plus”也均有一定的相对增长幅度,在A&HCI、SSCI中,其与“Abstract”的差距减小,减弱了“Keyword”与“Abstract”间的折线感,在SCI中,“Keyword Plus”达到平均水平之上,与“Abstract”的差距更小,增强了“Keyword”与“Abstract”间的折线感;

③“Keyword”和“Abstract”的相对表现均较稳定,分别维持在一个相对较低和较高的水平。

（2） CNKI的学科领域

统计CSSCI_A、CSSCI_S、CSCD中TDC值正负数目,并与主题10-主题18的术语空间中术语质量分布对比,如图12所示。

图12

图12 CNKI中研究主题、领域的积极与消极术语数量分布

Fig.12 Distribution of Positive and Negative Terms of Research Topics、Domains in CNKI

①CSSCI_A、CSSCI_S和CSCD的积极术语占比差别不大,均在95.30%左右;

②存在部分主题的消极术语占比格外高,尤其在CSSCI_A和CSCD中,例如主题17（细胞移植）的消极术语占比明显高于CSCD,分析该主题的文档内容,发现在主题17中,文档的研究范围比较集中,主要与干细胞方面研究有关,因此主题术语之间的综合相似度较高,区分能力较弱,即主题的研究范围越集中,其术语质量表现越差;

③主题10-主题12的消极术语平均占比低于CSSCI_A（主题13-主题15与CSSCI_S,主题16-主题18与CSCD均成立）,说明在CNKI中,相同领域内不同主题的术语的整合对术语质量分布存在消极影响。

CNKI中各领域的TDC的One-Way ANOVA结果如图13所示。

图13

图13 CNKI中各领域TDC的One-Way ANOVA结果

Fig.13 One-Way ANOVA Results of TDC for Each Domain in CNKI

在三个领域的术语空间中,三个字段的术语质量表现特点存在明显差异,主要体现在“Title”与平均水平的差距上,对比图5、图7、图9：

①“Title”均有不同程度的相对增长幅度,在CSSCI_A中,其与平均水平的差距减小,但仍然存在明显差距,在CSSCI_S中,其明显超过平均水平,在CSCD中,其接近于平均水平;

②“Abstract”、“Keyword”仍然分别处于最高、最低水平。

综上,可以得到如下结论：

（1）不同学科领域研究主题的术语质量的字段分布特点存在明显差异,WoS中主要体现在“Title”和“Keyword Plus”上,CNKI中则主要体现在“Title”与平均水平的差距上,故假设H₂后半句成立;

（2）随着领域内不同研究主题术语的整合,术语空间中消极术语的占比在增加,“Title”和“Keyword Plus”均有一定的相对增长幅度,故假设H₄成立,字段相对表现变化原因可能是来自相同主题的题名（关键词）术语的重复使用现象较严重,术语相似度较大,但在领域内,由于跨主题,不同主题的题名（关键词）内容差异较大,术语区分性更大,但关键词为词组,具有组合性和复杂性,表现始终不佳,而附加关键词来源于系统词表,具有更好的规范性和可控性,表现优于关键词,能更好反映出差异的变化。

4.4 数据库的术语质量分布

（1） One-Way ANOVA分析

构建以数据库为单位的术语空间,统计WoS、CNKI中TDC值正负数目,与领域的术语空间中术语质量分布对比,如图14所示。

图14

图14 WoS、CNKI术语空间中积极与消极术语数量分布

Fig.14 Distribution of Positive and Negative Terms of WoS and CNKI

①各个领域的消极术语占比均低于WoS、CNKI的消极术语占比,说明不同领域的研究主题术语的整合,对WoS、CNKI的术语质量分布存在消极影响;

②WoS的积极术语占比高于CNKI,可能是由于中文缺少英文空格的天然分割符,在分词上准确性不如英文高,更容易造成语义重复的现象。

WoS、CNKI的术语质量的字段分布如图15所示。

图15

图15 对字段因素进行One-Way ANOVA分析的结果

Fig.15 One-Way ANOVA Results of Field Factors

①在WoS中,“Title”>“Abstract”>“Keyword Plus”>A_M_TDC>“Keyword”,其中“Keyword Plus”与“Abstract”的差距远小于与“Keyword”的差距,“Keyword Plus”较好的表现说明系统同义词库具有一定的实用性,因此在CNKI中可考虑提供同样的检索字段,“Title”和“Abstract”的表现接近,对于WoS的文档空间,“Title”与“Abstract”均适合作为检索字段;

②在CNKI中,“Abstract”>“Title”>A_M_TDC>“Keyword”,其中“Abstract”与“Title”之间存在明显差距,对于CNKI的文档空间,“Abstract”为最佳的检索字段。

综上,在WoS和CNKI中,字段术语质量分布的差异主要体现在“Title”上,虽然“Title”在两个术语空间中均具有较好的相对表现,但是在WoS中更优异,说明中文的标题术语表达不如英文准确,中文作者需要更注意标题的表达方式,以便能准确地反映文档所研究的内容。

WoS、CNKI的术语质量的领域分布如图16所示。

图16

图16 对领域因素进行One-Way ANOVA分析的结果

Fig.16 One-Way ANOVA Results of Domain Factors

①在WoS和CNKI中,均是自然科学领域的文档最容易被检索到,可能是因为自然科学研究客观性和专业性较强,用词严谨规范,研究对象为自然界的事物,国内外的研究具有共通性,而在社会、人文科学中,属于不同学科的研究主题术语具有较强的跨学科性和融合性;

②WoS和CNKI的领域术语质量分布差异主要体现在人文科学上,可能是因为国内外的人文环境不同,研究范围与内容存在明显差异。

综上,从字段、领域角度看,WoS和CNKI的术语质量分布虽然有共同特点,但也存在明显差异,故假设H₃成立。

（2） Two-way ANOVA分析

对字段、领域两个因素进行Two-Way ANOVA分析：

①若将领域作为固定因子,结果如图17(a)、图17(b)所示,不同颜色的折线代表不同的字段,两幅图中折线均存在部分交叉现象,说明领域因素对字段因素有一定的影响,即在不同的领域中,各个字段的术语质量高低顺序存在差异;

②若将字段作为固定因子,结果如图17(c)、图17(d)所示,不同颜色的折线代表不同的领域,两幅图中各条折线均没有交叉,但也不满足互相平行,且各个领域的术语质量表现高低顺序与图16一致,说明字段因素对领域因素的影响较小,即字段因素不能改变各个领域术语质量高低顺序。

图17

图17 领域、字段因素作为固定因子的Two-Way ANOVA分析结果

Fig.17 Two-Way ANOVA Results with Domain、Field Factors as Fixed Factors

由图17可知：

①在WoS中,SCI的字段术语质量高低顺序与A&HCI、SSCI不同,体现在“Keyword Plus”上,其优于“Abstract”,也远优于SSCI、A&HCI的“Keyword Plus”,说明SCI的系统同义词库的建设更成功,而A&HCI和SSCI的系统词库还有很大改进空间;

②在CNKI中,CSSCI_S的各个字段术语质量高低顺序与CSSCI_A、CSCD不同,体现在“Title”上,其略优于“Abstract”,且与另两个领域的“Title”差距较小,说明CSSCI_S的“Title”比其“Keyword”、“Abstract”用词更加严谨和准确,尤其是该字段与另两个领域的“Keyword”存在的差距较大,说明在CSSCI_S中,不同研究主题的关键词术语重复使用现象较严重,术语质量较差。

5 讨论

在结果分析中,发现在同一术语空间中,“Abstract”的术语数量一般较多,其术语质量相对较好,而“Keyword”的术语数量较少,其术语质量相对较差,同样,主题、领域术语数量的大小顺序与术语质量高低顺序也一致,故将探讨字段（横向）、主题/领域（纵向）的术语数量与M_TDC是否高度线性相关。

以WoS的术语空间为例,绘制4个字段的M_TDC与其术语数量的散点图如图18(a)所示,统计各个主题、领域的M_TDC及其术语数量,共计12组数据,绘制散点图如图18(b)所示。图18(a)的线性拟合的R²值仅为0.126,拟合效果较差,说明字段术语质量的高低不是简单地由术语数量的大小所决定;在图18(b)中,从总体上看,纵向因素的术语数量与M_TDC不存在明显的线性关系,但是在主题、领域的层次上各自具有一定的线性关系。为验证主题、领域的术语数量与M_TDC之间是否真的高度线性相关,统计相同字段中各个主题、领域的术语数量与M_TDC,若两者真的存在高度线性关系,则两者在各个字段中均呈现高度线性相关。

图18

图18 WoS术语空间中横纵向因素的M_TDC与术语数量之间的关系

Fig.18 The Relationship Between M_TDC and the Number of Terms of Horizontal and Vertical Factors in WoS

统计三个领域在4个字段中的M_TDC与术语数量,绘制的散点图及拟合线性曲线如图19所示,4幅子图的线性拟合的R²值分别为0.996、0.024、0.814和1.000,虽然在三个字段中各个领域的M_TDC与术语数量均有明显的线性关系,但在“Keyword”中线性关系较弱,说明在领域因素上M_TDC与术语数量高度线性相关具有偶然性。

图19

图19 WoS术语空间中领域的M_TDC与术语数量之间的关系

Fig.19 The Relationship Between M_TDC and the Number of Terms of Domains in WoS

进一步统计9个主题在4个字段中的M_TDC与术语数量,绘制的散点图及拟合曲线如图20所示,4幅子图的线性拟合的R²值分别为0.690、0.003、0.699和0.882。对比图19,发现当数据量增大时,M_TDC与术语数量的线性关系在4个字段中均呈现减弱的趋势,再次验证两者高度线性相关可能是一种偶然现象,且当主题数量丰富时,这种线性相关性会逐渐减弱。

图20

图20 WoS术语空间中主题的M_TDC与术语数量之间的关系

Fig.20 The Relationship Between M_TDC and the Number of Terms of Topics in WoS

综上,在同一个术语空间中,在横纵向因素上,术语数量与M_TDC之间不存在高度线性关系,横纵向因素在术语空间的表现好坏也更多受本身的研究特性影响,并非由其术语数量直接决定。

6 结论

本文采集来自WoS、CNKI的三个领域各三个主题的索引术语,基于不同层次的术语空间,采用ANOVA方法从字段、领域等角度探究术语质量分布特点,比较和总结学术数据库中研究主题的术语质量分布特点差异,得到以下结论：

（1）TDC总体分布大致符合正态分布,且不依赖于DF,能够作为衡量中英文索引术语质量的指标;

（2）相同领域的不同研究主题的术语质量的字段分布特点相似度较高,不同领域的术语质量的字段分布在“Title”(“Keyword Plus”)上存在差异;

（3）WoS的整体术语质量分布优于CNKI,WoS和CNKI的差异主要体现在“Title”和人文科学上;

（4）在同一个术语空间中,领域与字段存在一定的相互作用;

（5）不同研究主题术语的整合对消极术语占比的增加和“Title”(“Keyword Plus”)的相对表现存在积极影响,因此当确定检索目标的领域时,尽量在该领域的子数据库中,而不是WoS、CNKI中执行检索操作。

由于在结果分析中发现,在WoS、CNKI的各个层次的文档空间中,“Abstract”表现均相对较好,而“Keyword”最差,因此在实际检索中,建议首选“Abstract”作为检索字段,而不建议通过“Keyword”检索,此外在SSCI、SCI的文档空间中,通过“Title”检索,或许能获得更好的检索结果。另外,虽然WoS的“Keyword Plus”表现较好,但A&HCI、SSCI的系统同义词库还有较大的改进空间,将TDC应用于系统同义词库的过滤是一个较好的改进思路。

本文主要将TDC应用于研究主题的索引术语质量测度上,未来可以应用于学者、文献、期刊等其他实体的术语质量测度上,从术语区分能力角度对这些实体进行评价。由于计算能力的限制,在各个领域中,本文实验无法覆盖全部主题,且选择单个主题,带来的误差较大,因此笔者选择三个主题,总结其术语质量分布的共同规律,探索该领域的术语质量分布情况,从而减小误差,但不同主题的术语使用习惯可能存在差异,因此实验结论仍然存在一定的局限。此外,由于主题代表领域的局限性,WoS、CNKI的术语质量实际分布情况与实验结论可能存在一些差异,即主题数目越多,各领域的主题覆盖范围越广,实验结果就越准确和可靠。

作者贡献声明

李轲禹：数据采集及清洗,进行实验,论文起草;

王昊：提出研究思路,设计研究方案;

龚丽娟：论文最终版本修订;

唐慧慧：进行TDC合理性论证方面的实验。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据:

支撑数据见期刊网络版,http://www.infotech.ac.cn。

[1] 李轲禹.文献相关数据.zip.实验选用的文献数据及预处理结果.

[2] 李轲禹.TDC结果.zip.各层次术语空间术语的TDC计算结果.

[3] 李轲禹, 唐慧慧.A&HCI的TDC与TDV.xlsx.图2-3的支撑数据.

[4] 李轲禹.研究主题的字段TDC数据.zip.图4-9的支撑数据.

[5] 李轲禹.学科领域的字段TDC数据.zip.图11、13的支撑数据.

[6] 李轲禹.数据库的字段领域TDC数据.zip.图15-17的支撑数据.

[7] 李轲禹.各层次术语空间中积极术语与消极术语占比.xlsx.图10、12、14的支撑数据.

[8] 李轲禹.WoS中术语数量与M_TDC的关系.xlsx.图18-20的支撑数据.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

易中梅

应用检索实例谈谈信息检索的查全率和查准率

[J]. 科技信息(科学教研), 2008(24):363-364.

( Yi

Zhongmei

Analysis on Recall Ratio and Accuracy Ratio of Information Retrieval Based on Retrieval Practices

[J]. Science & Technology Information, 2008(24):363-364.)

[2]

张玲

中刊库检索效率及其影响因素比较分析

[J]. 情报理论与实践, 2001,24(2):120-121.

( Zhang

Ling

Comparative Analysis of the Retrieval Functions of China Journal Database and Its Influence Factors

[J]. Information Studies: Theory & Application, 2001,24(2):120-121.)

[3]

Wolfram

, Zhang

The Impact of Term-indexing Characteristics on a Document Space

[J]. Canadian Journal of Information & Library Science, 2001,26(4):21-35.

[本文引用: 2]

[4]

Wolfram

, Zhang

An Investigation of the Influence of Indexing Exhaustivity and Term Distributions on a Document Space

[J]. Journal of the American Society for Information Science and Technology, 2002,53(11):943-952.

DOI:10.1002/(ISSN)1532-2890 URL [本文引用: 2]

[5]

Salton

, Wong

, Yang C

A Vector Space Model for Automatic Indexing

[J]. Communications of the ACM, 1975,18(11):613-620.

DOI:10.1145/361219.361220 URL [本文引用: 4]

[6]

Zhang

, Yu

, Zheng F

, et al.

Comparing Keywords Plus of WOS and Author Keywords: A Case Study of Patient Adherence Research

[J]. Journal of the Association for Information Science & Technology, 2016,67(4):967-972.

[7]

魏凤萍, 何益华, 方吉, 等.

基于Web of Science的机构文献检索策略

[J]. 上海高校图书情报工作研究, 2019,29(1):81-86.

( Wei

Fengping

, He

Yihua

, Fang

, et al.

Organization Literature Retrieval Strategy Based on Web of Science

[J]. Research on Library & Information Work of Shanghai Colleges & Universities, 2019,29(1):81-86.)

[8]

江宏春

自然科学、社会科学、人文科学的关系——一种“学科光谱”分析

[J]. 自然辩证法研究, 2014,30(6):61-67.

( Jiang

Hongchun

Relations Among Natural Science, Social Science and Human Studies Under the Analysis on the Spectrum of Disciplines

[J]. Studies in Dialectics of Nature, 2014,30(6):61-67.)

[9]

李醒民

知识的三大部类:自然科学、社会科学和人文学科

[J]. 学术界, 2012(8):5-33,286.

( Li

Xingmin

Three Divisions of Knowledge: Natural Science, Social Science and the Humanities

[J]. Academics, 2012(8):5-33,286.)

[10]

自动标引

[EB/OL].[ 2020- 02- 17]. http://baike.baidu.com/view/853543.html.

(

Automatic Indexing

[EB/OL]. [ 2020- 02- 17]. http://baike.baidu.com/view/853543.html.

[11]

李晓瑛, 夏光辉, 孙海霞.

MTI自动文献标引系统研究

[J]. 医学信息学杂志, 2015,36(3):52-57.

MTI是一个知名的生物医学文献自动标引系统，其基于医学主题词表MeSH推荐文献标引结果。从处理过程、基本原理、应用效果等方面对MTI进行全面研究，试图为开发高质量的中文生物医学文献自动标引系统提供一些有价值的借鉴与参考。

( Li

Xiaoying

, Xia

Guanghui

, Sun

Haixia

Research on Medical Text Indexer

[J]. Journal of Medical Informatics, 2015,36(3):52-57.)

[12]

李军莲, 王序文, 夏光辉, 等.

面向文献主题自动标引的通用概念表建设

[J]. 情报理论与实践, 2017,40(4):95-99.

( Li

Junlian

, Wang

Xuwen

, Xia

Guanghui

, et al.

Construction of Common Concept List for Automatic Text Subject Indexing

[J]. Information Studies: Theory & Application, 2017,40(4):95-99.)

[13]

黄丹丹

基于深度学习的中文分词和关键词抽取模型研究

[D]. 北京:北京邮电大学, 2019.

( Huang

Dandan

Research on Chinese Word Segmentation and Keyword Extraction Model Based on Deep Learning

[D]. Beijing: Beijing University of Posts and Telecommunications, 2019.)

[14]

张海潮, 王昊, 唐慧慧, 等.

CRFs字角色标注方法在中文附加关键词抽取中的应用研究

[J]. 情报理论与实践, 2019,42(2):169-176.

( Zhang

Haichao

, Wang

Hao

, Tang

Huihui

, et al.

Application of CRFs Chinese Character Role Labeling Method in Chinese Keywords Plus Extraction

[J]. Information Studies: Theory & Application, 2019,42(2):169-176.)

[15]

Chemical Indexing

[EB/OL]. [2020-02-17]. https://www.theiet.org/media/5239/chemical-indexing-updated-jan-2020.pdf.

[16]

Numerical Indexing

[EB/OL].[2020-02-17]. https://www.theiet.org/media/2019/numerical-data-indexing.pdf.

[17]

何琳, 常颖聪.

不同标引策略下的文本主题表达质量比较研究

[J]. 图书馆杂志, 2014,33(5):29-33.

( He

Lin

, Chang

Yingcong

Comparative Study of Subject Presentation with Different Indexing Strategies

[J]. Library Journal, 2014,33(5):29-33.)

[18]

Willett

An Algorithm for the Calculation of Exact Term Discrimination Values

[J]. Information Processing & Management, 1985,21(3):225-232.

DOI:10.1016/0306-4573(85)90107-4 URL [本文引用: 2]

[19]

Zhang

, Wolfram

Visualization of Term Discrimination Analysis

[J]. Journal of the American Society for Information Science and Technology, 2001,52(8):615-627.

DOI:10.1002/(ISSN)1532-2890 URL [本文引用: 1]

[20]

Pushpalatha K

, Raju

Compactness-A Useful Feature for Generating Search Index

[C]// Proceedings of the 2012 IEEE International Conference on Technology Enhanced Education(ICTEE), Kerala, India. 2012.

[21]

Cai

, van Rijsbergen C

Learning Semantic Relatedness from Term Discrimination Information

[J]. Expert Systems with Applications, 2009,36(2):1860-1875.

DOI:10.1016/j.eswa.2007.12.072 URL [本文引用: 1]

[22]

, Mao

An Automatic Approach to Weighted Subject Indexing-An Empirical Study in the Biomedical Domain

[J]. Journal of the Association for Information Science and Technology, 2015,66(9):1776-1784.

DOI:10.1002/asi.23290 URL [本文引用: 1]

[23]

, Cai

, Ajiferuke

, et al.

Vocabulary Size and Its Effect on Topic Representation

[J]. Information Processing & Management, 2017,53(3):653-665.

DOI:10.1016/j.ipm.2017.01.003 URL [本文引用: 1]

[24]

Labani

, Moradi

, Ahmadizar

, et al.

A Novel Multivariate Filter Method for Feature Selection in Text Classification Problems

[J]. Engineering Applications of Artificial Intelligence, 2018,70:25-37.

DOI:10.1016/j.engappai.2017.12.014 URL [本文引用: 1]

[25]

Bernauer

, Han E

, Sohn S

Term Discrimination for Text Search Tasks Derived from Negative Binomial Distribution

[J]. Information Processing & Management, 2018,54(3):370-379.

DOI:10.1016/j.ipm.2018.01.003 URL [本文引用: 1]

[26]

Lakshmi

, Baskar

Novel Term Weighting Schemes for Document Representation Based on Ranking of Terms and Fuzzy Logic with Semantic Relationship of Terms

[J]. Expert Systems with Applications, 2019,137:493-503.

DOI:10.1016/j.eswa.2019.07.022 URL [本文引用: 1]

[27]

王昊, 唐慧慧, 张海潮, 等.

面向学术资源的术语区分能力的测度方法研究

[J]. 情报学报, 2019,38(10):1078-1091.

( Wang

Hao

, Tang

Huihui

, Zhang

Haichao

, et al.

A Study on the Measurement Methods of Term Discriminative Capacity for Academic Resources

[J]. Journal of the China Society for Scientific and Technical Information, 2019,38(10):1078-1091.)

[28]

刘启元, 叶鹰.

文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例

[J]. 信息资源管理学报, 2012,2(1):50-58.

利用C#编程技术基于.NET平台设计开发出文献题录信息统计分析工具软件SATI，可导入处理EndNote格式、NoteExpress格式及NoteFirst格式的国内文献题录数据和HTML格式的WoS国际文献题录数据，进行数据格式的转换、字段信息的抽取、词条频次的统计和知识单元共现矩阵、词条频率逐年分布矩阵及文档词条矩阵的构建，以辅助生成聚类图、多维尺度图谱、网络知识图谱、策略坐标图等可视化结果。以2006~2010年中外图书情报学各十种具有代表性的核心期刊刊载的17440篇论文数据为实例，基于聚类与多维尺度分析结果，呈现出中外图书情报学三大主要研究领域，并结合共词分析与社会网络分析方法，通过绘制共现网络知识图谱与策略坐标图，进一步揭示研究领域结构的内部联系及其特征。

( Liu

Qiyuan

, Ye

Ying

A Study on Mining Bibliographic Records by Designed Software SATI: Case Study on Library and Information Science

[J]. Journal of Information Resources Management, 2012,2(1):50-58.)

[29]

NLPIR汉语分词系统

[CP/OL].[ 2020- 02- 17]. http://www.nlpir.org/wordpress/.

(

NLPIR Chinese Word Segmentation System

[CP/OL]. [ 2020- 02- 17]. http://www.nlpir.org/wordpress/.

[30]

熊欣, 王昊, 张海潮, 等.

中文术语粒度对其区分能力测度的影响分析

[J]. 数据分析与知识发现, 2020,4(2-3):143-152.

( Xiong

Xin

, Wang

Hao

, Zhang

Haichao

, et al.

Impacts of Chinese Term Granularity on Measuring Term Discriminative Capacity

[J]. Data Analysis and Knowledge Discovery, 2020,4(2-3):143-152.)

[31]

Korfhage R

Information Storage and Retrieval

[M]. New York: Wiley, 1997.