Advanced Search

数据分析与知识发现, 2020, 4(6): 91-108 doi: 10.11925/infotech.2096-3467.2019.1224

研究论文

学术数据库中研究主题术语的质量测度及分布研究*

李轲禹, 王昊,,, 龚丽娟, 唐慧慧

南京大学信息管理学院 南京 210023

江苏省数据工程与知识服务重点实验室 南京 210023

Measurement and Distribution of Index Quality in Research Topics from Academic Databases

Li Keyu, Wang Hao,,, Gong Lijuan, Tang Huihui

School of Information Management, Nanjing University, Nanjing 210023, China

Jiangsu Key Laboratory of Data Engineering and Knowledge Service, Nanjing 210023, China

通讯作者: 王昊,ORCID: 0000-0002-0131-0823,E-mail:ywhaowang@nju.edu.cn

收稿日期: 2019-11-8   网络出版日期: 2020-06-25

基金资助: *本文系国家自然科学基金青年项目“面向学术资源的TSD与TDC测度及分析研究”.  71503121
南京大学人文社会科学双一流建设“百层次”项目“多粒度学术对象区分性测度和分析研究”的研究成果之一.  JY-001

Received: 2019-11-8   Online: 2020-06-25

摘要

【目的】 对学术数据库中研究主题的索引术语的质量进行测度并探究其分布特点。【方法】 从Web of Science、CNKI中采集来自人文、社会和自然科学领域的研究主题的索引术语,构建主题、领域和数据库层次的术语空间,将术语区分能力(Term Discriminative Capacity,TDC)作为术语质量评价指标,采用ANOVA分析方法探究不同数据库、领域的研究主题的术语质量分布特点。【结果】 不同领域的研究主题的术语质量在字段分布上均满足:“Abstract”>平均水平>“Keyword”;CNKI的“Title”(Web of Science的“Keyword Plus”)与平均水平相比在不同领域中有所差异,但均低于“Abstract”;Web of Science的“Title”与“Abstract”相比在不同领域中有所差异,但均高于平均水平。【局限】 研究主题不够丰富。【结论】 TDC测度方法具有稳定性和可靠性;通过探究研究主题的术语质量分布特点,可以为选择检索字段入口和提高术语质量提供方向与依据。

关键词: 索引术语 ; 术语区分能力 ; ANOVA分析 ; 检索字段 ; 术语质量分布特点

Abstract

[Objective] This paper measures the quality of index terms from research topics in academic databases and explores their distribution characteristics. [Methods] We collected the index terms of research topics in humanities, society and natural sciences from Web of Science and CNKI. Then, we constructed terminology spaces based on research topics, domains and databases. Third, we used term discriminative capacity (TDC) to evaluate their quality. Finally, we conducted ANOVA testing to explore the distribution characteristics of index terms quality from different databases/domains. [Results] The index term quality of research topics followed the rules of “Abstract”> average level >“Keyword”. The “Title” of CNKI (“Keyword Plus” in Web of Science) were lower than “Abstract”, while the “Title” in WoS were lower than average. [Limitations] The amount of research topics in this study needs to be expanded. [Conclusions] The TDC measure method is stable and reliable, which helps us improve the information retrieval services and terms quality.

Keywords: Indexing Term ; Term Discriminative Capability ; ANOVA Testing ; Search Fields ; The Distribution Characteristics of Terms Quality

PDF (1790KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李轲禹, 王昊, 龚丽娟, 唐慧慧. 学术数据库中研究主题术语的质量测度及分布研究*. 数据分析与知识发现[J], 2020, 4(6): 91-108 doi:10.11925/infotech.2096-3467.2019.1224

Li Keyu. Measurement and Distribution of Index Quality in Research Topics from Academic Databases. Data Analysis and Knowledge Discovery[J], 2020, 4(6): 91-108 doi:10.11925/infotech.2096-3467.2019.1224

1 引言

在学术数据库中,为能够全面、准确地为用户提供所需要的文献,提高文献检索效率至关重要[1]。索引术语作为从文献题录信息中提取的术语,具有文献检索标识性,好的索引术语可以帮助提高文献的查全率与查准率[2],如果可以对索引术语质量进行有效评价,将对提高文献检索效率提供新的思路。在以往的研究中,评价索引术语质量的标准,通常与术语自身性质有关[3,4],但这种评价指标仅反映了术语的固有属性,且易受到文档长度及数量的影响,而基于区分度的索引术语质量评价方法可以弥补这种局限性[5],本文借鉴该思路提出新的索引术语质量评价指标。

学术数据库提供了许多面向作者的检索字段,如标题(Title)、关键词(Keyword)、摘要(Abstract)等(后文中英文数据库字段统一用英文表示),这些字段的术语均来自文档本身。另外,Web of Science (WoS)还提供了面向系统的检索字段,如Keyword Plus,该字段的术语来源于系统同义词库[6],在实际文献检索中,选择合适的检索字段,对提高检索效率有一定的帮助[7]。由于国内外不同学科领域的研究内容与性质均存在差异[8],这种差异可能在不同字段的术语质量上有所体现,因此了解不同数据库、不同学科领域(简称为“领域”)的不同字段的术语质量表现,对提高索引术语质量和检索效率尤为重要。

本文将研究领域限定为知识的三大部类:自然科学、社会科学和人文科学[9],在WoS和中国学术期刊全文数据库(CNKI)中采集来自不同领域的研究主题的术语。将术语区分能力(TDC)作为新的索引术语质量评价指标。在研究主题、领域和数据库层次的术语空间中,从字段、领域等角度探究研究主题的术语质量分布特点,比较不同数据库、领域的研究主题的术语质量分布特点差异,为选择检索字段和提高术语质量提供方向与依据。

2 相关研究

影响文献检索效率的因素中,文献标引质量不容忽视,而随着电子文档数量的迅速增长,高效的自动标引技术已被广泛使用。自动标引可分为自动抽词与自动赋词标引[10],前者从文献中抽取关键词作为检索标志,而后者将关键词转化为受控词。在目前的数字资源标引中,自动抽词标引应用较为广泛[11,12],关键词抽取的相关研究也受到许多关注,一些机器学习和深度学习的方法被应用在关键词抽取和权重设置上[13,14]。自动标引多从Title、Keyword、Abstract等字段中抽取关键词,但部分国外数据库对更精确的信息进行标引,如EBSCO、Ovid、ProQuest Dialog对文献中的化学物质的分子式及构成、数值等进行标引[15,16]。不同的标引源,由于其含有的内容不同,标引能力也有所差异[17],如何对不同标引源的术语质量进行客观评价成为一个重要的研究问题。

穷尽性(有意义的术语的数量)和特异性(文档频率)[3,4]是评价索引术语质量的重要指标,属于术语的内在属性,只针对同一文档集合的术语,不能有效区分不同主题文档集合的术语,且易受到文档长度及数量的影响。Salton等[5]提出的术语区分模型(Term Discrimination Model,TDM),是从文档区分能力角度评价索引术语质量最广泛使用的方法之一,该模型中术语区分值(Term Discrimination Value, TDV)被作为衡量索引术语质量的指标,但其计算时间复杂度较高[18],有学者针对该问题进行改进[19,20],TDV已被应用于计算术语之间的语义关联[21]、设置索引术语权重[22]、选择主题关键词[23]、选择文本分类特征[24]等研究中。此外,还有一些基于统计的方法能够度量术语区分不同文档的能力,除了熟知的Inverted Document Frequency(IDF)、Entropy(ENPY)等,还有一些改进方法,如Bernauer等[25]提出从术语出现的负二项分布模型中导出的计算方法、Lakshmi等[26]提出的基于语义关系的模糊逻辑词频排序计算方法。目前对索引术语质量的研究集中在重新定义术语质量或计算少量术语的TDV上,对术语质量大规模测量和应用的研究较少。TDV根据术语抽取后文档空间的密度变化间接衡量术语区分能力,且笔者课题组研究发现[27],TDV对DF有较高依赖性,因此本文借鉴TDV思想,提出通过术语抽取后术语空间的密度变化,直接衡量术语区分能力的TDC方法。

综上,本文采用TDC测度方法,从术语区分能力角度对索引术语质量进行评价,然后进一步探究不同数据库、不同领域的研究主题的术语质量分布特点差异,为从索引术语质量角度提高检索效率提供依据与思路。

3 数据与方法

3.1 研究框架

为探究学术数据库中研究主题的术语质量分布特点,本文提出如下假设:

H1:TDC能够作为衡量中英文索引术语质量的指标。

H2:相同领域的不同研究主题的术语质量的字段分布特点相似;同时,不同领域的研究主题的术语质量的字段分布特点存在明显差异。

H3:WoS和CNKI的术语质量的字段、领域分布特点存在明显差异。

H4:整合来自不同研究主题的术语会对术语质量分布产生影响。

基于上述假设,本文设计研究框架如图1所示。

图1

图1   研究框架

Fig.1   Research Framework


(1)数据采集与预处理:在WoS、CNKI中检索人文、社会和自然科学领域的研究主题,在检索得到的文档集合中随机抽取等量文档,从文档题录信息中提取所需字段,预处理后得到术语集合;

(2)TDC计算:构建主题、领域和数据库层次的术语空间,计算术语空间密度,计算每个术语抽取后术语空间密度的变化,得到术语的TDC值集合(TDCs);

(3)实验结果分析:以领域层次术语空间的TDCs为例,通过绘制散点图与频率直方图,验证假设H1,然后基于不同层次术语空间的TDCs,采用方差分析(Analysis of Variance,ANOVA)方法探究研究主题的术语质量分布特点,比较不同数据库、领域的研究主题的术语质量分布特点差异,验证假设H2、H3、H4

3.2 数据来源与预处理

英文数据采集自WoS,分别在Arts & Humanities Citation Index(A&HCI)、Social Science Citation Index(SSCI)和Science Citation Index(SCI)库中检索属于人文、社会和自然科学领域的各三个主题;中文数据采集自CNKI,在Chinese Social Science Citation Index(CSSCI)库中检索分别属于社会、人文科学领域的各三个主题,在Chinese Science Citation Database(CSCD)库中检索属于自然科学领域的三个主题。为了后续可以准确地比较不同字段的术语质量,仅保留“Title”、“Keyword”、“Keyword Plus”、“Abstract”四项题录信息完整的英文文献和“Title”、“Keyword”、“Abstract”三项题录信息完整的中文文献作为有效文献,最后从检索得到的有效文献中随机抽取100篇文献作为分析对象。在主题选择上,遵循以下原则:

(1)主题带有明显的学科领域特征,且相互存在明显差异;

(2)文献检索量适中,且有效文献量具有一定的规模,适合进行抽样;

(3)主题相对独立,研究范围较清晰。

基于上述原则,笔者首先明确不同领域的学科范围,借助百度词条分类和头脑风暴,在相应的学科中选择具有代表性的主题进行研究。由于A&HCI中有效文献率较低,为保证足够的数据量,英文文献采集时间范围为1989年-2018年,而中文文献采集时间范围为2009年-2018年。具体的检索结果如表1所示。

表1   WoS与CNKI文献检索情况

Table 1  Literature Search in WoS and CNKI

主题序号领域标识研究主题检索文献数(篇)有效文献数(篇)选用文献数(篇)术语数量(个)
1A&HCIAristotle (亚里士多德)2 8973231002 727
2Realism(现实主义)5 3741 0261002 555
3Christianity(基督教)4 3647431003 247
4SSCIGovernment failure(政府失效)4 2541 8711003 184
5Population urbanization(人口城市化)3 8822 7821003 463
6Economic depression(经济萧条)4 9883 2081003 430
7SCIPetrology(岩石学)6 8874 5421004 740
8Rubella(风疹)4 9402 7091003 913
9Supersaturated solution(过饱和溶液)5 0722 7451003 377
10CSSCI_A文学批评4 5614 4681002 308
11黑格尔2 2572 2251001 914
12非物质文化遗产2 4052 3341001 958
13CSSCI_S通货膨胀4 3154 2971001 873
14产业集聚4 3244 3161001 732
15经济危机4 4554 3671001 905
16CSCD粒子群算法4 5534 5521001 889
17细胞移植5 9125 7991002 021
18配合物5 2405 1711002 185

新窗口打开| 下载CSV


基于随机抽取的有效文献,使用文献题录信息统计分析工具SATI[28]进行题录格式转换,并抽取出关键字段。使用SATI对英文文献的4项字段进行分词、去停用词和词根化处理,得到英文术语集合,对中文文献的三项字段用NLPIR汉语分词系统[29]进行分词处理,并基于停用词表(哈尔滨工业大学停用词表、四川大学机器智能实验室停用词库、百度停用词表)去停用词,得到中文术语集合。需要注意,SATI在对“Keyword”、“Keyword Plus”进行文本预处理时,没有进行分词处理,而是按分隔符分割提取术语,为保证实验的一致性,中文文献题录信息的处理也按照相同的模式,对“Keyword”按分隔符分割提取术语,至于基于词粒度对“Keyword”、“Keyword Plus”的切分研究,在文献[30]中进一步探讨。

3.3 TDC测度方法

区别于Salton等[5]提出的TDV,TDC测度方法通过术语抽取后所有术语与术语空间中心的平均相似度的变化,衡量术语区分能力,计算过程主要包括三个步骤:构建术语空间(Term Space,TS);计算术语空间密度(Term Space Density,TSD);计算术语抽取后TSD的变化。

(1)构建TS:基于预处理得到的术语集合,构建文档×术语矩阵(DTM),用术语向量描述文档。DTM为一个 m×n的矩阵, m代表文档数量, n代表术语数量,DTM[ i][ j]取值为0或1,1代表术语 j在文档 i中出现,0则代表没有出现。TDV是基于文档空间进行计算,即基于 DTM进行计算,而TDC是基于术语空间进行计算,因此需要将 DTM转置得到术语×文档矩阵(TDM),用文档向量表示术语,并用文档向量之间的余弦相似度描述术语之间的关系,得到术语×术语矩阵(TTM),TTM[ i][ j]代表术语 i与术语 j之间的余弦距离[31],形成一个 n×nTS

(2)计算TSD:在TDV的改进算法中,文档空间密度(DSD)为文档空间中所有文档到文档空间中心余弦距离的平均值[18],借助此思想计算TSD。TSD代表所有术语到术语空间中心(Centroid)的平均相似度, Centroid为一个n维向量,代表 TTM的中心。术语 TiCentroid的相似度计算如公式(1)[32]所示。

DS(Ti)=1cDist(Ti,Centroid)c=1.3

其中, Dist(Ti,Centroid)代表术语 TiCentroid之间的欧氏距离。TSD则为所有术语DS的平均值,如公式(2)[33]所示。

TSD=i=1nDS(Ti)n

(3)计算术语抽取后TSD的变化:当从当前的术语空间抽取出术语 Ti时,得到一个新的 (n-1)×(n-1)的术语空间,根据步骤(2)计算得到新的术语空间密度( TSDTi),则术语 Ti抽取后TSD的变化计算如公式(3)所示。

TDCTi=TSDTi-TSDTSDAVG

其中, TSDAVG代表术语空间的平均密度差,计算方法如公式(4)所示。

TSDAVG=i=1nTSDTi-TSDn

公式(3)计算得到的 TDCTi即是本文中用来衡量术语 Ti区分能力大小的指标。在较低密度的信息空间中,术语之间往往距离较远,没有聚集在一起,当一个术语与空间中的其他术语明显不同时,将该术语用作查询术语,则可以清楚地检索到与该术语相关联的文档,即低密度的信息空间对应一个良好的检索环境。因此,如果 TDCTi大于0,则代表术语 TiTSD的变化起积极作用,属于积极术语;相反,如果 TDCTi小于0,则代表术语 Ti为消极术语。此外,如果术语集合的TDC平均值越高,则检索文档的效率就越高。

3.4 术语质量分布特点探究方法

分别在WoS和CNKI中采集索引术语,构建18个研究主题、6个领域和中英文数据库的术语空间,计算每个术语空间的TDCs,然后将计算结果按字段、领域划分到不同组别,采用ANOVA分析方法探究每个组别的术语质量差异,其中涉及的符号说明如表2所示。

表2   符号说明

Table 2  Symbolic Explanation

WoSCNKI
编号含义编号含义
字段1Title1Title
2Keyword2Keyword
3Keyword Plus3Abstract
4Abstract
领域1A&HCI1CSSCI_A
2SSCI2CSSCI_S
3SCI3CSCD

新窗口打开| 下载CSV


以A&HCI的术语空间为例,比较术语的TDV、TDC值分布情况,以及与DF的依赖关系,验证TDC方法的合理性,即验证假设H1。在不同层次的术语空间进行ANOVA分析:

(1)在主题、领域的术语空间中,对字段因素进行One-Way ANOVA分析,探究主题的术语质量的字段分布特点,比较不同、相同领域的主题的术语质量的字段分布特点差异,即验证假设H2;

(2)在WoS、CNKI的术语空间中,分别对字段、领域因素进行One-Way ANOVA分析,探究WoS、CNKI的术语质量的字段、领域分布特点,比较两个数据库的术语质量分布特点差异,即验证假设H3,并对字段、领域两个因素进行Two-Way ANOVA分析,讨论在同一个术语空间中,字段与领域之间是否存在相互作用。

同时,在上述过程中,比较不同层次术语空间的术语质量分布,讨论不同研究主题术语的整合对术语质量分布是否存在影响,即验证假设H4

4 实验结果分析

4.1 方法合理性论证

分别采用TDV[5]和TDC测度方法计算A&HCI的术语空间中术语的区分能力,统计TDV、TDC值的频次,结果如图2所示。

图2

图2   A&HCI中术语TDV、TDC频次直方图

Fig.2   Frequency Histogram of TDV、TDC of Terms in A&HCI


(1)TDV的取值区间跨度过大,且集中在0值附近,术语区分效果不明显;

(2)TDC的取值分布在-2~3之间,分布范围较大但控制在同一量级上,频次总体分布大致呈现中间高、两边低的状态,接近于正态分布,TDC值大于0占大部分,即在A&HCI的术语空间中大部分术语对文档区分起积极作用。

进一步分析TDV、TDC与DF之间存在的关系,绘制术语TDV、TDC与DF关系散点图如图3所示。若对图3中的点进行曲线拟合,得到图3(a)和图3(b)的拟合曲线的确定系数R2分别为0.982 3、0.000 7,图3(a)拟合效果较好,说明TDV与DF之间存在紧密的关系,即TDV可以由DF通过某种公式推导出来,而图3(b)拟合效果较差,说明TDC对DF不存在高度依赖性,具有较强的独立性。

图3

图3   A&HCI中术语TDV、TDC与DF关系图

Fig.3   Relationship Between TDV 、TDC and DF in A&HCI


综上,TDC比TDV的频次分布更合理,术语质量的区分性更好,且对DF指标不具有高度依赖性,因此TDC能够作为衡量索引术语质量的指标,即假设H1成立。

4.2 研究主题的术语质量分布

(1) 人文科学领域

构建以研究主题为单位的术语空间(4.2节的术语空间均为研究主题层次),对来自A&HCI的三个主题,分别计算其术语的TDC值,并得到One-Way ANOVA的结果如图4所示,其中x轴代表4个字段,y轴代表该字段术语的TDC平均值(M_TDC),参考线代表所有术语的TDC平均值(A_M_TDC)。

图4

图4   A&HCI中各研究主题TDC的One-Way ANOVA结果

Fig.4   One-Way ANOVA Results of TDC for Each Research Topic in A&HCI


可以发现三个子图的术语质量在字段分布上存在共同点:

①“Abstract”>A_M_TDC,“Title”、“Keyword”、“Keyword Plus”均<A_M_TDC;

②“Abstract”的M_TDC最大,“Keyword”的M_TDC最小,即在A&HCI的各个主题文档空间中,通过“Abstract”检索文档,检索效果最好,而通过“Keyword”检索,可能会得到许多除检索目标以外的其他类似文档;

③相比于“Abstract”的术语质量,“Keyword Plus”与“Keyword”的术语质量更接近,“Keyword”与“Abstract”之间的折线感较明显。

来自CSSCI_A的三个主题的TDC的One-Way ANOVA结果如图5所示,由于在CNKI中不包含“Keyword Plus”,故字段仅为三项。三个子图的术语质量的字段分布均满足:“Abstract”>A_M_TDC>“Title”>“Keyword”,且“Title”与A_M_TDC存在的差距较大。

图5

图5   CSSCI_A中各研究主题TDC的One-Way ANOVA结果

Fig.5   One-Way ANOVA Results of TDC for Each Research Topic in CSSCI_A


图4图5可知,在人文科学主题的术语空间中,WoS与CNKI在“Title”、“Keyword”和“Abstract”上的术语质量分布相似:“Abstract”>A_M_TDC>“Title”>“Keyword”,“Title”与A_M_TDC存在较明显差距。

(2) 社会科学领域

来自SSCI的三个主题的TDC的One-Way ANOVA结果如图6所示,三个子图存在共同点:

图6

图6   SSCI中各研究主题TDC的One-Way ANOVA结果

Fig.6   One-Way ANOVA Results of TDC for Each Research Topic in SSCI


①“Title”、“Abstract”均大于A_M_TDC,而“Keyword”、“Keyword Plus”均小于A_M_TDC;

②“Title”和“Abstract”非常接近,而“Keyword”与“Keyword Plus”也相差不大,在4个字段上M_TDC的分布接近于“U”型。

来自CSSCI_S的三个主题的TDC的One-Way ANOVA结果如图7所示,三个子图大部分满足:“Abstract”>A_M_TDC>“Title”>“Keyword”,与图5相比,“Title”与A_M_TDC的差距较小,尤其是在图7(b)中,甚至略高于A_M_TDC。

图7

图7   CSSCI_S中各研究主题TDC的One-Way ANOVA结果

Fig.7   One-Way ANOVA Results of TDC for Each Research Topic in CSSCI_S


图6图7可知,在社会科学主题的术语空间中,WoS与CNKI在“Title”上的表现存在差异,对于SSCI的主题文档空间,“Title”与“Abstract”接近,均高于平均水平,两者均适合作为检索字段,而对于CSSCI_S的主题文档空间,“Title”与“Abstract”之间存在明显差距,“Abstract”最优。

(3) 自然科学领域

来自SCI的三个主题的TDC的One-Way ANOVA结果如图8所示,三个子图存在共同点:

图8

图8   SCI中各研究主题TDC的One-Way ANOVA结果

Fig.8   One-Way ANOVA Results of TDC for Each Research Topic in SCI


①“Abstract”>A_M_TDC,“Title”、“Keyword”、“Keyword Plus”均小于A_M_TDC;

②“Abstract”最好,“Keyword”最差;

③相比于“Keyword”,“Keyword Plus”与“Abstract”更接近,但“Keyword”与“Abstract”之间的折线感不如在A&HCI、SSCI中明显。

来自CSCD的三个主题术语的TDC的One-Way ANOVA结果如图9所示,三个子图均满足:“Abstract”>A_M_TDC>“Title”>“Keyword”,“Title”与A_M_TDC存在的差距较小。

图9

图9   CSCD中各研究主题TDC的One-Way ANOVA结果

Fig.9   One-Way ANOVA Results of TDC for Each Research Topic in CSCD


图8图9可知,在自然科学主题的术语空间中,WoS与CNKI在三个字段上的术语质量分布相似:“Abstract”>A_M_TDC>“Title”>“Keyword”,但“Title”与A_M_TDC存在的差距较小。

综上,在WoS、CNKI的研究主题的术语空间中,属于相同学科领域的主题,字段术语质量表现虽然存在一些差异,但其分布特点具有较高的相似性,故假设H2前半分句成立,而属于不同学科领域的主题,WoS的差异较明显,但CNKI可能由于只有三项字段,差异似乎不明显,4.3节将进一步探讨不同领域研究主题的术语质量的字段分布差异。

4.3 学科领域的术语质量分布

(1) WoS的学科领域

构建以领域为单位的术语空间(4.3节的术语空间均为领域层次),统计A&HCI、SSCI、SCI中TDC值正负数目,并与主题1-主题9的术语空间中术语质量分布对比,如图10所示,其中y轴代表主题、领域,x轴代表术语占比。

图10

图10   WoS中研究主题、领域的积极与消极术语数量分布

Fig.10   Distribution of Positive and Negative Terms of Research Topics、Domains in WoS


①积极术语占比顺序为:SSCI>SCI>A&HCI,A&HCI的术语质量分布情况最差,SSCI最好;

②主题1-主题3的消极术语占比均小于A&HCI(主题4-主题6与SSCI,主题7-主题9与SCI均成立),随着不同研究主题术语的整合,领域内语义重复的术语增多,对术语空间起积极区分作用的术语减少,即相同领域内不同研究主题术语的整合会促进消极术语占比的增加。

WoS中各领域的TDC的One-Way ANOVA结果如图11所示。

图11

图11   WoS中各领域TDC的One-Way ANOVA结果

Fig.11   One-Way ANOVA Results of TDC for Each Domain in WoS


在三个领域的术语空间中,4个字段的术语质量表现特点存在明显差异,主要体现在“Title”和“Keyword Plus”上,总体来看,与图4图6相比,图11中4个字段的表现均接近“V”型:

①“Title”均有较大的相对增长幅度,在A&HCI中,其略高于平均水平;在SSCI中,其与“Abstract”的差距增大,明显优于“Abstract”;在SCI中,其不仅达到平均水平之上,而且优于“Abstract”;

②“Keyword Plus”也均有一定的相对增长幅度,在A&HCI、SSCI中,其与“Abstract”的差距减小,减弱了“Keyword”与“Abstract”间的折线感,在SCI中,“Keyword Plus”达到平均水平之上,与“Abstract”的差距更小,增强了“Keyword”与“Abstract”间的折线感;

③“Keyword”和“Abstract”的相对表现均较稳定,分别维持在一个相对较低和较高的水平。

(2) CNKI的学科领域

统计CSSCI_A、CSSCI_S、CSCD中TDC值正负数目,并与主题10-主题18的术语空间中术语质量分布对比,如图12所示。

图12

图12   CNKI中研究主题、领域的积极与消极术语数量分布

Fig.12   Distribution of Positive and Negative Terms of Research Topics、Domains in CNKI


①CSSCI_A、CSSCI_S和CSCD的积极术语占比差别不大,均在95.30%左右;

②存在部分主题的消极术语占比格外高,尤其在CSSCI_A和CSCD中,例如主题17(细胞移植)的消极术语占比明显高于CSCD,分析该主题的文档内容,发现在主题17中,文档的研究范围比较集中,主要与干细胞方面研究有关,因此主题术语之间的综合相似度较高,区分能力较弱,即主题的研究范围越集中,其术语质量表现越差;

③主题10-主题12的消极术语平均占比低于CSSCI_A(主题13-主题15与CSSCI_S,主题16-主题18与CSCD均成立),说明在CNKI中,相同领域内不同主题的术语的整合对术语质量分布存在消极影响。

CNKI中各领域的TDC的One-Way ANOVA结果如图13所示。

图13

图13   CNKI中各领域TDC的One-Way ANOVA结果

Fig.13   One-Way ANOVA Results of TDC for Each Domain in CNKI


在三个领域的术语空间中,三个字段的术语质量表现特点存在明显差异,主要体现在“Title”与平均水平的差距上,对比图5图7图9

①“Title”均有不同程度的相对增长幅度,在CSSCI_A中,其与平均水平的差距减小,但仍然存在明显差距,在CSSCI_S中,其明显超过平均水平,在CSCD中,其接近于平均水平;

②“Abstract”、“Keyword”仍然分别处于最高、最低水平。

综上,可以得到如下结论:

(1)不同学科领域研究主题的术语质量的字段分布特点存在明显差异,WoS中主要体现在“Title”和“Keyword Plus”上,CNKI中则主要体现在“Title”与平均水平的差距上,故假设H2后半句成立;

(2)随着领域内不同研究主题术语的整合,术语空间中消极术语的占比在增加,“Title”和“Keyword Plus”均有一定的相对增长幅度,故假设H4成立,字段相对表现变化原因可能是来自相同主题的题名(关键词)术语的重复使用现象较严重,术语相似度较大,但在领域内,由于跨主题,不同主题的题名(关键词)内容差异较大,术语区分性更大,但关键词为词组,具有组合性和复杂性,表现始终不佳,而附加关键词来源于系统词表,具有更好的规范性和可控性,表现优于关键词,能更好反映出差异的变化。

4.4 数据库的术语质量分布

(1) One-Way ANOVA分析

构建以数据库为单位的术语空间,统计WoS、CNKI中TDC值正负数目,与领域的术语空间中术语质量分布对比,如图14所示。

图14

图14   WoS、CNKI术语空间中积极与消极术语数量分布

Fig.14   Distribution of Positive and Negative Terms of WoS and CNKI


①各个领域的消极术语占比均低于WoS、CNKI的消极术语占比,说明不同领域的研究主题术语的整合,对WoS、CNKI的术语质量分布存在消极影响;

②WoS的积极术语占比高于CNKI,可能是由于中文缺少英文空格的天然分割符,在分词上准确性不如英文高,更容易造成语义重复的现象。

WoS、CNKI的术语质量的字段分布如图15所示。

图15

图15   对字段因素进行One-Way ANOVA分析的结果

Fig.15   One-Way ANOVA Results of Field Factors


①在WoS中,“Title”>“Abstract”>“Keyword Plus”>A_M_TDC>“Keyword”,其中“Keyword Plus”与“Abstract”的差距远小于与“Keyword”的差距,“Keyword Plus”较好的表现说明系统同义词库具有一定的实用性,因此在CNKI中可考虑提供同样的检索字段,“Title”和“Abstract”的表现接近,对于WoS的文档空间,“Title”与“Abstract”均适合作为检索字段;

②在CNKI中,“Abstract”>“Title”>A_M_TDC>“Keyword”,其中“Abstract”与“Title”之间存在明显差距,对于CNKI的文档空间,“Abstract”为最佳的检索字段。

综上,在WoS和CNKI中,字段术语质量分布的差异主要体现在“Title”上,虽然“Title”在两个术语空间中均具有较好的相对表现,但是在WoS中更优异,说明中文的标题术语表达不如英文准确,中文作者需要更注意标题的表达方式,以便能准确地反映文档所研究的内容。

WoS、CNKI的术语质量的领域分布如图16所示。

图16

图16   对领域因素进行One-Way ANOVA分析的结果

Fig.16   One-Way ANOVA Results of Domain Factors


①在WoS和CNKI中,均是自然科学领域的文档最容易被检索到,可能是因为自然科学研究客观性和专业性较强,用词严谨规范,研究对象为自然界的事物,国内外的研究具有共通性,而在社会、人文科学中,属于不同学科的研究主题术语具有较强的跨学科性和融合性;

②WoS和CNKI的领域术语质量分布差异主要体现在人文科学上,可能是因为国内外的人文环境不同,研究范围与内容存在明显差异。

综上,从字段、领域角度看,WoS和CNKI的术语质量分布虽然有共同特点,但也存在明显差异,故假设H3成立。

(2) Two-way ANOVA分析

对字段、领域两个因素进行Two-Way ANOVA分析:

①若将领域作为固定因子,结果如图17(a)、图17(b)所示,不同颜色的折线代表不同的字段,两幅图中折线均存在部分交叉现象,说明领域因素对字段因素有一定的影响,即在不同的领域中,各个字段的术语质量高低顺序存在差异;

②若将字段作为固定因子,结果如图17(c)、图17(d)所示,不同颜色的折线代表不同的领域,两幅图中各条折线均没有交叉,但也不满足互相平行,且各个领域的术语质量表现高低顺序与图16一致,说明字段因素对领域因素的影响较小,即字段因素不能改变各个领域术语质量高低顺序。

图17

图17   领域、字段因素作为固定因子的Two-Way ANOVA分析结果

Fig.17   Two-Way ANOVA Results with Domain、Field Factors as Fixed Factors


图17可知:

①在WoS中,SCI的字段术语质量高低顺序与A&HCI、SSCI不同,体现在“Keyword Plus”上,其优于“Abstract”,也远优于SSCI、A&HCI的“Keyword Plus”,说明SCI的系统同义词库的建设更成功,而A&HCI和SSCI的系统词库还有很大改进空间;

②在CNKI中,CSSCI_S的各个字段术语质量高低顺序与CSSCI_A、CSCD不同,体现在“Title”上,其略优于“Abstract”,且与另两个领域的“Title”差距较小,说明CSSCI_S的“Title”比其“Keyword”、“Abstract”用词更加严谨和准确,尤其是该字段与另两个领域的“Keyword”存在的差距较大,说明在CSSCI_S中,不同研究主题的关键词术语重复使用现象较严重,术语质量较差。

5 讨论

在结果分析中,发现在同一术语空间中,“Abstract”的术语数量一般较多,其术语质量相对较好,而“Keyword”的术语数量较少,其术语质量相对较差,同样,主题、领域术语数量的大小顺序与术语质量高低顺序也一致,故将探讨字段(横向)、主题/领域(纵向)的术语数量与M_TDC是否高度线性相关。

以WoS的术语空间为例,绘制4个字段的M_TDC与其术语数量的散点图如图18(a)所示,统计各个主题、领域的M_TDC及其术语数量,共计12组数据,绘制散点图如图18(b)所示。图18(a)的线性拟合的R2值仅为0.126,拟合效果较差,说明字段术语质量的高低不是简单地由术语数量的大小所决定;在图18(b)中,从总体上看,纵向因素的术语数量与M_TDC不存在明显的线性关系,但是在主题、领域的层次上各自具有一定的线性关系。为验证主题、领域的术语数量与M_TDC之间是否真的高度线性相关,统计相同字段中各个主题、领域的术语数量与M_TDC,若两者真的存在高度线性关系,则两者在各个字段中均呈现高度线性相关。

图18

图18   WoS术语空间中横纵向因素的M_TDC与术语数量之间的关系

Fig.18   The Relationship Between M_TDC and the Number of Terms of Horizontal and Vertical Factors in WoS


统计三个领域在4个字段中的M_TDC与术语数量,绘制的散点图及拟合线性曲线如图19所示,4幅子图的线性拟合的R2值分别为0.996、0.024、0.814和1.000,虽然在三个字段中各个领域的M_TDC与术语数量均有明显的线性关系,但在“Keyword”中线性关系较弱,说明在领域因素上M_TDC与术语数量高度线性相关具有偶然性。

图19

图19   WoS术语空间中领域的M_TDC与术语数量之间的关系

Fig.19   The Relationship Between M_TDC and the Number of Terms of Domains in WoS


进一步统计9个主题在4个字段中的M_TDC与术语数量,绘制的散点图及拟合曲线如图20所示,4幅子图的线性拟合的R2值分别为0.690、0.003、0.699和0.882。对比图19,发现当数据量增大时,M_TDC与术语数量的线性关系在4个字段中均呈现减弱的趋势,再次验证两者高度线性相关可能是一种偶然现象,且当主题数量丰富时,这种线性相关性会逐渐减弱。

图20

图20   WoS术语空间中主题的M_TDC与术语数量之间的关系

Fig.20   The Relationship Between M_TDC and the Number of Terms of Topics in WoS


综上,在同一个术语空间中,在横纵向因素上,术语数量与M_TDC之间不存在高度线性关系,横纵向因素在术语空间的表现好坏也更多受本身的研究特性影响,并非由其术语数量直接决定。

6 结论

本文采集来自WoS、CNKI的三个领域各三个主题的索引术语,基于不同层次的术语空间,采用ANOVA方法从字段、领域等角度探究术语质量分布特点,比较和总结学术数据库中研究主题的术语质量分布特点差异,得到以下结论:

(1)TDC总体分布大致符合正态分布,且不依赖于DF,能够作为衡量中英文索引术语质量的指标;

(2)相同领域的不同研究主题的术语质量的字段分布特点相似度较高,不同领域的术语质量的字段分布在“Title”(“Keyword Plus”)上存在差异;

(3)WoS的整体术语质量分布优于CNKI,WoS和CNKI的差异主要体现在“Title”和人文科学上;

(4)在同一个术语空间中,领域与字段存在一定的相互作用;

(5)不同研究主题术语的整合对消极术语占比的增加和“Title”(“Keyword Plus”)的相对表现存在积极影响,因此当确定检索目标的领域时,尽量在该领域的子数据库中,而不是WoS、CNKI中执行检索操作。

由于在结果分析中发现,在WoS、CNKI的各个层次的文档空间中,“Abstract”表现均相对较好,而“Keyword”最差,因此在实际检索中,建议首选“Abstract”作为检索字段,而不建议通过“Keyword”检索,此外在SSCI、SCI的文档空间中,通过“Title”检索,或许能获得更好的检索结果。另外,虽然WoS的“Keyword Plus”表现较好,但A&HCI、SSCI的系统同义词库还有较大的改进空间,将TDC应用于系统同义词库的过滤是一个较好的改进思路。

本文主要将TDC应用于研究主题的索引术语质量测度上,未来可以应用于学者、文献、期刊等其他实体的术语质量测度上,从术语区分能力角度对这些实体进行评价。由于计算能力的限制,在各个领域中,本文实验无法覆盖全部主题,且选择单个主题,带来的误差较大,因此笔者选择三个主题,总结其术语质量分布的共同规律,探索该领域的术语质量分布情况,从而减小误差,但不同主题的术语使用习惯可能存在差异,因此实验结论仍然存在一定的局限。此外,由于主题代表领域的局限性,WoS、CNKI的术语质量实际分布情况与实验结论可能存在一些差异,即主题数目越多,各领域的主题覆盖范围越广,实验结果就越准确和可靠。

作者贡献声明

李轲禹:数据采集及清洗,进行实验,论文起草;

王昊:提出研究思路,设计研究方案;

龚丽娟:论文最终版本修订;

唐慧慧:进行TDC合理性论证方面的实验。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据:

支撑数据见期刊网络版,http://www.infotech.ac.cn

[1] 李轲禹.文献相关数据.zip.实验选用的文献数据及预处理结果.

[2] 李轲禹.TDC结果.zip.各层次术语空间术语的TDC计算结果.

[3] 李轲禹, 唐慧慧.A&HCI的TDC与TDV.xlsx.图2-3的支撑数据.

[4] 李轲禹.研究主题的字段TDC数据.zip.图4-9的支撑数据.

[5] 李轲禹.学科领域的字段TDC数据.zip.图1113的支撑数据.

[6] 李轲禹.数据库的字段领域TDC数据.zip.图15-17的支撑数据.

[8] 李轲禹.WoS中术语数量与M_TDC的关系.xlsx.图18-20的支撑数据.

参考文献

易中梅.

应用检索实例谈谈信息检索的查全率和查准率

[J]. 科技信息(科学教研), 2008(24):363-364.

[本文引用: 1]

( Yi Zhongmei.

Analysis on Recall Ratio and Accuracy Ratio of Information Retrieval Based on Retrieval Practices

[J]. Science & Technology Information, 2008(24):363-364.)

[本文引用: 1]

张玲.

中刊库检索效率及其影响因素比较分析

[J]. 情报理论与实践, 2001,24(2):120-121.

[本文引用: 1]

( Zhang Ling.

Comparative Analysis of the Retrieval Functions of China Journal Database and Its Influence Factors

[J]. Information Studies: Theory & Application, 2001,24(2):120-121.)

[本文引用: 1]

Wolfram D, Zhang J.

The Impact of Term-indexing Characteristics on a Document Space

[J]. Canadian Journal of Information & Library Science, 2001,26(4):21-35.

[本文引用: 2]

Wolfram D, Zhang J.

An Investigation of the Influence of Indexing Exhaustivity and Term Distributions on a Document Space

[J]. Journal of the American Society for Information Science and Technology, 2002,53(11):943-952.

DOI:10.1002/(ISSN)1532-2890      URL     [本文引用: 2]

Salton G, Wong A, Yang C S.

A Vector Space Model for Automatic Indexing

[J]. Communications of the ACM, 1975,18(11):613-620.

DOI:10.1145/361219.361220      URL     [本文引用: 4]

Zhang J, Yu Q, Zheng F S, et al.

Comparing Keywords Plus of WOS and Author Keywords: A Case Study of Patient Adherence Research

[J]. Journal of the Association for Information Science & Technology, 2016,67(4):967-972.

[本文引用: 1]

魏凤萍, 何益华, 方吉, .

基于Web of Science的机构文献检索策略

[J]. 上海高校图书情报工作研究, 2019,29(1):81-86.

[本文引用: 1]

( Wei Fengping, He Yihua, Fang Ji, et al.

Organization Literature Retrieval Strategy Based on Web of Science

[J]. Research on Library & Information Work of Shanghai Colleges & Universities, 2019,29(1):81-86.)

[本文引用: 1]

江宏春.

自然科学、社会科学、人文科学的关系——一种“学科光谱”分析

[J]. 自然辩证法研究, 2014,30(6):61-67.

[本文引用: 1]

( Jiang Hongchun.

Relations Among Natural Science, Social Science and Human Studies Under the Analysis on the Spectrum of Disciplines

[J]. Studies in Dialectics of Nature, 2014,30(6):61-67.)

[本文引用: 1]

李醒民.

知识的三大部类:自然科学、社会科学和人文学科

[J]. 学术界, 2012(8):5-33,286.

[本文引用: 1]

( Li Xingmin.

Three Divisions of Knowledge: Natural Science, Social Science and the Humanities

[J]. Academics, 2012(8):5-33,286.)

[本文引用: 1]

自动标引

[EB/OL].[ 2020- 02- 17]. http://baike.baidu.com/view/853543.html.

URL     [本文引用: 1]

(

Automatic Indexing

[EB/OL]. [ 2020- 02- 17]. http://baike.baidu.com/view/853543.html.

URL     [本文引用: 1]

李晓瑛, 夏光辉, 孙海霞.

MTI自动文献标引系统研究

[J]. 医学信息学杂志, 2015,36(3):52-57.

URL     [本文引用: 1]

MTI是一个知名的生物医学文献自动标引系统,其基于医学主题词表MeSH推荐文献标引结果。从处理过程、基本原理、应用效果等方面对MTI进行全面研究,试图为开发高质量的中文生物医学文献自动标引系统提供一些有价值的借鉴与参考。

( Li Xiaoying, Xia Guanghui, Sun Haixia.

Research on Medical Text Indexer

[J]. Journal of Medical Informatics, 2015,36(3):52-57.)

URL     [本文引用: 1]

MTI是一个知名的生物医学文献自动标引系统,其基于医学主题词表MeSH推荐文献标引结果。从处理过程、基本原理、应用效果等方面对MTI进行全面研究,试图为开发高质量的中文生物医学文献自动标引系统提供一些有价值的借鉴与参考。

李军莲, 王序文, 夏光辉, .

面向文献主题自动标引的通用概念表建设

[J]. 情报理论与实践, 2017,40(4):95-99.

[本文引用: 1]

( Li Junlian, Wang Xuwen, Xia Guanghui, et al.

Construction of Common Concept List for Automatic Text Subject Indexing

[J]. Information Studies: Theory & Application, 2017,40(4):95-99.)

[本文引用: 1]

黄丹丹.

基于深度学习的中文分词和关键词抽取模型研究

[D]. 北京:北京邮电大学, 2019.

[本文引用: 1]

( Huang Dandan.

Research on Chinese Word Segmentation and Keyword Extraction Model Based on Deep Learning

[D]. Beijing: Beijing University of Posts and Telecommunications, 2019.)

[本文引用: 1]

张海潮, 王昊, 唐慧慧, .

CRFs字角色标注方法在中文附加关键词抽取中的应用研究

[J]. 情报理论与实践, 2019,42(2):169-176.

[本文引用: 1]

( Zhang Haichao, Wang Hao, Tang Huihui, et al.

Application of CRFs Chinese Character Role Labeling Method in Chinese Keywords Plus Extraction

[J]. Information Studies: Theory & Application, 2019,42(2):169-176.)

[本文引用: 1]

Chemical Indexing

[EB/OL]. [2020-02-17]. https://www.theiet.org/media/5239/chemical-indexing-updated-jan-2020.pdf.

URL     [本文引用: 1]

Numerical Indexing

[EB/OL].[2020-02-17]. https://www.theiet.org/media/2019/numerical-data-indexing.pdf.

URL     [本文引用: 1]

何琳, 常颖聪.

不同标引策略下的文本主题表达质量比较研究

[J]. 图书馆杂志, 2014,33(5):29-33.

[本文引用: 1]

( He Lin, Chang Yingcong.

Comparative Study of Subject Presentation with Different Indexing Strategies

[J]. Library Journal, 2014,33(5):29-33.)

[本文引用: 1]

Willett P.

An Algorithm for the Calculation of Exact Term Discrimination Values

[J]. Information Processing & Management, 1985,21(3):225-232.

DOI:10.1016/0306-4573(85)90107-4      URL     [本文引用: 2]

Zhang J, Wolfram D.

Visualization of Term Discrimination Analysis

[J]. Journal of the American Society for Information Science and Technology, 2001,52(8):615-627.

DOI:10.1002/(ISSN)1532-2890      URL     [本文引用: 1]

Pushpalatha K P, Raju G.

Compactness-A Useful Feature for Generating Search Index

[C]// Proceedings of the 2012 IEEE International Conference on Technology Enhanced Education(ICTEE), Kerala, India. 2012.

[本文引用: 1]

Cai D, van Rijsbergen C J.

Learning Semantic Relatedness from Term Discrimination Information

[J]. Expert Systems with Applications, 2009,36(2):1860-1875.

DOI:10.1016/j.eswa.2007.12.072      URL     [本文引用: 1]

Lu K, Mao J.

An Automatic Approach to Weighted Subject Indexing-An Empirical Study in the Biomedical Domain

[J]. Journal of the Association for Information Science and Technology, 2015,66(9):1776-1784.

DOI:10.1002/asi.23290      URL     [本文引用: 1]

Lu K, Cai X, Ajiferuke I, et al.

Vocabulary Size and Its Effect on Topic Representation

[J]. Information Processing & Management, 2017,53(3):653-665.

DOI:10.1016/j.ipm.2017.01.003      URL     [本文引用: 1]

Labani M, Moradi P, Ahmadizar F, et al.

A Novel Multivariate Filter Method for Feature Selection in Text Classification Problems

[J]. Engineering Applications of Artificial Intelligence, 2018,70:25-37.

DOI:10.1016/j.engappai.2017.12.014      URL     [本文引用: 1]

Bernauer L, Han E J, Sohn S Y.

Term Discrimination for Text Search Tasks Derived from Negative Binomial Distribution

[J]. Information Processing & Management, 2018,54(3):370-379.

DOI:10.1016/j.ipm.2018.01.003      URL     [本文引用: 1]

Lakshmi R, Baskar S.

Novel Term Weighting Schemes for Document Representation Based on Ranking of Terms and Fuzzy Logic with Semantic Relationship of Terms

[J]. Expert Systems with Applications, 2019,137:493-503.

DOI:10.1016/j.eswa.2019.07.022      URL     [本文引用: 1]

王昊, 唐慧慧, 张海潮, .

面向学术资源的术语区分能力的测度方法研究

[J]. 情报学报, 2019,38(10):1078-1091.

[本文引用: 1]

( Wang Hao, Tang Huihui, Zhang Haichao, et al.

A Study on the Measurement Methods of Term Discriminative Capacity for Academic Resources

[J]. Journal of the China Society for Scientific and Technical Information, 2019,38(10):1078-1091.)

[本文引用: 1]

刘启元, 叶鹰.

文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例

[J]. 信息资源管理学报, 2012,2(1):50-58.

URL     [本文引用: 1]

利用C#编程技术基于.NET平台设计开发出文献题录信息统计分析工具软件SATI,可导入处理EndNote格式、NoteExpress格式及NoteFirst格式的国内文献题录数据和HTML格式的WoS国际文献题录数据,进行数据格式的转换、字段信息的抽取、词条频次的统计和知识单元共现矩阵、词条频率逐年分布矩阵及文档词条矩阵的构建,以辅助生成聚类图、多维尺度图谱、网络知识图谱、策略坐标图等可视化结果。以2006~2010年中外图书情报学各十种具有代表性的核心期刊刊载的17440篇论文数据为实例,基于聚类与多维尺度分析结果,呈现出中外图书情报学三大主要研究领域,并结合共词分析与社会网络分析方法,通过绘制共现网络知识图谱与策略坐标图,进一步揭示研究领域结构的内部联系及其特征。

( Liu Qiyuan, Ye Ying.

A Study on Mining Bibliographic Records by Designed Software SATI: Case Study on Library and Information Science

[J]. Journal of Information Resources Management, 2012,2(1):50-58.)

URL     [本文引用: 1]

利用C#编程技术基于.NET平台设计开发出文献题录信息统计分析工具软件SATI,可导入处理EndNote格式、NoteExpress格式及NoteFirst格式的国内文献题录数据和HTML格式的WoS国际文献题录数据,进行数据格式的转换、字段信息的抽取、词条频次的统计和知识单元共现矩阵、词条频率逐年分布矩阵及文档词条矩阵的构建,以辅助生成聚类图、多维尺度图谱、网络知识图谱、策略坐标图等可视化结果。以2006~2010年中外图书情报学各十种具有代表性的核心期刊刊载的17440篇论文数据为实例,基于聚类与多维尺度分析结果,呈现出中外图书情报学三大主要研究领域,并结合共词分析与社会网络分析方法,通过绘制共现网络知识图谱与策略坐标图,进一步揭示研究领域结构的内部联系及其特征。

NLPIR汉语分词系统

[CP/OL].[ 2020- 02- 17]. http://www.nlpir.org/wordpress/.

URL     [本文引用: 1]

(

NLPIR Chinese Word Segmentation System

[CP/OL]. [ 2020- 02- 17]. http://www.nlpir.org/wordpress/.

URL     [本文引用: 1]

熊欣, 王昊, 张海潮, .

中文术语粒度对其区分能力测度的影响分析

[J]. 数据分析与知识发现, 2020,4(2-3):143-152.

[本文引用: 1]

( Xiong Xin, Wang Hao, Zhang Haichao, et al.

Impacts of Chinese Term Granularity on Measuring Term Discriminative Capacity

[J]. Data Analysis and Knowledge Discovery, 2020,4(2-3):143-152.)

[本文引用: 1]

Korfhage R R.

Information Storage and Retrieval

[M]. New York: Wiley, 1997.

[本文引用: 1]

Zhang J, Korfhage R R.

A Distance and Angle Similarity Measure Method

[J]. Journal of the American Society for Information Science, 1999,50(9):772-778.

DOI:10.1002/(SICI)1097-4571(1999)50:9&lt;&gt;1.0.CO;2-J      URL     [本文引用: 1]

Salton G, Yang C S, Yu C T.

Theory of Term Importance in Automatic Text Analysis

[J]. Journal of the American Society for Information Science, 1975,26(1):33-44.

DOI:10.1002/(ISSN)1097-4571      URL     [本文引用: 1]

/

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn