Advanced Search

数据分析与知识发现, 2020, 4(5): 38-45 doi: 10.11925/infotech.2096-3467.2020.0201

研究论文

基于特征融合的引文失范数据自动处理策略研究*

李军莲,,1,2,3, 吴英杰3, 邓盼盼3, 冷伏海4

1中国科学院文献情报中心 北京 100190

2中国科学院大学经济与管理学院图书情报与档案管理系 北京 100190

3中国医学科学院医学信息研究所 北京 100020

4中国科学院科技战略咨询研究院 北京 100190

Automatic Data Processing Strategy of Citation Anomie Based on Feature Fusion

Li Junlian,,1,2,3, Wu Yingjie3, Deng Panpan3, Leng Fuhai4

1National Science Library, Chinese Academy of Sciences, Beijing 100190, China

2Department of Library, Information and Archives Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190, China

3Institute of Medical Information, Chinese Academy of Medical Sciences, Beijing 100020, China

4Institute of Science and Development, Chinese Academy of Sciences, Beijing 100190, China

通讯作者: 李军莲,ORCID:0000-0001-8955-6969,E-mail:li.junlian@imicams.ac.cn

收稿日期: 2020-03-16   修回日期: 2020-04-27   网络出版日期: 2020-05-25

基金资助: *本文系中国医学科学院医学与健康科技创新工程项目“生物医学科技信息支撑平台”的研究成果之一.  2016-12M-2-005

Received: 2020-03-16   Revised: 2020-04-27   Online: 2020-05-25

摘要

【目的】 将同一篇引文文献的不同表达形式进行归一,实现期刊引文数据规范控制与管理,减轻引文失范造成的数据质量问题。【方法】 以期刊引文数据库建设为目标场景,根据参考文献著录标准分析期刊引文数据的核心特征,基于决策树方法和准确率指标获取有效特征子集并指定决策规则执行优先顺序,生成多特征融合的自动数据处理策略。【结果】 选取CBMCI的10 000条期刊引文样本数据集和10 000条验证数据集进行验证,本文方法进行期刊引文归一规范的准确率分别达99.72%、98.70%。【局限】 仅探讨了中文期刊引文失范数据的处理,尚未考虑其他语种和类型的引文。【结论】 该处理策略能够高效自动化地开展大规模期刊引文数据的归一规范,减少人工干预,特征融合的思路也适用于建立其他类型引文归一规范时的自动处理策略。

关键词: 引文归一 ; 引文失范 ; 规范控制 ; 特征融合

Abstract

[Objective] To normalize different expressions of the same citation document, realize standard control and management of periodical citation data, and alleviate the data quality problems caused by citation anomie.[Methods] Taking the construction of the periodical citation database as the target scenario, the core characteristics of periodical citation data were analyzed according to the reference standards. The subsets of effective features were obtained based on the decision tree and accuracy, the execution priority of decision rules was specified and an automatic data processing strategy was constructed based on multi-feature fusion.[Results] 10,000 periodical citation sample data and 10,000 validation data sets were selected from the Chinese Biomedical Citation Index (CBMCI) for the experiment. The results show that our proposed feature fusion approach achieved 99.72% and 98.70% accuracy of the journal citation normalization on these two datasets, respectively.[Limitations] This article only explored the Chinese periodical citation anomie data and has not yet covered the citations of other languages and types.[Conclusions] The proposed method could automatically standardize large-scale journal citation data with high efficiency, thus reduce the burden of labor-intensive manual intervention. The idea of feature fusion can be also applied to the automatic normalization strategies of other types of citation documents.

Keywords: Citation Data ; Citation Anomie ; Standard Control ; Feature Fusion

PDF (849KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李军莲, 吴英杰, 邓盼盼, 冷伏海. 基于特征融合的引文失范数据自动处理策略研究*. 数据分析与知识发现[J], 2020, 4(5): 38-45 doi:10.11925/infotech.2096-3467.2020.0201

Li Junlian, Wu Yingjie, Deng Panpan, Leng Fuhai. Automatic Data Processing Strategy of Citation Anomie Based on Feature Fusion. Data Analysis and Knowledge Discovery[J], 2020, 4(5): 38-45 doi:10.11925/infotech.2096-3467.2020.0201

1 引言

引文是科学对话、知识传承的方式。创新性成果都是继承和发展已有的发现而形成的,继而形成了富含文献间引用和被引用关系的大规模科学网络,揭示科学领域知识的发展脉络。依据引文及引文网络可以开展一系列的科学研究,如基于传统的文献计量指标或替代计量学Altmetric指标进行论文、学者、期刊、机构的科研竞争力评价,分析论文引用动态扩散过程,聚焦热点主题描绘学科领域发展脉络、先进技术的演进路径,支撑图书馆文献资源配置与优化、文献推荐、投稿推荐等服务。这些研究的开展无不依赖于现有的引文数据及引文数据库。虽然参考文献著录相继制定了相应的国家标准,如GB/T7714-2005《文后参考文献著录规则》[1]及2015年12月1日起实施的GB/T7714-2015《信息与文献参考文献著录规则》(简称《规则》)[2],但由于著录标准不统一、学者认知差异等原因,原始引文中经常会出现引文内容和形式失范的错引现象[3,4],同一篇文献的引用形式可达数十种,准确的引文分析就需要大量的数据整理、校验和归一化等前期工作。因此针对引文失范数据的规范处理,有利于改善引文数据库的整体质量,也是提高引文分析效率和科学性的关键因素。期刊引文是引文数据中比例最大、最重要的一类资源,本文探索期刊引文数据库建设中的引文失范数据规范处理策略,以最大程度减少人工归一的工作,确保引文数据的质量,为引证精准分析和检索奠定基础。

2 相关工作

2.1 引文数据质量研究

在引文数据质量方面,学者围绕引文数据库建设与检索使用过程中遇到的问题开展研究,主要包括引文数据库评价、数据质量控制、引文失范及影响因素等。如赵萍等[5]探讨了中国科技论文与引文数据库(CSTPC)检索效率的影响因素,分析引文标引字段缺失等问题;苏新宁[6]、王凌云[7]、张友谊等[8]分析了中文社会科学引文索引(CSSCI)中易出现的引文数据错误,提出计算机辅助纠错的思路;蒋鸿标[9]则从数据库方、期刊编辑部、作者三个责任方角度提出引文数据质量控制的建议。但是关于引文数据质量研究的分析仍处于理论层面,目前尚未有高效的自动化方法支持大规模引文数据的规范控制。

2.2 引文数据建设研究

2018年,全国信息与文献标准化技术委员会(SAC/TC4)发布《GB∕T 36067-2018 信息与文献 引文数据库数据加工规则》[10],标准规定了期刊论文、专著、学位论文、科技报告等各类型文献中的引文数据描述元素、描述和著录规则,适用于引文数据的结构规范描述。在引文数据规范建设方面,任慧玲等[11]分析了NSTL科学引文数据库(DISC)数据加工的特点与规律,提出引文加工流程和自动化辅助技术;曾红英[12]提出基于正则表达式进行参考文献格式的验证,可有效验证参考文献格式的规范性;王珊珊等[13]构建科研人员和引文知识本体,揭示引文间结构与关系,以提高引文知识服务系统质量;鲜国建等[14]提出引文数据分类型进行自动化的字段拆分方法; 祝清松等[15]、姜霖等[16]分别研究了引文类型识别、数据元素的标注方法;Brennan[17]探讨了各类型格式引文的字段自动识别与规范化表达; Falagas等[18]、Adriaanse等[19]比较分析了Web of Science、Scopus、Google Scholar等的引文内容覆盖范围和引用频次的正确性。目前这些标准和研究适用于引文数据的元素抽取和格式规范,尚未提出引文数据的匹配策略,无法实现大规模引文数据自动归一的需求。

3 引文失范数据特征分析

3.1 格式失范

期刊引文著录中包含多个数据项,分隔标识符号繁多,易出错。如题名、出版者、引文页码前的“:”,多个作者间的“;”,期刊期号“()”,文献类型标识“[]”,文献载体标识前的“/”,起始页码间的“-”等;符号、数字和空格的半角与全角,西文首字母的大小写,阿拉伯数字和罗马数字等格式的不统一,造成了同一篇期刊文献出现了多种不同格式或不规范的引用数据。

3.2 责任者项失范

著者作为科研成果的主要责任实体,其准确性直接影响被引的归属、学者及其机构的科研评价。被引论文的著者名称也可能出现多种失范现象。例如,书写失误造成著者的音同形异、形似音异、衍字、繁体、缺字等错误现象。《规则》规定责任者不超过三个时全部著录,超过三个时则只著录前三个责任者并加“,等”;由于期刊著录要求或作者原因,有的著录前三个著者,后面加“,等”或“等”,有的直接著录第一著者、其他著者省略,有的第一著者与其他著者的顺序调换,这些都会造成著者信息不全、遗漏或不一致。

3.3 内容失范

题名信息简明、确切地反映了文献的核心内容,是论文定位时的主要依据之一。但由于印刷错误、数据录入失误等原因,题名前后可能会出现文字片段丢失、多词、词序颠倒、错别字词、繁体或异体字等。《规则》中明确规定其他题名信息的著录标识符号为“:”,置于题名之后,但在实际的引文著录实践中,仍然存在很多其他题名未著录或者著录符号使用“——”、“-”等现象。因此同一篇文献的题名在引用时就可能存在多种形式,如题名为“小儿病毒性心肌炎诊断标准”的文献在引用时可能出现“病毒性心肌炎诊断标准”、“儿病毒性心肌炎诊断标准”等其他题名。

3.4 来源项失范

年、卷、期、页码等来源信息项标明了期刊文献的出处,也都可能出现格式不一致、缺失或错误现象。除了引用格式方面的问题外,期刊名称也会存在全称、简称、曾用名多种形式。例如,与规范引文格式“潘纪戍.成人胸部结核的CT诊断[J].中华放射学杂志,2000,34(9):583-587.”相比,其他98种引文原始数据中,不仅存在作者错误(32个)、题名错误(8个)、缺失文献类型(74个),还有2个“期刊名”错误、5个“出版年”错误、4个“卷”错误、19个“期”缺失或错误、21个“页码”错误或缺失,以及符号全角、半角、缺失问题等。这些来源项的失范现象,都会造成引文格式的不一致。

4 研究思路与实现方法

引文是科研人员获取知识的重要途径,也是各类引证分析的基础。正确的引文数据可以帮助学者快速定位引文路径,有利于共享、评价与创新。引文相似度是指两条或者多条引文记录的吻合程度。两条引文记录在作者、题名、类型、来源等著录项相同或相似的项目越多,表示这两条引文记录相似度越高,越可能指向同一篇被引文献。决策树是一种基于特征对数据进行分类的过程[20]。本文引入决策树的方法进行特征的选择、特征子集的生成及有效特征子集的遴选。

4.1 研究思路

对失范引文进行规范处理,本质上是在一定规模的引文数据中,将不同描述形式却指向同一被引文献的引文记录归为一类,形成引文子集;每个引文子集仅指向一篇被引文献。与传统的文本聚类不同,引文原记录虽是一段短文本,但由于著录规则一定程度上进行了各项内容的逻辑规范,因此具有较强的结构化,期刊引文具有共同的核心特征,不规范的数据元素也有规律可循。因此,为解决大规模引文数据中的失范现象,提高引文路径的正确性,本研究基于期刊引文数据失范的特征,采用决策树的方法从引文记录的原始特征中选择出多个有效识别目标的特征子集;为了降低数据中个别特征失范产生的干扰,构建多策略融合的引文失范数据处理方法,如图1所示。

图1

图1   基于特征融合的引文失范数据自动处理思路

Fig.1   Data Automatic Processing Strategy of Citation Anomie Based on Feature Fusion


具体地,根据文献库收录范围遴选题录数据及引文数据,基于文献著录原则和引文数据加工规则进行期刊引文数据的拆分、提取与结构映射;然后基于决策树和准确率,结合人工引文归并思路遴选有效特征子集,生成能够有效标识同一篇引文的多个策略;最后基于特征数和准确率融合执行这些策略,将指向同一引文文献的不同描述形式进行归一,形成引文子集。规范更新后的期刊引文及实体数据,将会不断迭代纳入下一次引文数据规范处理过程中。

4.2 样本选择

基于文献库的题录数据,抽取其引用的引文数据。根据期刊引文记录的类型标识,采用随机抽样的方法,抽取含有m条记录的样本引文集合 C={C1,C2,C3,,Cm}

4.3 特征选择与规范

参考国家标准《GB/T 7714-2015 信息与文献参考文献著录规则》中期刊引文文献原则及著录格式“析出文献主要责任者.析出文献题名[文献类型标识/文献载体标识].连续出版物题名:其他题名信息,年,卷(期):页码[引用日期].获取和访问路径.数字对象唯一标识符.”,分析期刊引文数据的基本元素。由于引文记录中包含很多的文本特征,但不是每一个文本特征发挥同样的作用。为了保证使用最少的特征发现最全、最准确的引文记录同一关系,去除了作用不大的特征,初步遴选、保留对于预测关系潜在有用的核心特征,并进行初步的规范处理。假设引文集合C拥有n个初步遴选的共同核心特征 {T1,T2,T3,,Tn}

4.4 构建决策树

假设引文集合Cm条记录 {C1,C2,C3,,Cm},拥有n个初步遴选的共同核心特征 {T1,T2,T3,,Tn},以决策树形式表示,决策树中的每个节点都是关于某个特征的条件,如“题名相同”、“期刊名称相同”、“第一作者相同”等。Pr表示所在边到根节点子树中全部节点构成的特征子集下进行引文归一的准确率,如 Pr{T1,T2}到根节点 T1的子树共含有“ T1相同”T2相同”两个条件, Pr{T1,T2}则表示在满足这两个条件下进行引文自动归一的准确率。根据Pr条件的响应情况可以将数据集一分为二,基于算法辅助产生 2n-1个非空特征子集。特征子集的决策树,如图2所示。

图2

图2   有效特征子集决策树

Fig.2   Decision Tree of Effective Feature Subset


4.5 获取候选有效特征子集

具体地, Tn节点表示:到根节点 T1的子树节点构成 {T1,T2,T3,,Tn}特征子集,引文集合C中,满足条件“ T1ANDT2ANDTn”的两条及以上引文记录标识为同一引文,归并为一个引文子集,针对不满足此条件的引文记录新增独立的一条引文记录存在。归并形成的引文子集中,正确归一的引文数量 mp1,错误归一的引文数量 me1;未归并的新增引文记录中,正确新增的引文记录数量为 mp2,未能归一、错误新增的引文记录数 me2, Pr{T1,T2,T3,,Tn}表示在条件 {T1,T2,T3,,Tn}下归并形成引文子集的归一准确率,可如公式(1)所示。

Pr{T1,T2,T3,,Tn}=mp1mp1+me1

AC{T1,T2,T3,,Tn}表示条件 {T1,T2,T3,,Tn}下全部引文规范的准确率,如公式(2)所示。

AC{T1,T2,T3,,Tn}=mp1+mp2mp1+me1+mp2+me2

构建有效特征子集规则及多策略的组合,主要是为了高效自动化地开展大规模引文数据的规范工作,减少人工干预,因此引文子集归一的准确率越高越好。基于引文数据建设的容错率,设定Pr的阈值为γ,作为决策树中的条件纳入不断分裂的递归过程。在某个特征子集下,并且Prγ时,该子集即可成为有效特征集合之一。全部特征没有指定的顺序,均可作为 T1参与递归过程,直至遍历全部的特征组合,找出符合条件的全部候选有效特征子集。

4.6 建立有效特征子集融合策略

在符合条件的全部候选有效特征子集中,为了减少样本集数据规模及时间、期刊范围等条件限制的干扰,排除一些不能定位唯一文献的特征子集。例如,在有效特征子集{firstauthor(第一作者)}条件下,引文归一的准确率也很高,这可能是由于数据量较少、同一作者的文献数量不多而造成的;然而大规模数据处理中,某一作者多篇文献被引用的情况普遍存在,因此需排除该条不能定位唯一文献的有效特征子集{firstauthor(第一作者)}。最终选定的多个有效特征子集,根据特征数和准确率降序形成策略组合rule_1、rule_2、…,优先使用特征数较多、准确率较高的特征子集处理引文数据,剩余未归并数据继续使用后续的规则进行处理。

5 实验与结果分析

5.1 数据来源

中国生物医学引文数据库(CBMCI)收录1989年以来中国生物医学学术期刊文献的原始引文2 200余万篇,并持续开展引文数据的归一化处理,建立期刊引文与其原始文献题录的关联,为生物医学领域的多维度引文检索与引证分析提供支持[21]。CBMCI基于各类型引文著录格式涉及到的核心特征通过“AND”组合精确匹配进行引文归一时,由于原始引文中经常出现引文内容和形式失范的错引现象,会造成同一篇引文文献由于个别特征错误而呈现的不规范表达形式,无法正确归并到相应的引文子集中,一定程度上影响了引文数据库的整体质量。根据期刊引文类型标识,随机抽取已完成归一的引文数据10 000条,作为此次实验的基础数据集;随机抽取未经归一的引文原始数据10 000条作为此次实验的验证数据集。样本集已将同一篇引文文献的不同表达形式标识为一个引文子集,每篇文献至少包括两条原始引文数据。这些不同的原始引文数据表达形式在特征子集决策规则或融合策略下是否实现了归一及实现归一的规模,是影响引文归一规范控制准确率和决策规则遴选的关键因素。

5.2 特征选择与规范

基于原始引文中各维特征的物理位置及分隔符号,解析和提取题名、作者、第一作者、团体作者、来源期刊、卷、期、起止页等基本描述项,以及引文原始信息、施引文献、与文献库的关联,进行引文数据的结构描述。同时进行初步的规范预处理,基于施引文献库已建立的科研实体对象规范库,对期刊、团体作者名称进行规范名称转换;对文本描述的数据元素进行格式规范,如去除全部符号、英文字母全大写等;引用页码、起页等数字描述的项,全部转换为阿拉伯数字等。根据期刊引文著录规则,初步遴选以下7个元素作为期刊引文识别的基本特征:{ti_format(题名),ta(期刊),firstauthor(第一作者),vi(),ip(),dp(出版年),pg_start(起页)}。

5.3 基于决策树获取特征子集

基于选定的7个基本特征,共产生127( 27-1)个可能的非空特征子集,根据每个特征子集进行样本引文数据集归一。由于最终采用多个特征子集策略组合的方式进行引文规范,因此每个有效特征子集单独进行样本引文数据集归一也需要具有较高的准确率。为了保证特征子集能有效定位一篇引文,最终遴选的特征子集需符合“Pr>0.90”、“3<特征数n<5”条件,且在多策略组合时遵循特征互补原则,如表1所示。在每个特征子集决策规则中,每个特征间的逻辑关系是“AND”关系;融合策略中,根据特征数和准确率制定了决策规则Rule_1到Rule_22的优先执行顺序。

表1   期刊引文规范决策规则

Table 1  Decision Rules of Journal Citation Standardization

决策规则有效特征子集特征数Pr
Rule_1ta,firstauthor,vi,dp,pg_start50.94
Rule_2ta,vi,ip,dp,pg_start50.94
Rule_3ta,firstauthor,vi,ip,dp50.94
Rule_4ta,firstauthor,ip,dp,pg_start50.93
Rule_5ta,firstauthor,vi,ip,pg_start50.93
Rule_6ti_format,ta,vi,ip,dp50.91
Rule_7ta,firstauthor,ip,dp40.95
Rule_8ta,ip,dp,pg_start40.94
Rule_9ta,vi,ip,pg_start40.94
Rule_10ta,firstauthor,dp,pg_start40.94
Rule_11ta,firstauthor,vi,pg_start40.94
Rule_12ta,firstauthor,vi,ip40.94
Rule_13ti_format,ta,firstauthor,dp40.91
Rule_14ti_format,firstauthor,dp,pg_start40.90
Rule_15ti_format,ta,dp,pg_start40.90
Rule_16firstauthor,dp,pg_start30.96
Rule_17firstauthor,vi,pg_start30.95
Rule_18ta,firstauthor,pg_start30.95
Rule_19ti_format,firstauthor,dp30.92
Rule_20ti_format,ta,dp30.92
Rule_21ti_format,dp,pg_start30.91
Rule_22ti_format,ta,firstauthor30.91

新窗口打开| 下载CSV


5.4 多策略融合的引文规范处理

在利用多策略融合完成引文规范处理时,如果规则中的任一特征值为空,则该条记录不执行此条规则。并且,优先采用特征数多、准确率较高的规则(如Rule_1)进行引文数据规范;然后依次采用后续的规则(如Rule_2)处理未归并在一起的数据,这些未归并的数据可以归入已生成的引文子集,也可以新增一条引文子集。

5.5 结果分析

运用上述遴选的特征子集及融合策略,完成10 000条样本数据集和10 000条验证数据集的引文数据规范,规范后形成的引文子集分别为614个和489个,表示样本数据集和验证数据集分别指向614篇和489篇被引文献。基于融合策略自动规范的结果与引文数据专家审核结果对比,获得整个引文数据集规范的准确率AC,如表2所示。

表2   引文规范结果

Table 2  Results of Citation Standardization

数据规模(条)准确率AC
样本数据集10 00099.72%
验证数据集10 00098.70%

新窗口打开| 下载CSV


与单个特征子集相比,基于样本数据集采用决策树获得的多特征子集融合策略,实现了特征子集规则互补,降低了个别特征失范数据的干扰,提高了引文正确规范的规模和准确率。采用此方法进行验证数据集的规范,也达到了较高的准确率(98.70%),这说明该多特征子集融合的期刊引文处理方法具有一定的通用性。在CBMCI引文数据建设中,已采用该方法持续进行大规模期刊引文数据的自动归一,很大程度上减少了人工干预,同时提高了引文数据的规范程度,为CBMCI引文检索、引文分析、查引报告等提供了精确数据支持。此外,历史已规范的引文也可作为种子引文,纳入不断迭代规范的过程中,这将进一步提高期刊引文规范的准确率。

6 结语

本文基于引文著录规范及数据结构,采用决策树方法获取多特征子集,提出多策略融合的期刊引文规范策略。选取CBMCI的10 000条规范引文数据进行特征子集的提取与策略融合实验,同时选取10 000条验证数据集进行验证实验,两个数据集都取得了较高的引文规范准确率。这种多策略融合的期刊引文规范策略生成思路及结果,适用于大规模引文数据的自动归一与规范。

本文仅聚焦于中文期刊类型的引文数据规范,尚未考虑语种问题。原始引文还存在图书、专利、标准、会议论文、学位论文等众多类型,虽然期刊论文、图书、会议论文等不同类型引文的著录规则、涉及的核心特征及引文数据特点有所不同,但本文提出的特征融合的思路是通用的,也适用于生成其他类型引文的最优特征融合策略,仅在单个特征子集遴选和策略组合时会因各类型引文的基础特征不同而稍有差异。后续也将持续开展其他类型引文失范数据的处理研究。

作者贡献声明

李军莲:提出研究思路,设计研究方案,论文撰写及最终版本修订;

吴英杰:数据采集,进行实验方法的算法实现;

邓盼盼:设计实验方案,分析数据,撰写论文;

冷伏海:论文修订与审核。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail: wu.yingjie@imicams.ac.cn, li.junlian@imicams.ac.cn。

[1] 吴英杰. Source_Citation.accdb. 原始实验数据.

[2] 吴英杰. Result_Citation.accdb. 实验结果数据.

[3] 李军莲. review_Citation.xlsx. 审核结果数据.

[4] 李军莲. Rules_Citation.xlsx. 特征子集组合数据.

[5] 李军莲. Strategy_Citation.xlsx. 特征融合策略数据.

参考文献

中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会. GB/T 7714-2005文后参考文献著录规则[S].北京: 中国标准出版社, 2005.

[本文引用: 1]

( General Administration of Quality Supervision, Inspection and Quarantine of the People’s Republic of China, Standardization Administration of the People’s Republic of China. GB/T 7714-2005 Descriptive Rules for Bibliographic References[S]. Beijing: Standards Press of China, 2005.)

[本文引用: 1]

中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会. GB/T 7714-2015 信息与文献参考文献著录规则[S]. 北京: 中国标准出版社, 2015.

[本文引用: 1]

( General Administration of Quality Supervision, Inspection and Quarantine of the People’s Republic of China, Standardization Administration of the People’s Republic of China. GB/T 7714-2015 Information and Documentation- rules for Bibliographic References and Citations to Information Resources [S]. Beijing: Standards Press of China, 2015.)

[本文引用: 1]

刘应竹.

学术论文中的引文失范问题刍议

[J]. 编辑学报, 2014,26(1):7-9.

[本文引用: 1]

( Liu Yingzhu.

Citation Anomie in Academic Papers

[J]. Acta Editologica, 2014,26(1):7-9.)

[本文引用: 1]

胡玥.

引文统计分析中引文规范化问题分析研究

[J].图书与情报, 2013(6):84-88.

[本文引用: 1]

( Hu Yue.

Study of Citation Standard in Citation Analysis

[J]. Library & Information, 2013(6):84-88.)

[本文引用: 1]

赵萍, 徐平.

影响CSTPC数据库检索效率的原因及对策

[J].现代图书情报技术, 1999(4):35-36,66.

URL     [本文引用: 1]

根据1996-1998年我校利用中国科技论文与引文索引数据库(Chinese Scientific and Technical Papers and Citations Database,简称CSTPC)情况统计,发现用户满意率不足 10%,检索效果差,检索效率低。因而我们针对这种情况,从数据库结构、标引质量、更新速度等方面分析影响CSTPC检索效率的原因,并提出相应对策,提高检索效率。

( Zhao Ping, Xu Ping.

The Problems and Suggestions of Affecting the CSTPC Retrieving Efficiency

[J]. New Technology of Library and Information Service, 1999(4):35-36, 66.)

URL     [本文引用: 1]

根据1996-1998年我校利用中国科技论文与引文索引数据库(Chinese Scientific and Technical Papers and Citations Database,简称CSTPC)情况统计,发现用户满意率不足 10%,检索效果差,检索效率低。因而我们针对这种情况,从数据库结构、标引质量、更新速度等方面分析影响CSTPC检索效率的原因,并提出相应对策,提高检索效率。

苏新宁.

引文索引数据质量控制研究

[J]. 中国图书馆学报, 2001,27(2):76-78.

[本文引用: 1]

( Su Xinning.

Quality Control of Data in Citation Indexes

[J]. Journal of the Library Science in China, 2001,27(2):76-78.)

[本文引用: 1]

王凌云.

CSSCI被引文献数据质量问题的实证研究——以2007-2016年《图书情报工作》的被引数据为例

[J]. 图书情报导刊, 2019,4(8):64-70.

[本文引用: 1]

( Wang Lingyun.

An Empirical Study on Data Quality Problems of CSSCI Cited Documents: Taking the Cited Data of Library and Information Work from 2007 to 2016 as an Example

[J]. Journal of Library and Information Science, 2019,4(8):64-70.)

[本文引用: 1]

张友谊, 刘春 .

中文社会科学引文索引数据质量问题研究

[J]. 情报杂志,2012,31(1):21-24, 46.

[本文引用: 1]

( Zhang Youyi, Liu Chun.

Research on the Data Quality Problems of CSSCI

[J]. Journal of Intelligence, 2012,31(1):21-24, 46.)

[本文引用: 1]

蒋鸿标.

引文数据质量控制研究

[J]. 图书馆建设, 2014(9):81-86,91.

[本文引用: 1]

( Jiang Hongbiao.

Study on the Quality Control of Citation Data

[J]. Library Development, 2014(9):81-86, 91.)

[本文引用: 1]

中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会. GB/T 36067-2018 信息与文献引文数据库数据加工规则[S]. 北京: 中国标准出版社, 2018.

[本文引用: 1]

( General Administration of Quality Supervision, Inspection and Quarantine of the People’s Republic of China, Standardization Administration of the People’s Republic of China. GB/T 36067-2018 Information and Documentation-Specification for Data Processing of Citation Databases[S]. Beijing: Standards Press of China, 2018.)

[本文引用: 1]

任慧玲, 杨滨, 黄利辉, .

NSTL国际科学引文数据库医学外文期刊引文数据加工流程和加工技术研究

[J]. 医学信息学杂志, 2009,30(3):19-21.

[本文引用: 1]

( Ren Huiling, Yang Bin, Huang Lihui, et al.

Study on Work Flow and Technology of Processing of Foreign Medical Journals Citation Data in NSTL Database of International Science Citation

[J]. Journal of Medical Informatics, 2009,30(3):19-21.)

[本文引用: 1]

曾红英.

浅谈基于正则表达式的参考文献格式验证技术

[J]. 农业图书情报学刊, 2014,26(8):138-140.

[本文引用: 1]

( Zeng Hongying.

Discussion on the Regular Expression-Based Reference Format Verification Technology

[J]. Journal of Library and Information Sciences in Agriculture, 2014,26(8):138-140.)

[本文引用: 1]

王珊珊, 陈晨, 肖明.

基于本体的引文知识服务原型系统设计与实现

[J]. 图书情报工作, 2019,63(2):132-143.

[本文引用: 1]

( Wang Shanshan, Chen Chen, Xiao Ming.

Design and Implementation of Ontology-based Citation Knowledge Service Prototype System

[J]. Library and Information Service, 2019,63(2):132-143.)

[本文引用: 1]

鲜国建, 赵瑞雪, 金晨.

NSTL外文期刊引文数据自动化拆分的研究与实践

[J]. 数字图书馆论坛, 2010 ( 10):91-95.

[本文引用: 1]

( Xian Guojian, Zhao Ruixue, Jin Chen.

Study and Practice on Automatically Splitting of NSTL’s Foreign Journals’ Citation Data

[J]. Digital Library Forum, 2010(10):91-95.)

[本文引用: 1]

祝清松, 冷伏海.

引文类型识别研究进展

[J].图书情报知识, 2013(6):70-76.

[本文引用: 1]

( Zhu Qingsong, Leng Fuhai. Review of Citation Type Recognition[J]. Document, Information & Knowledge, 2013(6):70-76.)

[本文引用: 1]

姜霖, 王东波.

引文元数据的自动发现和标注方法研究——以外文引文为例

[J]. 数据分析与知识发现, 2017,1(1):47-54.

[本文引用: 1]

( Jiang Lin, Wang Dongbo.

Automatically Detecting and Tagging Foreign Language Citation Metadata

[J]. Data Analysis and Knowledge Discovery, 2017,1(1):47-54.)

[本文引用: 1]

Brennan D.

Simple Export of Journal Citation Data to Excel Using Any Reference Manager

[J]. Journal of the Medical Library Association, 2016,104(1):72-75.

[本文引用: 1]

Falagas M E, Pitsouni E I, Malietzis G A, et al.

Comparison of PubMed, Scopus, Web of Science, and Google Scholar: Strengths and Weaknesses

[J]. FASEB Journal, 2008,22(2):338-342.

[本文引用: 1]

Adriaanse L S, Rensleigh C.

Web of Science, Scopus and Google Scholar a Content Comprehensiveness Comparison

[J]. The Electronic Library, 2013,31(6):727-744.

[本文引用: 1]

明巧英.

基于决策树技术的个性化学习系统的分析设计

[J]. 微型电脑应用, 2018(1):53-57.

[本文引用: 1]

( Ming Qiaoying.

The Analysis and Design of the Personalized Learning System Based on Decision Tree

[J]. Microcomputer Applications, 2018(1):53-57.)

[本文引用: 1]

SinoMed在线帮助

[R/OL].[2020-02-01]. http://www.sinomed.ac.cn/help/ .

URL     [本文引用: 1]

(

SinoMed Online Help

[R/OL].[2020-02-01]. http://www.sinomed.ac.cn/help/ .)

URL     [本文引用: 1]

/

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn