Advanced Search

数据分析与知识发现  2018 , 2 (6): 58-69 https://doi.org/10.11925/infotech.2096-3467.2018.0354

研究论文

Altmetrics与引文指标相关性研究

吴朋民12, 陈挺123, 王小梅3

1中国科学院文献情报中心 北京 100190
2中国科学院大学 北京 100049
3中国科学院科技战略咨询研究院 北京 100190

The Correlation Between Altmetrics and Citations

Wu Pengmin12, Chen Ting123, Wang Xiaomei3

1National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2University of Chinese Academy of Sciences, Beijing 100049, China
3Institutes of Science and Development, Chinese Academy of Sciences, Beijing 100190, China

中图分类号:  P315 G312

通讯作者:  通讯作者: 王小梅, ORCID: 0000-0002-9895-1511, E-mail: wangxm@casisd.cn

收稿日期: 2018-03-29

修回日期:  2018-04-26

网络出版日期:  2018-06-25

版权声明:  2018 《数据分析与知识发现》编辑部 《数据分析与知识发现》编辑部

展开

摘要

目的】研究高质量期刊中论文的Altmetrics指标的相关特性, 包括与被引次数相关性、学科差异性、分项指标的贡献度等, 对比分析与已有基于全论文数据集分析结果的差异性, 为正确理解和使用Altmetrics指标提供借鉴。【方法】选取Nature Index的68种高质量期刊为数据源, 利用机器学习方法对论文进行学科分类, 采用Spearman相关性分析方法, 分析Altmetrics与被引次数之间的相关性及在各个学科中的差别, 以及Altmetrics各分项指标的贡献度, 并利用ROC曲线评估Altmetrics识别高被引论文的有效性。【结果】Altmetrics与被引次数的相关性存在学科差异; 高质量期刊中, 论文的Altmetrics分值与被引次数间的相关性增强; News、Blog、Twitter对Altmetrics得分的贡献度增大; Altmetrics有助于识别高被引论文。【局限】所选数据集覆盖年限较短, 未进一步根据学科特点扩展数据集。【结论】对比以往全数据集的研究结果, Altmetrics在高质量期刊中的表现具有独特性, Altmetrics与被引次数之间具有强相关性。

关键词: Altmetrics指标 ; 被引次数 ; 相关性分析 ; ROC曲线分析

Abstract

[Objective] This paper studies the characteristics of the Altmetrics for high quality journal articles, including their correlations with citation numbers, differences in disciplines, and the contribution of sub-indicators. These Altmetrics are also compared with previous results. [Methods] We selected 68 journals from Nature Index as data sources, and used machine learning method to classify papers published by them. Then, we used Spearman correlation test to find relationship between Altmetrics and traditional citation indexes, as well as the contributions of sub-indicators in various disciplines. Finally, we evaluated the effectiveness of using Altmetrics to identify highly-cited papers, with the help of ROC curve analysis. [Results] There were significant differences in the performance of Altmetrics among disciplines. In high-quality journals, the correlation between Altmetrics and citations were enhanced, and the contributions of News, Blog, and Twitter to the Altmetrics were also increased. Altmetrics could help us identify highly cited papers. [Limitations] The data collection period is short, and the data set needs to be expanded based on the characteristics of the disciplines. [Conclusions] Compared with previous research results of full data sets, Altmetrics for high-quality journal articles are unique, and the correlation between Altmetrics and citations is enhanced.

Keywords: Altmetrics Indicators ; Citation Counts ; Correlation Analysis ; ROC Curve Analysis

0

PDF (4743KB) 元数据 多维度评价 相关文章 收藏文章

本文引用格式 导出 EndNote Ris Bibtex

吴朋民, 陈挺, 王小梅. Altmetrics与引文指标相关性研究[J]. 数据分析与知识发现, 2018, 2(6): 58-69 https://doi.org/10.11925/infotech.2096-3467.2018.0354

Wu Pengmin, Chen Ting, Wang Xiaomei. The Correlation Between Altmetrics and Citations[J]. Data Analysis and Knowledge Discovery, 2018, 2(6): 58-69 https://doi.org/10.11925/infotech.2096-3467.2018.0354

1 引 言

Altmetrics是目前科学计量学与信息计量学领域内的研究热点, 具有指标多样性、开放程度高、数据反馈速度快、涉及学术资源类型多样等优势[1]。Altmetrics一经提出, 就被寄希望于能够弥补传统引文指标的不足, 国内外众多科研机构和研究人员围绕着Altmetrics与被引次数的相关性开展了大量的实证研究。Altmetric公司每年发布Top 100 Altmetrics高分论文[2], Nature Research每年对“最受全球媒体关注的100篇论文”进行深入解读。中国科学院科技战略咨询研究院战略情报研究所研制的“2016全球最受公众关注的科学成果”[3], 利用Altmetrics指标计量遴选出天文学与天体物理、物理学、化学、地球科学、生命科学5个学科中受到科技界热切关注的科学成果。这些都是对Altmetrics指标较好的应用实例。

Altmetrics指标反映论文什么特性?其与传统的引用指标的关系如何?这一直是文献计量界希望解决的问题, 对此已有不少学者进行研究。研究发现, 从全数据集的角度分析, 不论是全领域还是某个领域中, Altmetrics与被引次数的相关性并不高, 特别是来源于Blog、Twitter、Facebook等社交媒体的指标数据与被引次数的相关性非常低[4,5,6,7,8,9,10,11,12,13,14,15,16]。在分项指标对Altmetrics的贡献度上看, Costas等[11,12]、Hassan等[13]和余厚强[16]分别使用全领域的数据探究各分项指标与Altmetrics得分之间的关系, 发现Twitter与Altmetrics得分的相关系数最高在0.8-0.9之间, Facebook、News、Blog与Altmetrics得分的相关系数在0.2-0.4之间, Peer Review、Google+与Altmetrics得分的相关系数接近于0.2。

随着科学技术的迅猛发展, 研究论文数量暴增, 科研人员往往希望跟踪学科领域中的前沿论文, 通常关注权威或高质量期刊中的论文。通过研究发现, Altmetrics在高质量期刊特别是三大综合性期刊(NatureSciencePNAS)中, 其特性较全数据集中的表现具有独特性, 尤其是具有明显的学科差异性, 和人类健康、环境息息相关的生命科学的论文Altmetrics分值最高, 地球与环境科学次之, 两者的Altmetrics均远超天文学与天体物理学、物理学及化学。比如在Top 100 Altmetrics论文中, 大部分和生命科学相关。

因此, 本文研究高质量期刊中论文的Altmetrics指标的相关特性, 并分学科进行研究。以往的研究中因综合性期刊中的论文大多对应多个学科类别, 数据无法归类, 多作剔除处理。本文首先利用机器学习的方法对综合性期刊及多学科期刊中的论文进行学科归类处理, 接着从不同学科多个层面分析高质量期刊中论文的Altmetrics与被引次数的相关性、Altmetrics是否有助于识别高被引论文, Altmetrics的学科差异性, Altmetrics分项指标对Altmetrics得分的贡献度等, 对比分析与已有基于全论文数据集分析结果的差异性, 为正确理解和使用Altmetrics指标提供借鉴, 为发现或跟踪学科热点提供参考。

2 国内外相关研究现状

传统引文指标展示的是学术成果发表后被其他论文引用的情况, 是科研成果学术影响力的直接体现; 而一篇论文拥有较高的Altmetrics数值, 除了能够说明它在社交网络上得到了大量关注之外, 是否还说明该论文同时拥有较高的学术影响力[5]?为了解答这一疑问, 通常的做法是探究Altmetrics与文献引用指标之间是否存在相关性[6]。如果二者之间存在相关性, 则能在一定程度上表明Altmetrics可以作为衡量论文学术价值的早期潜在指标; 反之, 则说明Altmetrics表征的是论文其他方面的影响力[5]

国外学者在研究Altmetrics与传统文献计量指标的相关性方面取得了一定的研究成果。Barilan等[7]以图书情报领域的某一期刊论文为数据集, 计算得到Mendeley读者数与WoS被引次数之间相关系数为0.46, 呈中等程度相关。Haustein等[8]基于PubMed和WoS收录的140万篇生物医学领域的学术论文, 分析Twitter与引文指标之间的相关关系, 发现PubMed收录的文献在Twitter中的提及量不足10%, 并且Twitter与被引次数的相关性很低。Ortega[9]分析10 000名西班牙国家委员会学者的学术成果, 发现Altmetrics表现出较强的平台依赖性, 反映出学术论文在社会网络中被关注的程度, 与被引次数的相关性偏低。Sotudeh等[10]以WoS中图书情报领域2004年-2012年间发表的文献为数据源, 分析CiteULike与引文指标之间的相关性, 计算发现WoS被引次数与CiteULike的相关系数在0.4左右。Costas等从多学科角度分析Altmetrics和被引量之间的关系, 发现二者之间存在正相关关系, 但相关性较弱[11]。并基于WoS引文数据和Altmetrics各指标数据统计后发现, Blogs、Google+等指标在交叉学科领域表现较好, 而在工程类学科覆盖率偏低[12]。Hassan等[13]以Scopus数据库中15个学科领域的论文为数据源, 利用零截断负二项回归模型分析多个Altmetrics指标与传统引文指标之间的相关性, 发现Blog、Facebook与被引次数之间呈弱正相关关系, 而News、Twitter与被引次数呈负相关关系。

同国外研究类似, 中国学者也围绕着Altmetrics与传统引文指标之间的相关性进行大量的数据分析与实证研究。由庆斌等[14]利用PLoS和F1000的论文数据, 探讨Altmetrics 得分与引用指标之间的关系, 结果表明, Altmetrics 得分与引用指标存在正相关关系, 且在评价论文时具有一定的一致性。王睿等[5]引入“公平测试”方法, 利用273篇WoS样本论文进行Altmetrics和引文指标的相关性分析, 通过比较分析后发现, Altmetrics和引文指标反映出读者对文献的不同关注方向。刘晓娟等[15]以“Data Mining”为检索词, 得到Mendeley与WoS两大平台的交叉文献集合, 然后分别对被引次数与阅读数、被引次数与标签数进行相关性检验, 结果发现传统引用数据与Mendeley中的阅读数和标签数均存在弱相关性, 说明以阅读数和标签数为代表的Altmetrics指标可以在一定程度上评估文献的影响力。余厚强[16]以441万多条Altmetrics数据为基础, 分别在2012年1月、2013年1月和2014年1月三个时间段内, 采集27个学科的18种补充计量指标和Scopus引文量数据, 大规模考察补充计量指标与引文量的相关性, 结果发现在线参考文献平台阅读量指标与引文量相关系数最大(${{\rho }_{Mendeley}}=0.614$), 其他补充计量指标均与引文量呈非常弱的正相关性(0<$\rho <0.2$), 相关系数存在显著差异。

通过总结与分析已有研究Altmetrics与引文指标相关关系的文献, 可以看出Altmetrics与被引次数之间仅存在弱相关关系, Altmetrics更多反映学术论文在社会网络中受关注程度, 是传统引文指标的一种有效补充。但在上述研究中所选择的数据集大多是基于某一数据库平台收录或某一领域发表的学术论文, 所得结论具有一定的局限性。考虑到在实际科研过程中, 研究人员更多关注的是高质量论文, 因此本文以高质量期刊上发表的论文为研究对象, 分析Altmetrics与论文被引次数之间的关系, 探讨高质量期刊文献获得高Altmetrics得分的原因, 为合理利用Altmetrics进行论文的影响力评价提供借鉴。

3 数据准备

3.1 数据收集

本研究探讨高质量期刊中论文的Altmetrics与被引次数的相关关系及不同学科之间的差异性, 由于获取每个学科的高质量期刊列表工作量较大, 不仅需要领域专家的参与, 而且应该有严格的筛选流程。因此,选用Nature Index[17]遴选的68种期刊上发表的论文作为数据源, 所有期刊由自然科学界主要学科中的专家遴选, 并向全世界100 000名科学家发送网上问卷验证。虽然被选出的68种期刊还不足期刊引用报告(Journal Citation Reports)所收录期刊数量的1%, 但是这些期刊论文被引用次数的贡献已接近30%。

考虑到学术论文从发表到被引用有一定时间差,因而首先在Web of Science核心合集中获取2014年-2015年论文的题录信息及被引次数; 然后利用文章的DOI在Altmetric.com平台中获取论文的各项Altmetrics指标数据; 删除无Altmetrics分值的数据后, 最终获得67 813条有效数据, 匹配率达到60.27%。数据获取时间为2017年12月16日-21日。

3.2 指标选取

Altmetric.com是单篇论文Altmetrics数据的分析工具, 共使用18个网络计量指标, 但考虑到CiteULike、Pinterest、LinkedIn等11个指标的数据量偏少、稳定性较差[14,15,16,17,18,19,20,21], 本文只选取其中7个计量指标进行相关研究。需要注意的是, Altmetrics.com平台虽然提供了Mendeley数据, 但在计算Altmetrics得分时并未将其考虑在内, 因此, Mendeley并不是Altmetrics得分的分项指标数据。本文涉及的文献计量指标如下:

(1) 被引次数(TC): 论文获得的总被引次数。

(2) Altmetrics得分(AS): 由论文的各Altmetrics分项指标数据加权得到。

(3) News Score(NS): 论文在主流媒体或杂志中被提及的次数。

(4) Blog Score(BS): 论文在博客上被讨论的次数。

(5) Peer Review Score(PS): 论文在同行评议平台中受到评议的次数。

(6) Wikipedia Score(WS): 论文在维基百科中被提到的次数。

(7) Twitter Score(TS): 论文被Twitter用户转发或重传的总次数[19]

(8) Mendeley Score(MS): 论文在Mendeley平台中被用户保存的次数[18]

3.3 综合期刊论文的学科分类方法

Nature Index官方收录的期刊主要包含4个学科领域: 物理、化学、地球与环境科学和生命科学。其中天文学与天体物理学在物理学中占比较大, 而古生物学的Altmetrics指标在生命科学中非常突出。为了更好地发现各学科特点, 本文将天文学与天体物理学和古生物学作为单独学科领域进行分析, 共计6个学科。

部分论文可使用期刊的学科进行归类, 但存在一种期刊同时属于多个学科的情况。此外, 4种综合性期刊: NatureSciencePNASNature Communications无法使用期刊分类对每篇文章分类, 其他相关研究中也因分类困难, 一般将综合期刊的论文归入综合类, 但这些综合期刊中的论文往往在各种学科中有较高的影响力。为了更准确地揭示各学科的Altmetrics特点, 本文的论文分类不采用期刊分类, 而使用机器学习方法, 通过训练机器学习模型对相关论文进行自动分类。

机器学习分类模型训练方法如下。

(1) 每个学科领域咨询了相应专家, 选取学科领域内具有代表性的期刊论文各2 000篇(约为近5年的论文发表量, 不同期刊时间跨度略有不同), 共6个领域12 000篇论文作为训练样本, 如物理分类选用Physical Review Letters发表的论文、化学分类选用Journal of the American Chemical Society中发表的论文, 生命科学领域因涵盖范围较广, 因此笔者选择7种期刊中发表的论文, 认为都是各自领域内具有代表性的。

(2) 使用LSA隐形语义模型对相关论文的题名、摘要和关键词抽取文本特征, 同时使用这些论文的各自学科分类作为样本分类标签, 通过机器学习算法学习发现各自学科领域中论文文本特征与学科分类的关系。本文分别训练与学习朴素贝叶斯、支持向量机和决策树三种分类模型, 流程如图1所示。

图1   机器学习论文分类流程图

   

通过对比验证, 支持向量机模型在交叉验证中分类效果最好, F1指标高达98.3%。并请相关领域情报分析人员对分类结果进行判读, 也认为具有比较好的分类效果。因为机器学习模型对单篇论文分类效果较好, 本研究利用训练的支持向量机完成全部分析论文的分类, 每篇论文会被该模型分到一个对应的类中, 而不再使用论文所属期刊分类作为每篇论文的分类。

3.4 文献计量指标的统计分析

为了全面深入地分析Altmetrics在学术论文影响力评价中的作用, 首先对各文献计量指标在样本数据集中的分布情况进行分析。

(1) 文献计量指标的分布情况

表1显示各文献计量指标的分布统计。指标覆盖率指某一指标非0值的文献数占文献总数的比例, 可以在一定程度上反映该指标在学术论文影响力评价中的可用性[20]

表1   文献计量指标的分布统计

   

指标TCASMSNSBSPSWSTS
最大值4 9016 42213 421256124245210 439
最小值0.000.250.000.000.000.000.000.00
中位数1733200002
均 值29.7928.3261.042.000.680.010.1211.67
标准差53.9896.40152.796.642.240.102.0968.56
覆盖率99.2%100.0%99.7%29.6%25.0%1.0%6.6%92.7%

新窗口打开

根据表1可知, 在样本数据集中, 被引次数的指标覆盖率高达99.2%, 远远高于以往相关研究的统计 值[20], 说明质量越高的论文越容易获得学者的引用, 此数据集用于分析Altmetrics和被引次数的相关性也具有合理性; 99.7%的文献在Mendeley中被用户阅读过, 92.7%的文献在Twitter中被提及, 29.6%的文献被主流新闻媒体报道, 25.0%的文献在博客中被转发, Wikipedia、Peer Review的指标覆盖率偏低, 仅为6.6%、1.0%; Mendeley用户阅读数据的均值和指标覆盖率均大于其他指标, 说明在高质量期刊中具有Altmetrics分值的论文, 都比较受学者关注。

(2) 不同学科中文献计量指标的覆盖率

表2显示不同学科中文献计量指标的覆盖率。各学科中Altmetrics得分、Mendeley、被引次数、Twitter等指标覆盖率较高, 其次是News、Blog等指标, Wikipedia、Peer Review两个指标的覆盖率偏低, 整体分布与全样本数据集相似。但在古生物学中, 各指标的覆盖率几乎均高于其他学科, 比如News的覆盖率为74.2%, Blog的覆盖率为66.2%, Wikipedia的覆盖率为35.4%; 在古生物学、地球与环境科学和生命科学中, News、Blog 的覆盖率明显高于其他学科。

表2   不同学科文献计量指标的覆盖率统计

   

学科NTCASMSNSBSPSWSTS
化学19 58799.4%100%99.9%15.2%17.9%0.3%2.8%91.7%
物理学10 49498.7%100%99.5%27.9%17.5%0.2%4.6%89.6%
天文学与天体物理学6 05497.8%100%98.5%23.5%20.4%0.1%13.7%87.8%
地球与环境科学6 08898.8%100%99.6%41.6%37.0%0.3%6.6%93.8%
古生物学63999.4%100%100.0%74.2%66.2%1.6%35.4%98.7%
生命科学24 95199.6%100%99.9%39.1%30.8%2.3%7.9%95.5%

新窗口打开

4 相关性分析与结果

相关性分析是指对两个或多个具备相关性的变量元素进行分析, 从而衡量两个变量因素的相关密切程度, 常用相关系数表示[21]。相关系数的绝对值越大, 说明两个变量的相关性越强, 相关系数的取值在[-1,+1]之间, 当数值越接近-1或+1, 说明关系越紧密; 接近于0时, 说明关系不紧密[22]。一般情况下, 相关系数的绝对值小于0.2时表示极弱相关或不相关, 在0.2~0.4之间时表示弱相关, 在0.4~0.6之间时表示中等程度相关, 在0.6~0.8之间时表示强相关, 大于0.8时表示极强相关[23]

由于Altmetrics分值较高的论文大部分集中于NatureSciencePNAS等综合期刊, 并且这些综合期刊是影响因子和篇均被引次数较高的权威期刊。因此, 为深入探讨Altmetrics在高质量期刊论文中的表现情况, 本研究从68种高质量期刊和3种综合性期刊(NatureSciencePNAS)两个层面分析Altmetrics与被引次数的相关关系, 并与已有研究结果进行对比分析。

4.1 Altmetrics与被引次数的相关性分析

(1) 正态性检验

常用的相关性分析方法主要有Spearman方法和Pearson方法, 其中Spearman方法是一种无参数、与分布无关的分析方法; 而使用Pearson方法进行相关性分析时, 样本数据需服从正态分布。为了选择合适的相关性分析方法, 首先要对样本数据进行正态性检测。本文利用SPSS 19.0, 使用K-S单样本正态性检验方法对统计数据进行检测, 结果如表3所示。

表3   文献计量指标单样本Kolmogorov-Smirnov检验

   

对比项目TCASNSBSPSWSTSMS
Kolmogorov-Smirnov Z75.65100.3799.3399.11138.02124.33112.6089.78
渐进显著性(双侧)0.000.000.000.000.000.000.000.00

新窗口打开

可以看出, 样本数据的显著性水平小于0.05, 不服从正态分布。另外, 一篇学术论文在社会网络中受关注程度受多种因素的影响, 可以取任意值, 是一个连续型变量, 并且不同学科的论文在社会网络中受关注程度存在显著差异。因此, 本文选用Spearman 相关性分析方法验证各指标间的相关性。

(2) Altmetrics与被引次数的相关性分析

利用SPSS统计分析工具计算Altmetrics与被引次数之间的相关系数, 分析它们之间的相关性在高质量期刊中的表现情况。各计量指标与被引次数之间的Spearman相关系数如表4所示。

表4   Altmetrics指标与被引次数的相关系数

   

Spearman相关系数68种期刊3种综合性期刊增长率
AS.362**.458**26.5%
MS.640**.691**8.0%
NS.302**.386**27.8%
BS.284**.404**42.3%
PS.078**.128**64.1%
WS.147**.247**68.0%
TS.280**.451**61.1%

(注: **在置信度(双测)为0.01时, 相关性是显著的; *在置信度(双测)为0.05时, 相关性是显著的。)

新窗口打开

对比已有研究结果, Altmetrics得分、Mendeley、Twitter和被引次数的相关系数分别为0.184[11]、0.46[7]、0.167[11], News、Blog、Wikipedia等指标与被引次数的相关系数小于0.1[8-11,21]。从表4可以看出, 在68个高质量期刊中, Altmetrics与被引次数的相关性均有一定程度的提高, 特别是在3种综合性期刊中, Altmetrics得分、Twitter、Blog等计量指标与被引次数的相关系数均增大到0.4以上, 处于中等相关水平, 远高于以往基于大量论文数据的分析结果, 说明在高质量期刊中, Altmetrics与被引次数之间的相关性增强, 并且Wikipedia、Peer Review、Twitter 三个指标与被引次数的相关系数变化幅度较大。

(3) 不同学科中Altmetrics与被引次数相关性 分析

表5显示不同学科Altmetrics与被引次数的关系。此处, 笔者以68种期刊中Altmetrics得分与被引次数的相关系数为例, 发现地球与环境科学、生命科学中Altmetrics与被引次数的相关性较高, 分别为0.509和0.463; 化学、天文学与天体物理学中Altmetrics与被引次数的相关性较低, 显示出不同学科之间存在差 异性。

表5   不同学科Altmetrics指标与被引次数的相关系数

   

学科化学物理学天文学与天体物理学地球与环境科学古生物学生命科学
AS68种期刊.227**.396**.271**.509**.395**.463**
3种综合性期刊.494**.490**.458**.417**.482**.493**
增长率117.6%23.7%69.0%-18.1%22.0%6.5%
MS68种期刊.642**.658**.633**.695**.674**.714**
3种综合性期刊.738**.784**.533**.675**.703**.707**
增长率15.0%19.2%-15.8%-2.9%4.3%-1.0%
NS68种期刊.209**.342**.237**.435**.365**.361**
3种综合性期刊.437**.448**.442*.365**.460*.399**
增长率109.1%31.0%86.5%-16.1%26.0%10.5%
BS68种期刊.216**.298**.230**.411**.408**.331**
3种综合性期刊.410**.440**.434**.372**.483**.426**
增长率89.8%47.7%88.7%-9.5%18.4%28.7%
PS68种期刊.026**0.0190.0040.0140.059.113**
3种综合性期刊0.006-0.0160.030.0110.097.170**
增长率-76.9%-184.2%650.0%-21.4%64.4%50.4%
WS68种期刊.081**.171**.151**.181**.355**.196**
3种综合性期刊.206**.275**.343**.177**.412**.268**
增长率154.3%60.8%127.2%-2.2%16.1%36.7%
TS68种期刊.069**.225**.187**.479**.387**.431**
3种综合性期刊.465**.446**.282**.421**.495**.502**
增长率573.9%98.2%50.8%-2.2%27.9%16.5%

(注: **在置信度(双测)为0.01时, 相关性是显著的; *在置信度(双测)为0.05时, 相关性是显著的。)

新窗口打开

从学科的角度来看, 从数据全集到68种期刊再到3种综合性期刊: 在古生物学中, Altmetrics与被引次数的相关性均增强, 这与正态性检验的结果一致; 在地球与环境科学中, Altmetrics与被引次数的相关性均减弱; 在化学和物理学中, Peer Review与被引次数的相关性减弱, 其余计量指标与被引次数的相关性增强; 在天文学与天体物理学和生命科学中, Mendeley与被引次数的相关性减弱, 其余计量指标与被引次数的相关性增强。

4.2 Altmetrics与高被引论文的关系分析

通过以上分析, 笔者发现Altmetrics与被引次数之间存在正相关关系, 并且文献的质量越高, 越容易在社会网络中受到关注。笔者进一步探索Altmetrics与被引次数之间有无更直接的关系, 即Altmetrics能否用于识别高被引论文(①本文高被引论文的确定原则为: 对6个学科领域中的论文按被引次数降序排列, 将被引次数前1%的论文遴选为高被引论文。), 以及这种特性是否存在学科差异性。鉴于利用Altmetrics预测某一篇文献是否为高被引论文只有两种结果——高被引论文和非高被引论文, 是一个二分类问题, 同时考虑到样本数据集中非高被引论文所占的比例远高于高被引论文, 因此利用ROC曲线分析方法评估Altmetrics识别高被引论文的准确性。

受试者工作特征(Receiver Operating Characteristic, ROC)曲线通过将连续变量设定出多个不同的临界值, 进而计算出一系列敏感度和特异性, 再以敏感度为纵坐标、1-特异性为横坐标绘制而成[24]。一般情况下, ROC曲线下面积AUC(Area Under the ROC Curve)能够客观评价预测指标的优劣, AUC值越大, 表示该预测指标的准确度越高。通常认为: AUC的取值范围在0.5~1.0, AUC=0.5是完全无价值的预测, AUC=1是完全理想的预测; 在0.5~0.7范围内, 表示预测准确性较低; 在0.7~0.9时, 表示预测准确性中等; 在0.9以上时表示预测准确性较高[25]

(1) Altmetrics与高被引论文的相关性分析

图2表6显示利用ROC曲线分析方法评估Altmetrics识别高被引论文的结果。

图2   Altmetrics指标识别高被引论文的ROC曲线

   

表6   Altmetrics指标的AUC值

   

指标ASMSNSBSPSWSTS
AUC0.7960.9340.7540.7470.5320.6540.742

新窗口打开

可以看出, 各Altmetrics指标均可在一定程度上识别高被引论文, 并且各Altmetrics指标的AUC值排列顺序为Mendeley>Altmetrics得分>News>Blog>Twitter>Wikipedia>Peer Review。结合表6, Mendeley的AUC值为0.934, 说明学术社交网络平台上的用户阅读行为与学者的引用行为关联最为密切, 利用Mendeley的用户阅读数据可以较好地预测学术论文未来的引用情况; Altmetrics得分、News、Blog和Twitter的AUC值分别为0.796、0.754、0.747、0.742, 表明这4个计量指标也可以作为区分高被引论文的显著指标; Wikipedia和Peer Review的AUC值均小于0.7, 利用它们筛选高被引论文会出现较大偏差。

(2) 不同学科Altmetrics与高被引论文的相关性 分析

为进一步分析在不同学科之间Altmetrics识别高被引论文的表现情况, 绘制6个学科领域中Altmetrics的ROC曲线, 统计不同学科各Altmetrics指标的AUC值, 结果如图3表7所示。

图3   不同学科Altmetrics指标识别高被引论文的ROC曲线

   

表7   不同学科Altmetrics指标的AUC值

   

学科化学物理学天文学与天体物理学地球与环境科学古生物学生命科学
AS0.7280.8620.7030.9280.9550.893
MS0.9550.9610.9300.9610.9990.943
NS0.7110.7910.6260.8960.9370.820
BS0.6460.7830.6590.9060.9560.840
PS0.5090.4990.4990.4980.4920.566
WS0.5680.7290.6270.6840.8180.702
TS0.6080.7700.7210.9100.9590.905

新窗口打开

结合图3表7, 在化学、天文学与天体物理学中, Mendeley的AUC值最大, 识别高被引论文的准确性最高, 而其他计量指标遴选高被引论文的结果并不理想; 在地球与环境科学中, 除Wikipedia、Peer Review外, 其他计量指标的AUC值都大于0.8, 说明在该学科中利用Altmetrics遴选高被引的效果较好; 在物理学、古生物学和生命科学三个学科中, 除Peer Review外, 其他计量指标的AUC值都大于0.7, 表明这些指标都可以作为识别高被引论文的有效指标。

4.3 Altmetrics分项指标与Altmetrics得分的相关性分析

笔者利用SPSS统计分析工具计算各分项指标与Altmetrics得分的相关系数, 分析各分项指标对Altmetrics得分的贡献度的表现情况。

(1) 各分项指标对Altmetrics得分的贡献度分析

表8显示各分项指标对Altmetrics得分的贡献度。不管是68种高质量期刊还是3种综合性期刊, News对Altmetrics得分的贡献度最大, 其次是Blog、Twitter, 也就是说Altmetrics得分高的论文往往是被主流新闻媒体报道次数较多的论文。这是因为主流新闻媒体对一篇论文的报道通常比较详细, 不仅提供了论文中的研究方法和研究数据等细节信息, 还对论文进行了深度的评论[7], 更容易引起相关学者的重视。

表8   各分项指标对Altmetrics得分的贡献度分析

   

Spearman相关系数68种期刊3种综合性期刊增长率
NS.780**.927**18.8%
BS.672**.837**24.6%
PS.093**.113**21.5%
WS.253**.339**34.0%
TS.674**.807**19.7%

(注: **在置信度(双测)为0.01时, 相关性是显著的。*在置信度(双测)为0.05时, 相关性是显著的。)

新窗口打开

Costas等[11]、杨柳等[26]、Hassan等[13]研究发现, News、Blog、Twitter和Altmetrics得分的相关系数分别是0.175、0.343、0.591, Wikipedia和Peer Review与Altmetrics得分的相关系数均小于0.2。而在68种高质量期刊中, 各分项指标与Altmetrics得分的相关性均有显著提高, 尤其在3种综合性期刊中, News、Blog、Twitter与Altmetrics得分相关性均增大到0.8以上, 说明Altmetrics分值越高的学术论文, 其被主流新闻媒体、Blog和Twitter推荐转发的次数越多, 这与Altmetrics在各分项指标的综合评分权重设计也有直接关联。在Altmetrics中, 论文被News报道一次计8分, Blog提及一次计5分, Twitter转发一次计1分, Wikipedia提及一次计3分等。News如此高的权重在Altmetrics高分论文的贡献中体现出重要性, 需要引起学者的注意。此外, 对比68种期刊和3种综合性期刊, 发现Wikipedia、Blog、Peer Review在Altmetrics得分的计算过程中变化幅度较大。

(2) 不同学科各分项指标对Altmetrics得分的贡献度分析

表9显示不同学科各分项指标对Altmetrics得分的贡献度。分析每个学科各分项指标对Altmetrics得分的影响情况, 结果发现其与整个样本数据集有相似的统计规律: News对Altmetrics得分贡献最大, 其次是Blog、Twitter。

表9   不同学科各分项指标对Altmetrics得分的贡献度分析

   

学科化学物理学天文学与天体物理学地球与环境科学古生物学生命科学
NS68种期刊.604**.782**.731**.866**.963**.837**
3种综合性期刊.941**.959**.981**.954**.972**.895**
增长率55.8%22.6%34.2%10.2%0.9%6.9%
BS68种期刊.600**.606**.657**.747**.906**.712**
3种综合性期刊.794**.813**.865**.840**.917**.812**
增长率32.3%34.2%31.7%12.4%1.2%14.0%
PS68种期刊.042**.035**.029*0.022.120**.111**
3种综合性期刊0.0180.0500.0340.0240.110.163**
增长率-57.1%42.9%17.2%9.1%-8.3%46.8%
WS68种期刊.193**.234**.345**.269**.501**.238**
3种综合性期刊.252**.322**.481**.327**.547**.299**
增长率30.6%37.6%39.4%21.6%9.2%25.6%
TS68种期刊.503**.486**.495**.761**.866**.769**
3种综合性期刊.728**.701**.739**.775**.871**.819**
增长率44.7%44.2%49.3%1.8%0.6%6.5%

(注: **在置信度(双测)为0.01时, 相关性是显著的; *在置信度(双测)为0.05时, 相关性是显著的。)

新窗口打开

同时, 笔者注意到不同学科之间各分项指标对Altmetrics得分的贡献度存在一定差异。3种综合性期刊与68种期刊相比: 在化学中News在Altmetrics得分的计算过程中变化幅度较大, 在物理学、天文学与天体物理学中Twitter的变化幅度较大, 在地球与环境科学、古生物学中Wikipedia的变化幅度较大, 在生命科学中Peer Review的变化幅度较大; 另外, 在化学和古生物学中Peer Review对Altmetrics得分的贡献度减弱, 而在其他学科中Peer Review对Altmetrics得分的贡献度均增强。

5 结 论

本文以发表在高质量期刊中的学术论文为研究对象, 从不同学科多个层面考察Altmetrics与引文指标之间的相关关系, 并与以往基于大量论文数据集的统计结果进行对比, 深入探讨Altmetrics与引文指标之间相关性的变化情况。通过上述分析, 本文发现:

(1) 当学术论文质量增加时, 论文的Altmetrics与被引次数之间相关性显著增强, 说明发表在权威期刊上的学术论文更容易在社交网络上获得大量关注。

(2) ROC曲线分析表明在一定程度上高Altmetrics数值能够作为学术论文未来是否获得高被引次数的风向标, 其中, Mendeley、Altmetrics得分、News等指标识别高被引论文的效果较好。

(3) 通过Altmetrics分项指标对Altmetrics得分的贡献度分析, 发现News和Blog对Altmetrics得分的贡献度最大, 说明Altmetrics得分高的论文多是被主流新闻媒体和博客报道次数较多的论文, 并且学术论文的质量越高, 这种趋势越显著。

研究结果揭示了Altmetrics在高质量期刊上的优异表现, 为后续快速发现高被引论文或者跟踪热点前沿时, 在数据源和指标的选择上提供了参考。但是不同学科之间, Altmetrics的表现也存在学科差异性。因此, 在利用Altmetrics进行相关研究时一定要根据不同学科的特点灵活选择适合的Altmetrics指标。

然而, 笔者注意到Altmetrics并不能完全取代引文指标的地位, 仅能够从不同角度揭示学术论文影响力的内涵, 对传统引文指标起到良好的补充作用, 因为即使在NatureSciencePNAS三种综合期刊层面上分析, 大多数Altmetrics分项指标与被引次数之间仅存在弱正相关关系。另外, 本文仅选取Nature Index的68种期刊论文作为样本数据, 受限于Nature Index的期刊遴选, 可能会遗漏一些学科中的高质量期刊, 结果可能有所偏颇, 有待未来根据每个学科的特点, 遴选能代表本学科的高水平期刊, 构建更加合理、有效的数据集, 开展更为全面、细致、深入的后续研究。

作者贡献声明

吴朋民: 设计研究框架, 分析数据, 起草与修订论文;

陈挺: 收集数据, 综合性期刊论文分类, 修订论文;

王小梅: 提出研究选题, 修订论文。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: wupengmin@mail.las.ac.cn。

[1] 吴朋民. NI_paper.xlsx. 样本数据集.

[2] 吴朋民. NI_paper_实验结果.xlsx. 实验运行结果数据.


参考文献

[1] Bornmann L.

Do Altmetrics Point to the Broader Impact of Research? An Overview of Benefits and Disadvantages of Altmetrics

[J]. Journal of Informetrics, 2014, 8(4): 895-903.

https://doi.org/10.1016/j.joi.2014.09.005      URL      [本文引用: 1]      摘要

Today, it is not clear how the impact of research on other areas of society than science should be measured. While peer review and bibliometrics have become standard methods for measuring the impact of research in science, there is not yet an accepted framework within which to measure societal impact. Alternative metrics (called altmetrics to distinguish them from bibliometrics) are considered an interesting option for assessing the societal impact of research, as they offer new ways to measure (public) engagement with research output. Altmetrics is a term to describe web-based metrics for the impact of publications and other scholarly material by using data from social media platforms (e.g. Twitter or Mendeley). This overview of studies explores the potential of altmetrics for measuring societal impact. It deals with the definition and classification of altmetrics. Furthermore, their benefits and disadvantages for measuring impact are discussed.
[2] Altmetrics Top 100 Articles [DS/OL]. [2017-12-16]..

URL      [本文引用: 1]     

[3] 中国科学院科技战略咨询研究院.

2016全球最受公众关注的科学成果

[R/OL]. (2017-06-17). [2017-12-16]. .

URL      [本文引用: 1]     

(Institute of Science and Development, Chinese Academy of Sciences.

2016 The World’s Most Popular Scientific Achievements

[R/OL]. (2017-06-17). [2017-12-16].

URL      [本文引用: 1]     

[4] 王鹏飞, 刘烜贞.

基于内容分析的Altmetrics 本质研究

[J].图书情报工作, 2017, 61(2): 114-120.

[本文引用: 1]     

(Wang Pengfei, Liu Xuanzhen.

Research on Altmetrics’Essence Based on Content Analysis

[J]. Library and Information Service, 2017, 61(2): 114-120.)

[本文引用: 1]     

[5] 王睿, 胡文静, 郭玮.

高Altmetrics指标科技论文学术影响力研究

[J]. 图书情报工作, 2014, 58(21): 92-98.

https://doi.org/10.13266/j.issn.0252-3116.2014.21.013      URL      [本文引用: 4]      摘要

引入"公平性测试"方法以消除时间窗口对被引次数的影响。以高Altmetrics指标论文作为样本,选取与样本论文发表在同一期刊同一期上前后两篇论文作为参照。利用Altmetric.com、Web of Science分别获取273篇样本及参照论文的Altmetric分数、底层数据值和被引用次数。通过比较分析后发现:Altmetrics和引文数两种指标反映出读者对文献的不同关注方向,底层数据源中大众媒体对于Altmetric分数的影响最明显,高Altmetrics指标论文同时具有较高的学术影响力。作为一种早期指标,高Altmetrics指标在一定程度上能够被视作文章在未来获得高被引的风向标。

(Wang Rui, Hu Wenjing, Guo Wei.

Research on Academic Influence of High Altmetrics Sci-Tech Papers

[J]. Library and Information Service, 2014, 58(21): 92-98.)

https://doi.org/10.13266/j.issn.0252-3116.2014.21.013      URL      [本文引用: 4]      摘要

引入"公平性测试"方法以消除时间窗口对被引次数的影响。以高Altmetrics指标论文作为样本,选取与样本论文发表在同一期刊同一期上前后两篇论文作为参照。利用Altmetric.com、Web of Science分别获取273篇样本及参照论文的Altmetric分数、底层数据值和被引用次数。通过比较分析后发现:Altmetrics和引文数两种指标反映出读者对文献的不同关注方向,底层数据源中大众媒体对于Altmetric分数的影响最明显,高Altmetrics指标论文同时具有较高的学术影响力。作为一种早期指标,高Altmetrics指标在一定程度上能够被视作文章在未来获得高被引的风向标。
[6] 卫垌圻, 谭宗颖.

Altmetrics国内外研究中的问题与挑战

[J].图书情报工作, 2015, 59(2): 93-99.

https://doi.org/10.13266/j.issn.0252-3116.2015.02.015      URL      [本文引用: 2]      摘要

[目的/意义]试图了解当前 Altmetrics研究中的主要问题与亟待应对的挑战。[方法/过程]采用文献回顾的方法,对国内外Altmetrics研究进行系统的梳理和分析。 [结果/结论]提出Altmetrics的理论研究需要面对定义模糊、研究方法和对象的独特性不足、理论基础缺乏、行为层面的理解较少等4个方面的问题, 而应用研究需要面对指标覆盖率低、有偏、易为操纵和异质等4个方面的问题。作为科学计量学中最热门的新兴研究领域,当前Altmetrics研究中的诸多 问题与挑战并不会贬损其价值,而是为我们提供了开展深入研究的空间。

(Wei Tongqi, Tan Zongying.

The Problems and Challenges of Research on Altmetrics

[J]. Library and Information Service, 2015, 59(2): 93-99.)

https://doi.org/10.13266/j.issn.0252-3116.2015.02.015      URL      [本文引用: 2]      摘要

[目的/意义]试图了解当前 Altmetrics研究中的主要问题与亟待应对的挑战。[方法/过程]采用文献回顾的方法,对国内外Altmetrics研究进行系统的梳理和分析。 [结果/结论]提出Altmetrics的理论研究需要面对定义模糊、研究方法和对象的独特性不足、理论基础缺乏、行为层面的理解较少等4个方面的问题, 而应用研究需要面对指标覆盖率低、有偏、易为操纵和异质等4个方面的问题。作为科学计量学中最热门的新兴研究领域,当前Altmetrics研究中的诸多 问题与挑战并不会贬损其价值,而是为我们提供了开展深入研究的空间。
[7] Barilan J, Haustein S, Peters I, et al.

Beyond Citations: Scholars’ Visibility on the Social Web

[OL]. arXiv Preprint, arXiv: 1205.5611.

URL      [本文引用: 4]      摘要

Abstract: Traditionally, scholarly impact and visibility have been measured by counting publications and citations in the scholarly literature. However, increasingly scholars are also visible on the Web, establishing presences in a growing variety of social ecosystems. But how wide and established is this presence, and how do measures of social Web impact relate to their more traditional counterparts? To answer this, we sampled 57 presenters from the 2010 Leiden STI Conference, gathering publication and citations counts as well as data from the presenters' Web "footprints." We found Web presence widespread and diverse: 84% of scholars had homepages, 70% were on LinkedIn, 23% had public Google Scholar profiles, and 16% were on Twitter. For sampled scholars' publications, social reference manager bookmarks were compared to Scopus and Web of Science citations; we found that Mendeley covers more than 80% of sampled articles, and that Mendeley bookmarks are significantly correlated (r=.45) to Scopus citation counts.
[8] Haustein S, Peters I, Sugimoto C R, et al.

Tweeting Biomedicine: An Analysis of Tweets and Citations in the Biomedical Literature

[J]. Journal of the American Society for Information Science and Technology, 2014, 65(4): 656-669.

https://doi.org/10.1002/asi.23101      URL      [本文引用: 3]      摘要

Data collected by social media platforms have been introduced as new sources for indicators to help measure the impact of scholarly research in ways that are complementary to traditional citation analysis. Data generated from social media activities can be used to reflect broad types of impact. This article aims to provide systematic evidence about how often Twitter is used to disseminate information about journal articles in the biomedical sciences. The analysis is based on 1.4 million documents covered by both PubMed and Web of Science and published between 2010 and 2012. The number of tweets containing links to these documents was analyzed and compared to citations to evaluate the degree to which certain journals, disciplines, and specialties were represented on Twitter and how far tweets correlate with citation impact. With less than 10% of PubMed articles mentioned on Twitter, its uptake is low in general but differs between journals and specialties. Correlations between tweets and citations are low, implying that impact metrics based on tweets are different from those based on citations. A framework using the coverage of articles and the correlation between Twitter mentions and citations is proposed to facilitate the evaluation of novel social-media-based metrics.
[9] Ortega J L.

Relationship Between Altmetric and Bibliometric Indicators Across Academic Social Sites: The Case of CSIC’s Members

[J]. Journal of Informetrics, 2015, 9(1): 39-49.

https://doi.org/10.1016/j.joi.2014.11.004      URL      [本文引用: 2]      摘要

This study explores the connections between social and usage metrics (altmetrics) and bibliometric indicators at the author level. It studies to what extent these indicators, gained from academic sites, can provide a proxy for research impact. Close to 10,000 author profiles belonging to the Spanish National Research Council were extracted from the principal scholarly social sites: ResearchGate, Academia.edu and Mendeley and academic search engines: Microsoft Academic Search and Google Scholar Citations. Results describe little overlapping between sites because most of the researchers only manage one profile (72%). Correlations point out that there is scant relationship between altmetric and bibliometric indicators at author level. This is due to the almetric ones are site-dependent, while the bibliometric ones are more stable across web sites. It is concluded that altmetrics could reflect an alternative dimension of the research performance, close, perhaps, to science popularization and networking abilities, but far from citation impact.
[10] Sotudeh H, Mazarei Z, Mirzabeigi M.

CiteULike Bookmarks are Correlated to Citation at Journal and Author Levels in Library and Information Science

[J]. Scientometrics, 2015, 105(3): 2237-2248.

https://doi.org/10.1007/s11192-015-1745-9      URL      [本文引用: 2]      摘要

Abstract Aiming to explore the applicability of bookmarking data in measuring the scientific impact, the present study investigates the correlation between conventional impact indicators (i.e. impact factors and mean citations) and bookmarking metrics (mean bookmarks and percentage of bookmarked articles) at author and journal aggregation levels in library and information science (LIS) field. Applying the citation analysis method, it studies a purposeful sample of LIS articles indexed in SSCI during 2004–2012 and bookmarked in CiteULike. Data are collected via WoS, Journal Citation Report, and CiteULike. There is a positive, though weak, correlation between LIS authors’ mean citations and their mean bookmarks, as well as a moderate to large correlation between LIS journals’ impact factors on the one hand and on the other, their mean bookmarks, and the percentage of their bookmarked articles. Given the correlation between the citation- and bookmark-based indicators at author and journal levels, bookmarking data can be used as a complement to, but not a substitute for, the traditional indicators to get to a more inclusive evaluation of journals and authors.
[11] Costas R, Zahedi Z, Wouters P.

Do “Altmetrics” Correlate with Citations? Extensive Comparison of Altmetric Indicators with Citations from a Multidisciplinary Perspective

[J]. Journal of the Association for Information Science and Technology, 2015, 66(10): 2003-2019.

https://doi.org/10.1002/asi.23309      URL      [本文引用: 7]      摘要

An extensive analysis of the presence of different altmetric indicators provided by Altmetric.com across scientific fields is presented, particularly focusing on their relationship with citations. Our results confirm that the presence and density of social media altmetric counts are still very low and not very frequent among scientific publications, with 15%-24% of the publications presenting some altmetric activity and concentrating in the most recent publications, although their presence is increasing over time. Publications from the social sciences, humanities and the medical and life sciences show the highest presence of altmetrics, indicating their potential value and interest for these fields. The analysis of the relationships between altmetrics and citations confirms previous claims of positive correlations but relatively weak, thus supporting the idea that altmetrics do not reflect the same concept of impact as citations. Also, altmetric counts do not always present a better filtering of highly cited publications than journal citation scores. Altmetrics scores (particularly mentions in blogs) are able to identify highly cited publications with higher levels of precision than journal citation scores (JCS), but they have a lower level of recall. The value of altmetrics as a complementary tool of citation analysis is highlighted, although more research is suggested to disentangle the potential meaning and value of altmetric indicators for research evaluation.
[12] Costas R, Zahedi Z, Wouters P.

The Thematic Orientation of Publications Mentioned on Social Media: Large-Scale Disciplinary Comparison of Social Media Metrics with Citations

[J]. Aslib Journal of Information Management, 2015, 67(3): 260-288.

https://doi.org/10.1108/AJIM-12-2014-0173      URL      [本文引用: 3]     

[13] Hassan S U, Imran M, Gillani U, et al.

Measuring Social Media Activity of Scientific Literature: An Exhaustive Comparison of Scopus and Novel Altmetrics Big Data

[J]. Scientometrics, 2017, 113(2): 1037-1057.

https://doi.org/10.1007/s11192-017-2512-x      URL      [本文引用: 4]      摘要

This paper measures social media activities of 15 broad scientific disciplines indexed in Scopus database using Altmetric.com data. First, the presence of Altmetric.com data in Scopus database is inve
[14] 由庆斌, 汤珊红.

不同类型论文层面计量指标间的相关性研究

[J]. 图书情报工作, 2014, 58(8): 79-84.

https://doi.org/10.13266/j.issn.0252-3116.2014.08.013      URL      [本文引用: 3]      摘要

对补充计量学的研究背景进行梳理,总结出补充计量学的5个特点,并对论文层面计量指标体系和当前常用的补充计量工具进行介绍。为探究综合性指标Altmetric score与引用指标之间的关系,分别对PLOS和F1000网站中提供的论文数据和指标数据进行收集,检测两个指标之间的相关性,并对比两组实验结果。结果表明,Altmetric score与引用指标存在正相关关系,且在评价论文时具有一定的一致性。

(You Qingbin, Tang Shanhong.

Study on Correlation of Different Article-level Metrics

[J]. Library and Information Service, 2014, 58(8): 79-84.)

https://doi.org/10.13266/j.issn.0252-3116.2014.08.013      URL      [本文引用: 3]      摘要

对补充计量学的研究背景进行梳理,总结出补充计量学的5个特点,并对论文层面计量指标体系和当前常用的补充计量工具进行介绍。为探究综合性指标Altmetric score与引用指标之间的关系,分别对PLOS和F1000网站中提供的论文数据和指标数据进行收集,检测两个指标之间的相关性,并对比两组实验结果。结果表明,Altmetric score与引用指标存在正相关关系,且在评价论文时具有一定的一致性。
[15] 刘晓娟, 周建华, 尤斌.

基于Mendeley与WoS的选择性计量指标与传统科学计量指标相关性研究

[J]. 图书情报工作, 2015, 59(3): 112-118.

https://doi.org/10.13266/j.issn.0252-3116.2015.03.016      URL      [本文引用: 3]      摘要

[目的 /意义]进一步探讨Web 2.0环境下选择性计量指标的有效性。[方法 /过程]以"data mining"为检索词,获得Mendeley与Web of Science两平台的交叉文献集合,分别对交叉文集的被引频数与阅读数、被引频数与标签数进行相关性检验后,从每组选取指标值差异最大与最小的各100篇文献进行具体分析。[结果 /结论]传统计量指标被引频数与Mendeley中的阅读数和标签数均存在弱相关性,证实了以阅读数和标签数为代表的选择性计量指标可以在一定程度上评估文献的影响力,且文献类型、出版年份和作者h指数会对用户阅读、引用等文献利用行为产生影响。未来文献影响力评价的发展方向应为传统文献计量方法与选择性计量方法的结合。

(Liu Xiaojuan, Zhou Jianhua, You Bin.

Study on Correlation Between Altmetrics Indicators and Traditional Scientometric Indicators Based on Mendeley and WoS

[J]. Library and Information Service, 2015, 59(3): 112-118.)

https://doi.org/10.13266/j.issn.0252-3116.2015.03.016      URL      [本文引用: 3]      摘要

[目的 /意义]进一步探讨Web 2.0环境下选择性计量指标的有效性。[方法 /过程]以"data mining"为检索词,获得Mendeley与Web of Science两平台的交叉文献集合,分别对交叉文集的被引频数与阅读数、被引频数与标签数进行相关性检验后,从每组选取指标值差异最大与最小的各100篇文献进行具体分析。[结果 /结论]传统计量指标被引频数与Mendeley中的阅读数和标签数均存在弱相关性,证实了以阅读数和标签数为代表的选择性计量指标可以在一定程度上评估文献的影响力,且文献类型、出版年份和作者h指数会对用户阅读、引用等文献利用行为产生影响。未来文献影响力评价的发展方向应为传统文献计量方法与选择性计量方法的结合。
[16] 余厚强.

替代计量指标与引文量相关性的大规模跨学科研究——数值类型、指标种类与用户类别的影响

[J]. 情报学报, 2017, 36(6): 606-617.

URL      [本文引用: 4]      摘要

以441万多条Altmetric.com数据为基础,分2012年1月、2013年1月和2014年1月j个时间段,采集了27个学科的18种替代计量指标和Scopus引文量数据,来大规模考察替代计量指标与引文量的相关性,着重研究数值类型、指标种类和用户类别对相关性的影响。结果发现独立用户数与引文量的相关性显著高于绝对提及数;在线参考文献平台阅读量指标与引文量相关系数最大(ρmendeley=0.614),其他替代计量指标均与引文量呈显著非常弱正相关(o〈p〈0.2);学科呈现显著不同的替代计量指标活跃度,同时替代计量指标存在明显的学科差异;用户类别对相关性有直接影响,因而使用替代计量指标时需对数据进行清洗和细分。

(Yu Houqiang.

Large Scale Cross-Disciplinary Study of Correlation Between Altmetrics Indicators and Citations-Influence of Data Types, Indicator Types, and User Categories

[J]. Journal of the China Society for Scientific and Technical Information, 2017, 36(6): 606-617.)

URL      [本文引用: 4]      摘要

以441万多条Altmetric.com数据为基础,分2012年1月、2013年1月和2014年1月j个时间段,采集了27个学科的18种替代计量指标和Scopus引文量数据,来大规模考察替代计量指标与引文量的相关性,着重研究数值类型、指标种类和用户类别对相关性的影响。结果发现独立用户数与引文量的相关性显著高于绝对提及数;在线参考文献平台阅读量指标与引文量相关系数最大(ρmendeley=0.614),其他替代计量指标均与引文量呈显著非常弱正相关(o〈p〈0.2);学科呈现显著不同的替代计量指标活跃度,同时替代计量指标存在明显的学科差异;用户类别对相关性有直接影响,因而使用替代计量指标时需对数据进行清洗和细分。
[17] Nature Index[DS/OL].[2017-12-16]..

URL      [本文引用: 2]     

[18] 刘晓娟, 宋婉姿.

基于PLOS ALM的Altmetrics指标可用性分析

[J]. 图书情报工作, 2016, 60(4): 93-101.

https://doi.org/10.13266/j.issn.0252-3116.2016.04.013      URL      [本文引用: 2]      摘要

[目的 /意义]altmetrics有利于完善新环境下的科研评价体系,但由于数据易被操控、用户行为具有偶然性、数据来源则具有不稳定性等因素,其可用性受到质疑。本文试图基于实际数据集对altmetrics的可用性做客观评价。[方法 /过程]基于PLOS ALM数据,对当前主要的altmetrics指标进行覆盖率、稳定性、时效性和交叉性分析,对指标的使用价值做较为全面和客观的评价,为altmetrics的深入研究和实践利用提供借鉴和参考。[结果/结论]数据分析结果表明altmetrics指标来源广泛、形式多样,在覆盖率、稳定性和时效性上存在差异,反映了不同维度的文献价值,评价工作中需要根据指标自身的优势、劣势和适用范围,并考虑指标之间的交叉性,合理构建全面的指标体系,满足当前科研评价的需求。

(Liu Xiaojuan, Song Wanzi.

Analysis on the Usability of Altmetrics Indicators Based on PLOS ALM

[J]. Library and Information Service, 2016, 60(4): 93-101.)

https://doi.org/10.13266/j.issn.0252-3116.2016.04.013      URL      [本文引用: 2]      摘要

[目的 /意义]altmetrics有利于完善新环境下的科研评价体系,但由于数据易被操控、用户行为具有偶然性、数据来源则具有不稳定性等因素,其可用性受到质疑。本文试图基于实际数据集对altmetrics的可用性做客观评价。[方法 /过程]基于PLOS ALM数据,对当前主要的altmetrics指标进行覆盖率、稳定性、时效性和交叉性分析,对指标的使用价值做较为全面和客观的评价,为altmetrics的深入研究和实践利用提供借鉴和参考。[结果/结论]数据分析结果表明altmetrics指标来源广泛、形式多样,在覆盖率、稳定性和时效性上存在差异,反映了不同维度的文献价值,评价工作中需要根据指标自身的优势、劣势和适用范围,并考虑指标之间的交叉性,合理构建全面的指标体系,满足当前科研评价的需求。
[19] 刘艳民.

Altmetrics指标与传统文献计量指标相关性研究

[J]. 情报杂志, 2017, 36(9): 71-77.

https://doi.org/10.3969/j.issn.1002-1965.2017.09.012      URL      [本文引用: 2]      摘要

[目的/意义]研究Altmetrics指标在科学出版物中的存在现状,探讨Altmetrics指标与传统文献计量指标之间的关系,有利于更好地探索Altmetrics指标在科研评价方面的潜在意义和价值。[方法/过程]选取Altmetric.com提供的科技领域学术出版物的Altmetrics指标。利用Web of Science获取出版物的被引次数、期刊影响因子、学科归一化被引、学科归一化期刊影响因子指标。采用因子分析、Pearson相关性分析方法检验各指标的相关性。利用Precison-Recall分析方法检验Altmetrics指标能否比期刊影响因子更好的识别高被引论文。[结果/结论]拥有Altmetric分数的学术论文大多为最近年代出版,且论文主要集中在生物医学和健康科学、社会科学与人类学、生命和地球科学领域,预示着大众媒体对这三个领域的科技论文有较高的兴趣。Altmetrics指标与被引次数、期刊影响因子之间的相关关系为正相关但较弱,Altmetric分数在过滤高被引论文方面弱于期刊影响因子指标。因此,Altmetric分数反映出跟引文数不同的学术影响力,Altmetrics指标可以作为引文分析的辅助工具,相互补充但不可替代。

(Liu Yanmin.

The Correlation Research of Altmetrics and Bibliometric Indicators

[J]. Journal of Intelligence, 2017, 36(9): 71-77.)

https://doi.org/10.3969/j.issn.1002-1965.2017.09.012      URL      [本文引用: 2]      摘要

[目的/意义]研究Altmetrics指标在科学出版物中的存在现状,探讨Altmetrics指标与传统文献计量指标之间的关系,有利于更好地探索Altmetrics指标在科研评价方面的潜在意义和价值。[方法/过程]选取Altmetric.com提供的科技领域学术出版物的Altmetrics指标。利用Web of Science获取出版物的被引次数、期刊影响因子、学科归一化被引、学科归一化期刊影响因子指标。采用因子分析、Pearson相关性分析方法检验各指标的相关性。利用Precison-Recall分析方法检验Altmetrics指标能否比期刊影响因子更好的识别高被引论文。[结果/结论]拥有Altmetric分数的学术论文大多为最近年代出版,且论文主要集中在生物医学和健康科学、社会科学与人类学、生命和地球科学领域,预示着大众媒体对这三个领域的科技论文有较高的兴趣。Altmetrics指标与被引次数、期刊影响因子之间的相关关系为正相关但较弱,Altmetric分数在过滤高被引论文方面弱于期刊影响因子指标。因此,Altmetric分数反映出跟引文数不同的学术影响力,Altmetrics指标可以作为引文分析的辅助工具,相互补充但不可替代。
[20] 刘晓娟, 宰冰欣.

图书情报领域文献的Altmetrics指标分析

[J]. 图书情报工作, 2015, 59(18): 108-116.

https://doi.org/10.13266/j.issn.0252-3116.2015.18.017      URL      [本文引用: 3]      摘要

[目的/意义]通过分析某个学科领域中Ahmetrics指标的特征,为该领域文献影响力评价提供更加科学合理的指标体系。、[方法/过程]定位于图书情报领域,选取Seopus、Ahmetric.com进行文献被引频次及Altmetrics指标值的采集,对数据进行统计分析、聚类分析和内容分析。[结果/结论]在众多Ahmetrics指标中,Mendeley和Twitter更适合于对图书情报领域文献的影响力做出评价;Mendeley和Twitter中文献的使用群体、文献主题、内容和期刊分布都存在明显的差异性;Twitter适合对文献的社会影响力做出判断,Mendeley更适用于文献的学术影响力评价;不同工具的流行程度存在地域差异,利用Ahmetrics指标时应考虑该指标对文献影响力的评价是否存在地域缺失。

(Liu Xiaojuan, Zai Bingxin.

Analysis of Altmetrics Indicators in the Field of Library and Information Science

[J]. Library and Information Service, 2015, 59(18): 108-116.)

https://doi.org/10.13266/j.issn.0252-3116.2015.18.017      URL      [本文引用: 3]      摘要

[目的/意义]通过分析某个学科领域中Ahmetrics指标的特征,为该领域文献影响力评价提供更加科学合理的指标体系。、[方法/过程]定位于图书情报领域,选取Seopus、Ahmetric.com进行文献被引频次及Altmetrics指标值的采集,对数据进行统计分析、聚类分析和内容分析。[结果/结论]在众多Ahmetrics指标中,Mendeley和Twitter更适合于对图书情报领域文献的影响力做出评价;Mendeley和Twitter中文献的使用群体、文献主题、内容和期刊分布都存在明显的差异性;Twitter适合对文献的社会影响力做出判断,Mendeley更适用于文献的学术影响力评价;不同工具的流行程度存在地域差异,利用Ahmetrics指标时应考虑该指标对文献影响力的评价是否存在地域缺失。
[21] 由庆斌, 韦博, 汤珊红.

基于补充计量学的论文影响力评价模型构建

[J]. 图书情报工作, 2014, 58(22): 5-11.

https://doi.org/10.13266/j.issn.0252-3116.2014.22.001      URL      [本文引用: 3]      摘要

提出构建基于补充计量学的论文影响力评价模型。收集Mendeley平台中提供的指标数据,利用相关分析法筛选补充计量指标,对筛选得到的指标进行主成分分析,找出主成分因子并建立主成分评价模型。最后,对比主成分评价模型与引用评价模型的评价结果,发现两个模型对高学术影响力论文的评价具有一定的一致性。

(You Qingbin, Wei Bo, Tang Shanhong.

Evaluation Model Construction to Evaluate Article’s Influence Based on Altmetrics

[J]. Library and Information Service, 2014, 58(22): 5-11.)

https://doi.org/10.13266/j.issn.0252-3116.2014.22.001      URL      [本文引用: 3]      摘要

提出构建基于补充计量学的论文影响力评价模型。收集Mendeley平台中提供的指标数据,利用相关分析法筛选补充计量指标,对筛选得到的指标进行主成分分析,找出主成分因子并建立主成分评价模型。最后,对比主成分评价模型与引用评价模型的评价结果,发现两个模型对高学术影响力论文的评价具有一定的一致性。
[22] 时立文. SPSS19.0统计分析从入门到精通[M]. 北京: 清华大学出版社, 2012.

[本文引用: 1]     

(Shi Liwen.SPSS19.0 Statistical Analysis from Getting Started to Proficient[M]. Beijing: Tsinghua University Press, 2012.)

[本文引用: 1]     

[23] 王妍, 郭舒, 张建勇.

学者影响力评价指标的相关性研究

[J]. 图书情报工作, 2015, 59(3): 106-112, 127.

[本文引用: 1]     

(Wang Yan, Guo Shu, Zhang Jianyong.

Study on Correlation of Researcher Influence Indicators

[J]. Library and Information Service, 2015, 59(3): 106-112,127.)

[本文引用: 1]     

[24] 张建国.

ROC曲线分析的基本原理以及在体质与健康促进研究中的应用

[J]. 体育科学, 2008, 28(6): 62-66.

https://doi.org/10.3969/j.issn.1000-677X.2008.06.010      URL      [本文引用: 1]      摘要

ROC曲线分析是临床医学和流行病学领域中常用于评价诊断的正确性或进行筛检的一种方法。在介绍ROC曲线分析原理的基础上,结合国内、外学者的研究成果对ROC曲线分析在体质与健康促进研究中的应用进行了简单阐述,并对ROC曲线的构建与一些注意点做了说明。

(Zhang Jianguo.

The Basic Principle of ROC Curve Analysis and Application in Physical Fitness and Health Promotion Studies

[J]. China Sport Science, 2008, 28(6): 62-66.)

https://doi.org/10.3969/j.issn.1000-677X.2008.06.010      URL      [本文引用: 1]      摘要

ROC曲线分析是临床医学和流行病学领域中常用于评价诊断的正确性或进行筛检的一种方法。在介绍ROC曲线分析原理的基础上,结合国内、外学者的研究成果对ROC曲线分析在体质与健康促进研究中的应用进行了简单阐述,并对ROC曲线的构建与一些注意点做了说明。
[25] Baynes R D, Cook J D, Bothwell T H, et al.

Serum Transferrin Receptors in Hereditary Hemochromatosis and African Siderosis

[J]. American Journal of Hematology, 1994, 45(4): 288-292.

https://doi.org/10.1002/ajh.2830450404      URL      PMID: 8178799      [本文引用: 1]      摘要

The present investigation evaluated the serum transferrin receptor concentration in subjects with nontransfusional iron overload who were identified in two separate studies on the basis of a serum ferritin level above 400 g/L. Subjects with preciinical hereditary hemochromatosis were evaluated in the first study and those with the African form of iron overload in the second. in the first study, hereditary hemochromatosis was identified in 14 white men on the basis of a persistent elevation in transferrin saturation above 55%. The serum receptor concentration was elevated above the upper cut-off of 8.5 mg/L in two of the subjects, but the mean receptor of 6.1 ± 1.4 mg/L (mean ± 2 SE) did not differ significantly from the normal mean for this assay of 5.6 ± 0.3 mg/L. In the same study, 60 control subjects with secondary iron overload were identified on the basis of a serum ferritin persistently above 400 g/L, with a normal serum C-reactive protein concentration but with a transferrin saturation <55%. Three of these subjects had an elevated serum receptor concentration but the mean value of 5.5 ± 0.4 mg/L did not differ from normals nor from subjects with hemochromatosis. In the second study, 49 black Africans with iron overload were divided into those with or without an elevated transferrin saturation. The mean serum receptor concentration of 5.0 ± 0.8 mg/L and 4.5 ± 0.4 mg/L, respectively, did not differ statistically. It was concluded that there is no evidence of generalized dysreguiation of the transferrin receptor in hemochromatosis or African siderosis. 08 1994 Wiley-Liss, Inc.
[26] 杨柳, 陈贡.

Altmetrics视角下科研机构影响力评价指标的相关性研究

[J]. 图书情报工作, 2015, 59(15): 106-114, 132.

https://doi.org/10.13266/j.issn.0252-3116.2015.15.015      URL      [本文引用: 1]      摘要

[目的/意义]多样化的科研成果、数字化的出版方式、网络化的科研交流呼唤新的机构影响力评价指标,探讨Ahmetrics指标与传统科研机构影响力评价指标以及Altmetrics指标内部之间的相关性,有益于更好地探索数字环境下如何更加客观、有效地开展科研机构影响力评价。[方法/过程]以PlumAnalytics为数据源,基于样本机构2012—2015年间的引用数据与Ahmetrics数据,开展指标之间的相关性分析。[结果/结论]多元化的Altmetrics指标可反映多维化的机构影响力信息,故应当引入Altmetrics指标以全面审视机构影响力;指标数据源的属性在一定程度上决定了指标所反映的信息性质;要因评价对象的不同而遴选适宜的评价指标;对Ahmetrics指标分类需作小范围调整。

(Yang Liu, Chen Gong.

Correlation Study on Evaluation Indicators of Scientific Institution Influence from the Perspective of Altmetrics

[J]. Library and Information Service, 2015, 59(15): 106-114, 132.)

https://doi.org/10.13266/j.issn.0252-3116.2015.15.015      URL      [本文引用: 1]      摘要

[目的/意义]多样化的科研成果、数字化的出版方式、网络化的科研交流呼唤新的机构影响力评价指标,探讨Ahmetrics指标与传统科研机构影响力评价指标以及Altmetrics指标内部之间的相关性,有益于更好地探索数字环境下如何更加客观、有效地开展科研机构影响力评价。[方法/过程]以PlumAnalytics为数据源,基于样本机构2012—2015年间的引用数据与Ahmetrics数据,开展指标之间的相关性分析。[结果/结论]多元化的Altmetrics指标可反映多维化的机构影响力信息,故应当引入Altmetrics指标以全面审视机构影响力;指标数据源的属性在一定程度上决定了指标所反映的信息性质;要因评价对象的不同而遴选适宜的评价指标;对Ahmetrics指标分类需作小范围调整。
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn

/