Data Analysis and Knowledge Discovery  2020, Vol. 4 Issue (8): 63-74    DOI: 10.11925/infotech.2096-3467.2020.0124
Predicting Social Media Visibility of Scholarly Articles
Li Gang,Guan Weidong,Ma Yaxue(),Mao Jin
Center for Studies of Information Resources, Wuhan University, Wuhan 430072, China
[Objective] This study tries to predict visibility of research papers on Twitter with their multidimensional features, aiming to find important factors affecting social media visibility. [Methods] First, we decided each paper’s social media visibility by its total mentions on Twitter, and extracted features from paper contents, authorship and publishing journals. Then, we constructed a binary classification model to predict each paper’s Twitter visibility. Finally, we examined our model with papers on diabetes to evaluate the performance of different algorithms and the importance of all features. [Results] LightGBM had the best performance with an accuracy of 0.70. Features from contents, authorship and publishing journals all influenced an article’s visibility on social media, while a journal’s annual average impact factor was the most important one. [Limitations] We only examined visiblity of diabete related papers on Twitter. [Conclusions] Ensemble learning algorithm is an effective method to predict social media visibility of scholarly articles, while features of the publishing journals are the key factors.

Received: 21 February 2020      Published: 14 September 2020
Li Gang, Guan Weidong, Ma Yaxue, Mao Jin. Predicting Social Media Visibility of Scholarly Articles. Data Analysis and Knowledge Discovery, 2020, 4(8): 63-74.

特征名 特征来源与计算方式
主题类别 利用论文的标题、摘要、关键词等文本内容,建立LDA主题模型,为每一篇论文分配主题编号
Web of Science类别 Web of Science元数据
语言 Web of Science元数据
文章类型 Web of Science元数据
开放获取状态 Web of Science元数据
论文长度(页数) Web of Science元数据
关键词数量 统计关键词列表中关键词的个数
基金资助数量 统计基金列表中基金资助机构和授权号的个数
出版时长(以月为单位) 计算自论文正式出版年月起,至2019年8月的时间跨度(若出版月数据缺失,视为出版年的1月出版)
使用次数(2013年至今) Web of Science元数据
被引频次(WOS核心合集) Web of Science元数据
Paper-related Features
特征名 特征来源与计算方式
第一作者的H指数 统计出在数据集内,每一位作者发表的全部论文的被引频次,从大到小排列,计算每一位作者的H指数,由此对应到每一篇论文,得到第一作者、通讯作者的H指数及团队的平均H指数
第一作者的发文量 统计出在数据集内,每一位作者的发文量,并对应到每一篇论文得到第一作者、通讯作者的发文量及团队的平均发文量
第一作者的被引量 统计出在数据集内,每一位作者发表全部论文的被引量之和,由此对应到每一篇论文得到第一作者、通讯作者的被引量及团队的平均被引量
作者数量 Web of Science元数据解析
作者机构数量 Web of Science元数据解析
作者的国别数量 Web of Science元数据解析
Author-related Features
Author Disambiguation Process
特征名 特征来源与计算方式
期刊年均被引量 计算每本期刊在各年JCR中的Total Cites指标的平均值
期刊年均影响因子 计算每本期刊在各年JCR中的Impact Factor指标的平均值
期刊年均特征因子分值 计算每本期刊在各年JCR中Eigenfactor Score指标的平均值
Journal-related Features
Overall Process of Classification Model
论文数量 期刊
开放获取状态 WOS
119 334 4 753 24 3 6 182 20
Descriptive Statistics of Diabetes Mellitus Paper Data Set
Topic Distribution of Diabetes Mellitus Papers
类别 论文数量 占比
被提及 60 898 51%
未被提及 58 436 49%
合计 119 334 100%
Distribution of Visibility on Twitter of the Diabetes Mellitus Papers
特征名 社交媒体可见的论文 社交媒体不可见的论文
均值 中位数 标准差 均值 中位数 标准差
论文长度(页数) 9.72 9 10.186 8.20 8 4.012
关键词数量 3.36 4 2.858 3.74 4 2.470
基金资助数量 2.36 1 4.053 1.50 1 2.535
出版时长 44.16 43 22.708 47.87 47 24.357
使用次数 11.55 6 26.539 7.29 4 13.261
被引频次 19.38 8 56.911 9.32 5 26.009
Statistical Indicators of Paper-related Features
Topic Distribution of Diabetes Mellitus Papers Visible on Twitter
特征名 社交媒体可见的论文 社交媒体不可见的论文
均值 中位数 标准差 均值 中位数 标准差
作者数量 7.19 6 19.821 6.22 6 3.909
作者的国别数量 1.50 1 1.438 1.26 1 0.746
作者机构数量 4.43 3 11.478 3.39 3 2.648
团队的平均H指数 2.99 2 2.676 2.35 2 2.196
团队的平均被引量 115.39 37 240.615 63.11 18 152.451
团队的平均发文量 4.32 3 4.823 3.52 2 4.172
第一作者的H指数 2.58 1 3.117 2.08 1 2.487
第一作者的被引量 84.64 18 286.605 46.58 10 186.864
第一作者的发文量 3.57 2 5.696 3.01 1 4.892
通讯作者的H指数 3.62 2 4.266 2.89 2 3.456
通讯作者的被引量 142.80 28 421.363 82.61 15 271.833
通讯作者的发文量 5.46 2 8.668 4.57 2 7.543
Statistical Indicators of Author-related Features
特征名 社交媒体可见的论文 社交媒体不可见的论文
均值 中位数 标准差 均值 中位数 标准差
期刊年均被引量 35 646.31 7 199 88 380.092 21 855.02 3 278 72 456.536
期刊年均影响因子 4.79 3.188 5.762 2.63 2.398 2.237
期刊年均特征因子分值 0.10 0.016 4 0.299 0.06 0.007 07 0.263
Statistical Indicators of Journal-related Features
Top 10 Journals with the Highest Amount of Diabetes Mellitus Papers Visible on Twitter
每本期刊的被提及论文数 期刊数(种) 被提及论文总量(篇)
1~10篇 2 897 9 624
11~100篇 918 25 916
101~1 000篇 88 18 859
大于1 000篇 4 6 499
Distribution of the Amount of Diabetes Mellitus Papers Visible on Twitter of Journals
分类算法 准确率 精确率 召回率 F1值
LightGBM 0.70 0.72 0.68 0.70
随机森林 0.69 0.71 0.68 0.70
AdaBoost 0.68 0.69 0.68 0.69
支持向量机 0.68 0.71 0.66 0.68
逻辑回归 0.67 0.69 0.66 0.67
人工神经网络 0.65 0.61 0.99 0.67
朴素贝叶斯 0.54 0.53 0.96 0.68
Social Media Visibility Prediction for Diabetes Mellitus Papers
特征名 重要性
期刊年均影响因子 0.074
出版时长 0.061
期刊年均特征因子分值 0.055
期刊年均被引量 0.052
团队的平均被引量 0.047
使用次数 0.047
被引频次 0.043
通讯作者的被引量 0.041
第一作者的被引量 0.040
论文长度(页数) 0.040
Feature Importance of Scientific Papers
