Please wait a minute...
Advanced Search
数据分析与知识发现  2020, Vol. 4 Issue (8): 63-74     https://doi.org/10.11925/infotech.2096-3467.2020.0124
     研究论文 本期目录 | 过刊浏览 | 高级检索 |
学术论文的社交媒体可见性预测研究*
李纲,管为栋,马亚雪(),毛进
武汉大学信息资源研究中心 武汉 430072
Predicting Social Media Visibility of Scholarly Articles
Li Gang,Guan Weidong,Ma Yaxue(),Mao Jin
Center for Studies of Information Resources, Wuhan University, Wuhan 430072, China
全文: PDF (959 KB)   HTML ( 20
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】基于学术论文的多维特征,对其在社交媒体推特上的可见性进行预测,分析影响论文社交媒体可见性的重要因素。【方法】将论文的推特总提及量作为其社交媒体可见性类别标签,从论文、作者和期刊三个方面构建学术论文特征框架,构建基于分类的论文社交媒体可见性预测模型。在糖尿病论文数据集上进行实验,对比算法性能并识别特征的重要性。【结果】LightGBM算法的性能最佳,准确率达到0.70,能够有效预测论文的社交媒体可见性。学术论文的三类特征均对其社交媒体可见性产生影响,其中期刊相关的三种特征影响较为显著,期刊年均影响因子的重要性位列第一。【局限】仅针对糖尿病相关论文在推特中的可见性进行预测,未探究其他学科领域的论文在多个社交媒体平台的可见性。【结论】集成学习的方法预测论文的社交媒体可见性是最有效的,期刊相关特征对学术论文社交媒体可见性的影响最为显著。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
李纲
管为栋
马亚雪
毛进
关键词 学术论文社交媒体可见性预测特征重要性    
Abstract

[Objective] This study tries to predict visibility of research papers on Twitter with their multidimensional features, aiming to find important factors affecting social media visibility. [Methods] First, we decided each paper’s social media visibility by its total mentions on Twitter, and extracted features from paper contents, authorship and publishing journals. Then, we constructed a binary classification model to predict each paper’s Twitter visibility. Finally, we examined our model with papers on diabetes to evaluate the performance of different algorithms and the importance of all features. [Results] LightGBM had the best performance with an accuracy of 0.70. Features from contents, authorship and publishing journals all influenced an article’s visibility on social media, while a journal’s annual average impact factor was the most important one. [Limitations] We only examined visiblity of diabete related papers on Twitter. [Conclusions] Ensemble learning algorithm is an effective method to predict social media visibility of scholarly articles, while features of the publishing journals are the key factors.

Key wordsScientific Paper    Social Media    Visibility Prediction    Feature Importance
收稿日期: 2020-02-21      出版日期: 2020-09-14
ZTFLH:  G353  
基金资助:*本文系国家自然科学基金重大课题"国家安全大数据综合信息集成与分析方法"(71790612);国家自然科学基金青年项目"基于学术异质网络表示学习的知识群落发现"的研究成果之一(71804135)
通讯作者: 马亚雪     E-mail: myx_vicky@whu.edu.cn
引用本文:   
李纲, 管为栋, 马亚雪, 毛进. 学术论文的社交媒体可见性预测研究*[J]. 数据分析与知识发现, 2020, 4(8): 63-74.
Li Gang, Guan Weidong, Ma Yaxue, Mao Jin. Predicting Social Media Visibility of Scholarly Articles. Data Analysis and Knowledge Discovery, 2020, 4(8): 63-74.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2020.0124      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2020/V4/I8/63
特征名 特征来源与计算方式
主题类别 利用论文的标题、摘要、关键词等文本内容,建立LDA主题模型,为每一篇论文分配主题编号
Web of Science类别 Web of Science元数据
语言 Web of Science元数据
文章类型 Web of Science元数据
开放获取状态 Web of Science元数据
论文长度(页数) Web of Science元数据
关键词数量 统计关键词列表中关键词的个数
基金资助数量 统计基金列表中基金资助机构和授权号的个数
出版时长(以月为单位) 计算自论文正式出版年月起,至2019年8月的时间跨度(若出版月数据缺失,视为出版年的1月出版)
使用次数(2013年至今) Web of Science元数据
被引频次(WOS核心合集) Web of Science元数据
Table 1  论文相关特征
特征名 特征来源与计算方式
第一作者的H指数 统计出在数据集内,每一位作者发表的全部论文的被引频次,从大到小排列,计算每一位作者的H指数,由此对应到每一篇论文,得到第一作者、通讯作者的H指数及团队的平均H指数
通讯作者的H指数
团队的平均H指数
第一作者的发文量 统计出在数据集内,每一位作者的发文量,并对应到每一篇论文得到第一作者、通讯作者的发文量及团队的平均发文量
通讯作者的发文量
团队的平均发文量
第一作者的被引量 统计出在数据集内,每一位作者发表全部论文的被引量之和,由此对应到每一篇论文得到第一作者、通讯作者的被引量及团队的平均被引量
通讯作者的被引量
团队的平均被引量
作者数量 Web of Science元数据解析
作者机构数量 Web of Science元数据解析
作者的国别数量 Web of Science元数据解析
Table 2  作者相关特征
Fig.1  作者消歧流程
特征名 特征来源与计算方式
期刊年均被引量 计算每本期刊在各年JCR中的Total Cites指标的平均值
期刊年均影响因子 计算每本期刊在各年JCR中的Impact Factor指标的平均值
期刊年均特征因子分值 计算每本期刊在各年JCR中Eigenfactor Score指标的平均值
Table 3  期刊相关特征
Fig.2  分类模型的整体流程
论文数量 期刊
种类
语言
类别
文章
类别
开放获取状态 WOS
类别
主题
类别
119 334 4 753 24 3 6 182 20
Table 4  糖尿病论文数据集描述性统计
Fig.3  糖尿病相关学术论文的主题分布
类别 论文数量 占比
被提及 60 898 51%
未被提及 58 436 49%
合计 119 334 100%
Table 5  糖尿病相关学术论文在推特中的可见性分布
特征名 社交媒体可见的论文 社交媒体不可见的论文
均值 中位数 标准差 均值 中位数 标准差
论文长度(页数) 9.72 9 10.186 8.20 8 4.012
关键词数量 3.36 4 2.858 3.74 4 2.470
基金资助数量 2.36 1 4.053 1.50 1 2.535
出版时长 44.16 43 22.708 47.87 47 24.357
使用次数 11.55 6 26.539 7.29 4 13.261
被引频次 19.38 8 56.911 9.32 5 26.009
Table 6  论文相关数值特征统计指标对比
Fig.4  社交媒体可见的糖尿病相关论文的主题分布
特征名 社交媒体可见的论文 社交媒体不可见的论文
均值 中位数 标准差 均值 中位数 标准差
作者数量 7.19 6 19.821 6.22 6 3.909
作者的国别数量 1.50 1 1.438 1.26 1 0.746
作者机构数量 4.43 3 11.478 3.39 3 2.648
团队的平均H指数 2.99 2 2.676 2.35 2 2.196
团队的平均被引量 115.39 37 240.615 63.11 18 152.451
团队的平均发文量 4.32 3 4.823 3.52 2 4.172
第一作者的H指数 2.58 1 3.117 2.08 1 2.487
第一作者的被引量 84.64 18 286.605 46.58 10 186.864
第一作者的发文量 3.57 2 5.696 3.01 1 4.892
通讯作者的H指数 3.62 2 4.266 2.89 2 3.456
通讯作者的被引量 142.80 28 421.363 82.61 15 271.833
通讯作者的发文量 5.46 2 8.668 4.57 2 7.543
Table 7  作者相关特征统计指标对比
特征名 社交媒体可见的论文 社交媒体不可见的论文
均值 中位数 标准差 均值 中位数 标准差
期刊年均被引量 35 646.31 7 199 88 380.092 21 855.02 3 278 72 456.536
期刊年均影响因子 4.79 3.188 5.762 2.63 2.398 2.237
期刊年均特征因子分值 0.10 0.016 4 0.299 0.06 0.007 07 0.263
Table 8  期刊相关特征统计指标对比
Fig.5  社交媒体可见的糖尿病论文数量排名前10的期刊
每本期刊的被提及论文数 期刊数(种) 被提及论文总量(篇)
1~10篇 2 897 9 624
11~100篇 918 25 916
101~1 000篇 88 18 859
大于1 000篇 4 6 499
Table 9  期刊的社交媒体可见论文的数量分布
分类算法 准确率 精确率 召回率 F1值
LightGBM 0.70 0.72 0.68 0.70
随机森林 0.69 0.71 0.68 0.70
AdaBoost 0.68 0.69 0.68 0.69
支持向量机 0.68 0.71 0.66 0.68
逻辑回归 0.67 0.69 0.66 0.67
人工神经网络 0.65 0.61 0.99 0.67
朴素贝叶斯 0.54 0.53 0.96 0.68
Table 10   糖尿病相关论文社交媒体可见性预测结果
特征名 重要性
期刊年均影响因子 0.074
出版时长 0.061
期刊年均特征因子分值 0.055
期刊年均被引量 0.052
团队的平均被引量 0.047
使用次数 0.047
被引频次 0.043
通讯作者的被引量 0.041
第一作者的被引量 0.040
论文长度(页数) 0.040
Table 11   论文特征的重要性
[1] Holmberg K, Park H W. An Altmetric Investigation of the Online Visibility of South Korea-based Scientific Journals[J]. Scientometrics, 2018,117(1):603-613.
[2] Kjellberg S, Haider J. Researchers’ Online Visibility: Tensions of Visibility, Trust and Reputation[J]. Online Information Review, 2019,43(3):426-439.
[3] Bar-Ilan J, Haustein S, Peters I, et al. Beyond Citations: Scholars’ Visibility on the Social Web[C]// Proceedings of the 17th International Conference on Science and Technology Indicators, Montreal, Canada. 2012.
[4] Alperin J P, Gomez C J, Haustein S. Identifying Diffusion Patterns of Research Articles on Twitter: A Case Study of Online Engagement with Open Access Articles[J]. Public Understanding of Science, 2019,28(1):2-18.
doi: 10.1177/0963662518761733 pmid: 29607775
[5] Zhang L W, Wang J. Why Highly Cited Articles are not Highly Tweeted? A Biology Case[J]. Scientometrics, 2018,117(1):495-509.
doi: 10.1007/s11192-018-2876-6
[6] Lucassen T, Schraagen J M. Factual Accuracy and Trust in Information: The Role of Expertise[J]. Journal of the American Society for Information Science and Technology, 2011,62(7):1232-1242.
doi: 10.1002/asi.21545
[7] Petersen A M, Vincent E M, Westerling A L R. Discrepancy in Scientific Authority and Media Visibility of Climate Change Scientists and Contrarians[J]. Nature Communications, 2019,10(1):1-14.
doi: 10.1038/s41467-018-07882-8 pmid: 30602773
[8] Shu F, Lou W, Haustein S. Can Twitter Increase the Visibility of Chinese Publications?[J]. Scientometrics, 2018,116(1):505-519.
doi: 10.1007/s11192-018-2732-8
[9] Thelwall M, Sud P. Mendeley Readership Counts: An Investigation of Temporal and Disciplinary Differences[J]. Journal of the Association for Information Science and Technology, 2016,67(12):3036-3050.
doi: 10.1002/asi.2016.67.issue-12
[10] Eldakar M A M. Who Reads International Egyptian Academic Articles? An Altmetrics Analysis of Mendeley Readership Categories[J]. Scientometrics, 2019,121(1):105-135.
doi: 10.1007/s11192-019-03189-7
[11] Holmberg K, Vainio J. Why do Some Research Articles Receive More Online Attention and Higher Altmetrics? Reasons for Online Success According to the Authors[J]. Scientometrics, 2018,116(1):435-447.
doi: 10.1007/s11192-018-2710-1
[12] Tahamtan I, Safipour Afshar A, Ahamdzadeh K. Factors Affecting Number of Citations: A Comprehensive Review of the Literature[J]. Scientometrics, 2016,107(3):1195-1225.
doi: 10.1007/s11192-016-1889-2
[13] Xie J, Gong K L, Li J, et al. A Probe into 66 Factors which are Possibly Associated with the Number of Citations an Article Received[J]. Scientometrics, 2019,119(3):1429-1454.
[14] Xie J, Gong K L, Cheng Y, et al. The Correlation between Paper Length and Citations: A Meta-analysis[J]. Scientometrics, 2019,118(3):763-786.
doi: 10.1007/s11192-019-03015-0
[15] Rostami F, Mohammadpoorasl A, Hajizadeh M. The Effect of Characteristics of Title on Citation Rates of Articles[J]. Scientometrics, 2014,98(3):2007-2010.
doi: 10.1007/s11192-013-1118-1
[16] Mingers J, Xu F. The Drivers of Citations in Management Science Journals[J]. European Journal of Operational Research, 2010,205(2):422-430.
doi: 10.1016/j.ejor.2009.12.008
[17] Yan E, Wu C J, Song M. The Funding Factor: A Cross-disciplinary Examination of the Association Between Research Funding and Citation Impact[J]. Scientometrics, 2018,115(1):369-384.
doi: 10.1007/s11192-017-2583-8
[18] Craig I D, Plume A M, McVeigh M E, et al. Do Open Access Articles Have Greater Citation Impact?: A Critical Review of the Literature[J]. Journal of Informetrics, 2007,1(3):239-248.
doi: 10.1016/j.joi.2007.04.001
[19] Chen C M. Predictive Effects of Structural Variation on Citation Counts[J]. Journal of the American Society for Information Science and Technology, 2012,63(3):431-449.
doi: 10.1002/asi.21694
[20] Willis D L, Bahler C D, Neuberger M M, et al. Predictors of Citations in the Urological Literature[J]. BJU International, 2011,107(12):1876-1880.
doi: 10.1111/j.1464-410X.2010.10028.x pmid: 21332629
[21] Hurley L A, Ogier A L, Torvik V I. Deconstructing the Collaborative Impact: Article and Author Characteristics that Influence Citation Count[J]. Proceedings of the American Society for Information Science and Technology, 2013,50(1):1-10.
[22] Franceschet M, Costantini A. The Effect of Scholar Collaboration on Impact and Quality of Academic Papers[J]. Journal of Informetrics, 2010,4(4):540-553.
[23] Roldan-Valadez E, Rios C. Alternative Bibliometrics from Impact Factor Improved the Esteem of a Journal in a 2-year-ahead Annual-citation Calculation[J]. European Journal of Gastroenterology & Hepatology, 2015,27(2):115-122.
doi: 10.1097/MEG.0000000000000253 pmid: 25533428
[24] Diekhoff T, Schlattmann P, Dewey M. Impact of Article Language in Multi-language Medical Journals-a Bibliometric Analysis of Self-citations and Impact Factor[J]. PLoS One, 2013,8(10):e76816.
doi: 10.1371/journal.pone.0076816 pmid: 24146929
[25] Winnik S, Raptis D A, Walker J H, et al. From Abstract to Impact in Cardiovascular Research: Factors Predicting Publication and Citation[J]. European Heart Journal, 2012,33(24):3034-3045.
doi: 10.1093/eurheartj/ehs113 pmid: 22669850
[26] Ringelhan S, Wollersheim J, Welpe I M. I Like, I Cite? Do Facebook Likes Predict the Impact of Scientific Work?[J]. PLoS One, 2015,10(8):e0134389.
doi: 10.1371/journal.pone.0134389 pmid: 26244779
[27] 吴朋民, 陈挺, 王小梅. Altmetrics 与引文指标相关性研究[J]. 数据分析与知识发现, 2018,2(6):58-69.
[27] ( Wu Pengmin, Chen Ting, Wang Xiaomei. The Correlation Between Altmetrics and Citations[J]. Data Analysis and Knowledge Discovery, 2018,2(6):58-69.)
[28] Abrishami A, Aliakbary S. Predicting Citation Counts Based on Deep Neural Network Learning Techniques[J]. Journal of Informetrics, 2019,13(2):485-499.
[29] Bai X M, Zhang F L, Lee I. Predicting the Citations of Scholarly Paper[J]. Journal of Informetrics, 2019,13(1):407-418.
[30] Yu T, Yu G, Li P Y, et al. Citation Impact Prediction for Scientific Papers Using Stepwise Regression Analysis[J]. Scientometrics, 2014,101(2):1233-1252.
[31] Cao X, Chen Y, Liu K J R, A Data Analytic Approach to Quantifying Scientific Impact[J]. Journal of Informetrics, 2016,10(2):471-484.
[32] Singh M, Jaiswal A, Shree P, et al. Understanding the Impact of Early Citers on Long-term Scientific Impact[C]// Proceedings of the 2017 ACM/IEEE Joint Conference on Digital Libraries (JCDL). 2017: 1-10.
[33] Sarigöl E, Pfitzner R, Scholtes I, et al. Predicting Scientific Success Based on Coauthorship Networks[C]// EPJ Data Science 2014, 44 3(1): Article No. 9.
[34] Pobiedina N, Ichise R. Citation Count Prediction as a Link Prediction Problem[J]. Applied Intelligence, 2016,44(2):252-268.
[35] 耿骞, 景然, 靳健, 等. 学术论文引用预测及影响因素分析[J]. 图书情报工作, 2018,62(14):29-40.
[35] ( Geng Qian, Jing Ran, Jin Jian, et al. Citation Prediction and Influencing Factors Analysis on Academic Papers[J]. Library and Information Service, 2018,62(14):29-40.)
[36] Robson B J, Mousquès A. Can We Predict Citation Counts of Environmental Modelling Papers? Fourteen Bibliographic and Categorical Variables Predict Less than 30% of the Variability in Citation Counts[J]. Environmental Modelling & Software, 2016,75:94-104.
[37] Sohrabi B, Iraj H. The Effect of Keyword Repetition in Abstract and Keyword Frequency per Journal in Predicting Citation Counts[J]. Scientometrics, 2017,110(1):243-251.
[38] Chen J P, Zhang C X. Predicting Citation Counts of Papers[C]// Proceedings of 2015 IEEE 14th International Conference on Cognitive Informatics & Cognitive Computing (ICCI*CC). 2015: 434-440.
[39] Waltman L, Van Eck N J, Van Raan A F J. Universality of Citation Distributions Revisited[J]. Journal of the American Society for Information Science and Technology, 2012,63(1):72-77.
[40] Eom Y H, Fortunato S. Characterizing and Modeling Citation Dynamics[J]. PLoS One, 2011,6(9):e24926.
doi: 10.1371/journal.pone.0024926 pmid: 21966387
[41] Lv L Y, Zhou T. Link Prediction in Complex Networks: A Survey[J]. Physica A: Statistical Mechanics and Its Applications, 2011,390(6):1150-1170.
[42] 张斌, 李亚婷. 学科合作网络链路预测结果的排序鲁棒性[J]. 信息资源管理学报, 2018,8(4):89-97.
[42] ( Zhang Bin, Li Yating. Ranking Robustness of Link Prediction Results in Disciplinary Collaboration Network[J]. Journal of Information Resources Management, 2018,8(4):89-97.)
[43] Hirsch J E. An Index to Quantify an Individual’s Scientific Research Output[J]. Proceedings of the National Academy of Sciences, 2005,102(46):16569-16572.
[44] Sinatra R, Wang D S, Deville P, et al. Quantifying the Evolution of Individual Scientific Impact[J]. Science, 2016, 354(6312):aaf5239.
doi: 10.1126/science.aaf5239 pmid: 27811240
[45] Information and Documentation — Guidelines for Bibliographic References and Citations to Information Resources:2010 [S/OL]. [2010-06-15]. https://www.iso.org/standard/72642.html.
[46] Kohavi R. A Study of Cross-validation and Bootstrap for Accuracy Estimation and Model Selection[C]// Proceedings of the 14th International Joint Conference on Artificial Intelligence-Volume 2. 1995: 1137-1143.
[47] WHO. The Top 10 Causes of Death[R/OL].[2018-05-24].https://www.who.int/news-room/fact-sheets/detail/the-top-10-causes-of-death.
[48] Bethesda (MD): National Center for Biotechnology Information. PubMed Help[EB/OL].[2019-07-25]. https://www.ncbi.nlm.nih.gov/books/NBK3827.
[49] Haustein S, Sugimoto C R, Larivière V, et al. The Thematic Orientation of Publications Mentioned on Social Media[J]. Aslib Journal of Information Management, 2015,67(3):260-288.
[50] 王睿, 胡文静, 郭玮, 等. 高Altmetrics指标科技论文学术影响力研究[J]. 图书情报工作, 2014,58(21):92-98.
[50] ( Wang Rui, Hu WenJing, Guo Wei, et al. Research on Academic Influence of High Altmetrics Sci-tech Papers[J]. Library and Information Service, 2014,58(21):92-98.)
[51] Altmetric. What Outputs and Sources does Altmetric Track?[EB/OL]. [2019-07-25]. https://help.altmetric.com/support/solutions/articles/6000060968-what-data-sources-does-altmetric-track-.
[52] 方志超, 王贤文. 科学论文首条推特的积累速度与用户类型分析[J]. 图书情报知识, 2019(2):28-38.
[52] ( Fang Zhichao, Wang Xianwen. Study on the Accumulation Speed and User Type of Scientific Publications’ First Tweets[J]. Documentation, Information & Knowledge, 2019(2):28-38.)
[1] 谢豪,毛进,李纲. 基于多层语义融合的图文信息情感分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 103-114.
[2] 马莹雪,赵吉昌. 自然灾害期间微博平台的舆情特征及演变*——以台风和暴雨数据为例[J]. 数据分析与知识发现, 2021, 5(6): 66-79.
[3] 张国标,李洁. 融合多模态内容语义一致性的社交媒体虚假新闻检测*[J]. 数据分析与知识发现, 2021, 5(5): 21-29.
[4] 刘倩, 李晨亮. 基于社交媒体的话题演变研究综述*[J]. 数据分析与知识发现, 2020, 4(8): 1-14.
[5] 谭荧,张进,夏立新. 社交媒体情境下的情感分析研究综述[J]. 数据分析与知识发现, 2020, 4(1): 1-11.
[6] 吴小兰,章成志. 学术社交媒体视角下学科知识流动规律研究*——以科学网为例[J]. 数据分析与知识发现, 2019, 3(4): 107-116.
[7] 王林,王可,吴江. 社交媒体中突发公共卫生事件舆情传播与演变*——以2018年疫苗事件为例[J]. 数据分析与知识发现, 2019, 3(4): 42-52.
[8] 王晰巍,王铎,郑晴晓,韦雅楠. 在线品牌社群环境下企业与用户的信息互动研究*——以虚拟现实产业为例[J]. 数据分析与知识发现, 2019, 3(3): 83-94.
[9] 蒋翠清,郭轶博,刘尧. 基于中文社交媒体文本的领域情感词典构建方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 98-107.
[10] 李纲,陈思菁,毛进,谷岩松. 自然灾害事件微博热点话题的时空对比分析 *[J]. 数据分析与知识发现, 2019, 3(11): 1-15.
[11] 章成志,李铮. 基于学术论文全文的创新研究评价句抽取研究 *[J]. 数据分析与知识发现, 2019, 3(10): 12-18.
[12] 景东, 张大勇. 社交媒体环境下用户信任度评估与传播影响力研究*[J]. 数据分析与知识发现, 2018, 2(7): 26-33.
[13] 李丹. 图书馆微信平台建设实践与思考*[J]. 现代图书情报技术, 2016, 32(4): 104-110.
[14] 廖海涵, 王曰芬. 社交媒体舆情信息传播效果影响因素研究*——以新浪微博“8.12天津爆炸”事件为例[J]. 数据分析与知识发现, 2016, 32(12): 85-93.
[15] 张永云, 张生太. 社交媒体知识协作网络中的明星效应和经纪人效应——来自Wikipedia社交媒体的发现[J]. 现代图书情报技术, 2015, 31(4): 72-78.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn