数据分析与知识发现  2022, Vol. 6 Issue (10): 20-34
华中师范大学信息管理学院 武汉 430079
Recommending Research Collaborators Based on Scholar Profiling
Dong Wenhui,Xiong Huixiang,Du Jin,Wang Niuniu()
School of Information Management, Central China Normal University, Wuhan 430079, China
【目的】 帮助学者快速地找到合适的科研合作者,促进科研产出,增进学术交流。【方法】 采用LDA主题模型、PageRank算法、社会网络分析等方法,全面深入挖掘学者的自然属性、兴趣属性、能力属性、社交属性4个维度特征以构建学者画像,并基于学者偏好开展科研合作者推荐。【结果】 从CNKI和CSSCI获取图书情报领域14 007篇文献、13 292条引文数据及11 869位作者验证所提模型,最终向目标学者推荐了20名研究兴趣相似及互补的潜在科研合作者。【局限】 未能很好地解决冷启动问题,且在学者能力表征方面忽略了不同署名顺序的作者对论文的贡献度,在实证环节数据量选择有限。【结论】 所提模型可以有效地向目标学者推荐高权威度、高相关度,且科研生产力和社交关系等多方面特征均高度匹配的潜在科研合作者,具有较好的应用价值。

关键词 学者画像科研合作者推荐LDAPageRank社会网络分析    

[Objective] This paper helps scholars quickly find suitable scientific research partners, and then promote research output and enhance academic exchanges. [Methods] First, we explored the four dimensional characteristics of scholars’ natural attributes, interest attributes, ability attributes and social attributes with the LDA topic model, PageRank algorithm and social network analysis. Then, we constructed scholars’ profiles, and recommended collaborators based on their preferences. [Results] We examined the proposed method with 14 007 articles, 13 292 citations and 11 869 authors in the field of Library and Information Science from the CNKI and CSSCI databases. A total of 20 potential collaborators with similar and complementary research interests were recommended to the target scholars. [Limitations] More research is needed to address the cold start issue, as well as the contribution of authors in different signing orders of the papers. The data of the empirical study also needs to be expanded. [Conclusions] The proposed model can effectively recommend potential research collaborators for the target scholars, which has good application value.

Key wordsScholar Profiling    Recommendation of Research Collaborators    Latent Dirichlet Allocation    PageRank    Social Network Analysis
收稿日期: 2021-12-27      出版日期: 2022-11-16
ZTFLH:  G203  
通讯作者: 王妞妞,ORCID:0000-0003-1513-3503      E-mail:
董文慧, 熊回香, 杜瑾, 王妞妞. 基于学者画像的科研合作者推荐研究*[J]. 数据分析与知识发现, 2022, 6(10): 20-34.
Dong Wenhui, Xiong Huixiang, Du Jin, Wang Niuniu. Recommending Research Collaborators Based on Scholar Profiling. Data Analysis and Knowledge Discovery, 2022, 6(10): 20-34.
Fig.1  基于学者画像的学者推荐框架
学术年龄划分/年 等级
AA≥24 A3
12≤AA<24 A2
AA<12 A1
Table 1  学者学术年龄等级划分
教育背景/职称 等级
教授/研究员/研究馆员/馆长 B6
副教授/副研究员/副研究馆员/副编审/编委 B5
讲师/博士后/馆员/助理研究员/助理教授 B4
博士/助理馆员/实习研究员/独立学者 B3
硕士 B2
本科 B1
Table 2  学者教育背景/职称等级划分
机构建设水平∪机构学科评估 评级
985∩A+ C6
部分研究所/院 C5
211∩B C4
部分研究所/院∪公共图书馆∪期刊 C3
其他一本∪公司 C2
其他二本∪其他专科 C1
Table 3  机构等级划分
Fig.2  学者画像指标体系
标度 含义(比较因素ij
1 因素ij相比,同样重要
3 因素ij相比,稍微重要
5 因素ij相比,较强重要
7 因素ij相比,强烈重要
9 因素ij相比,极端重要
2、4、6、8 上述两个相邻判断因素的中间值
倒数 因素ji相比得到的判断矩阵为Zji= 1 Z i j
Table 4  判断矩阵元素的标度方法
编号 作者 年份 篇名 期刊 关键词 摘要 作者机构 引用文献作者
1 樊伟;姜晓;…
2016 “2015俄罗斯联邦… 图书馆建设 俄罗斯;文学年;阅读推广… “2015俄罗斯联邦文学年”… 四川大学.图书馆 柏定国|石继华|樊伟|刘文飞…
2 陈云伟;张志强; 2018 科学计量学迎接新挑战… 图书与情报 科学计量;科技评价;科学… “2018科学计量与科技评… 中国科学院成都文献… A|武夷山…
3 谢凡;许春漫; 2018 从美国Libraries… 图书馆建设 图书馆转型运动;图书馆… “Libraries Transform Campai… 福建师范大学社会… 吴建中|柯平|谢凡…
4 高峰; 2017 公共图书馆3.0:打造“城… 图书馆论坛 图书馆3.0;公共图书馆… “城市办公室”是公共图… 河南理工大学… 阮冈纳赞|段小虎…
5 黄安妮;陈雅; 2019 我国城市图书馆“城市… 图书馆学研究 城市图书馆;“城市书房”… “城市书房”是指由城市… 南京大学… 徐路|吴建中|温州市图书馆…
9148 邱建玲; 2016 美国图书馆协会多元文化… 大学图书馆学报 大学阅读推广的实践路径… 做好大学阅读推广工作… 南方科技大学图书馆 J|We…
Table 5  文献信息总表
编号 姓名 学术
机构 机构
摘要 摘要分词结果
1 毕强 20 28 56 教授 吉林大学 吉林 985 B [目的/意义]对苏新宁等著的《面向知识服务… 的作用 苏 新宁著 面向 知识服务…作用
2 赵蓉英 18 28 55 教授 武汉大学 湖北 985 A+ [目的/意义]将引用内容分析与引文著录分析…方式等 引用内容分析 引文著录分析…方式
3 李纲 32 29 44 教授 武汉大学 湖北 985 A+ [目的/意义]在科学研究中,科研团队通过学术交流…客观结果 科学研究 科研团队 学术交流…客观
4 明均仁 14 22 39 副教授 武汉工程大学 湖北 一本 [目的/意义]构建大学生参与高校图书馆…等发展建议 大学生 参与 高校图书馆…建议
5 张敏 16 19 39 教授 武汉大学 湖北 985 A+ [目的/意义]电子资源下载管理是数字图书馆…采纳意愿 电子资源 下载 管理 数字图书馆…采纳意愿
6 朱庆华 33 38 39 教授 南京大学 江苏 985 A+ [目的/意义]为了更加客观地评估和管理数字图书馆…的用户信息行为探索 客观 评估 管理 数字图书馆…用户信息行为
606 朱强 37 28 6 研究馆员 北京大学 北京 985 B+ “十三五”时期,我国图书馆事业的发展将面临新的…提供参考 十三五 时期 我国 图书馆事业 发展 面临…提供参考
Table 6  学者信息总表
学术年龄划分/年 等级 A3的相似分值 A2的相似分值 A1的相似分值
AA≥24 A3 1 0.5 0
12≤AA<24 A2 0.5 1 0.5
AA<12 A1 0 0 1
Table 7  学术年龄相似度赋分表
省份 北京 天津 河北 山西 内蒙古 辽宁 新疆
北京 0.010 0.004 0.002 0.002 0.002 0.000
天津 0.010 0.004 0.002 0.002 0.002 0.000
河北 0.004 0.004 0.006 0.003 0.001 0.000
山西 0.002 0.002 0.006 0.003 0.001 0.000
内蒙古 0.002 0.002 0.003 0.003 0.001 0.000
辽宁 0.002 0.002 0.001 0.001 0.001 0.000
新疆 0.000 0.000 0.000 0.000 0.000 0.000
Table 8  省份地理距离矩阵倒数
Fig.3  主题数一致性折线图
学者 毕强 赵蓉英 李纲 明均仁 张敏 朱庆华 王福 司莉 杨新涯 朱强
毕强 1 0.648 0.907 0.853 0.804 0.932 0.851 0.863 0.740 0.654
赵蓉英 0.648 1 0.820 0.495 0.562 0.694 0.392 0.694 0.552 0.497
李纲 0.907 0.820 1 0.724 0.764 0.929 0.615 0.864 0.729 0.651
明均仁 0.853 0.495 0.724 1 0.835 0.882 0.811 0.870 0.873 0.813
张敏 0.804 0.562 0.764 0.835 1 0.914 0.677 0.674 0.581 0.504
朱庆华 0.932 0.694 0.929 0.882 0.914 1 0.727 0.886 0.776 0.714
王福 0.851 0.392 0.615 0.811 0.677 0.727 1 0.719 0.640 0.595
司莉 0.863 0.694 0.864 0.870 0.674 0.886 0.719 1 0.931 0.901
杨新涯 0.740 0.552 0.729 0.873 0.581 0.776 0.640 0.931 1 0.967
朱强 0.654 0.497 0.651 0.813 0.504 0.714 0.595 0.901 0.967 1
Table 9  学者兴趣相似度结果
学者 毕强 赵蓉英 李纲 明均仁 张敏 朱庆华 王福 司莉 杨新涯 朱强
毕强 1 1.542 1.103 1.172 1.244 1.073 1.175 1.158 1.351 1.528
赵蓉英 1.542 1 1.220 2.021 1.780 1.441 2.550 1.441 1.811 2.012
李纲 1.103 1.220 1 1.380 1.309 1.076 1.626 1.158 1.371 1.535
明均仁 1.172 2.021 1.380 1 1.197 1.134 1.233 1.150 1.146 1.229
张敏 1.244 1.780 1.309 1.197 1 1.094 1.478 1.483 1.720 1.985
朱庆华 1.073 1.441 1.076 1.134 1.094 1 1.376 1.128 1.289 1.400
王福 1.175 2.550 1.626 1.233 1.478 1.376 1 1.392 1.562 1.680
司莉 1.158 1.441 1.158 1.150 1.483 1.128 1.392 1 1.075 1.109
杨新涯 1.351 1.811 1.371 1.146 1.720 1.289 1.562 1.075 1 1.034
朱强 1.528 2.012 1.535 1.229 1.985 1.400 1.680 1.109 1.034 1
Table 10  学者兴趣互补度结果
编号 姓名 2019发文量 2018发文量 2017发文量 2016发文量 2015发文量 h指数 hT
1 毕强 10 14 9 8 15 28 16.877
2 赵蓉英 5 12 16 13 9 28 16.323
3 李纲 6 7 8 15 8 29 14.995
4 明均仁 4 10 12 8 5 22 12.397
5 张敏 8 10 7 11 3 19 11.880
6 朱庆华 9 10 11 7 2 38 17.807
7 王福 5 17 7 4 5 14 10.288
8 司莉 4 11 8 5 8 25 12.862
9 杨新涯 9 5 10 6 5 18 10.975
606 朱强 0 0 2 2 2 28 9.113
Table 11  学者 h T指标计算结果
编号 姓名 机构 机构权威度得分
1 毕强 吉林大学 0.8
2 赵蓉英 武汉大学 1
3 李纲 武汉大学 1
4 明均仁 武汉工程大学 0.2
5 张敏 武汉大学 1
6 朱庆华 南京大学 1
7 王福 内蒙古工业大学 0.2
8 司莉 武汉大学 1
9 杨新涯 重庆大学 0.4
606 朱强 北京大学 0.8
Table 12  学者机构权威度得分
编号 姓名 被引PageRank值
1 邱均平 0.022
2 张晓林 0.013
3 赵蓉英 0.013
4 马费成 0.011
5 初景利 0.011
6 程焕文 0.009
7 范并思 0.009
8 柯平 0.009
9 王子舟 0.008
606 许鹏程 0.000
Table 13  学者被引PageRank值计算结果
Fig.4  学者合作网络
Fig.5  机构合作网络
编号 姓名 点度中心度 中介中心度
1 李辉 14 10 627.516
2 孙建军 12 5 659.870
3 毕强 11 4 964.551
4 吴晨生 11 63.475
5 刘如 11 63.475
6 方曙 11 6 673.432
7 司莉 10 6 933.669
8 张璐 10 3 817.294
9 杨国立 10 3 684.790
606 周毅 0 0
Table 14  学者中心度计算结果
编号 机构 点度中心度 中介中心度
1 武汉大学 41 3 326.953
2 南京大学 23 1 806.757
3 吉林大学 20 1 503.346
4 北京大学 16 1 114.261
5 南开大学 14 861.111
6 中山大学 14 818.310
7 中国科学院文献情报中心 13 618.263
8 中科院成都文献情报中心 12 508.547
9 南京农业大学 11 252.443
185 中国农业科学院 0 0
Table 15  机构中心度计算结果
维度 维度
指标 指标
自然属性 0.121 1 学术年龄 0.448
2 教育背景/职称 0.283
3 机构所属省份地理距离 0.269
兴趣属性 0.482 1 兴趣相似度 1
能力属性 0.253 1 融合逐年发文量的h指数 0.787
2 机构权威度 0.213
社交属性 0.144 1 被引PageRank值 0.548
2 学者点度中心度 0.166
3 机构点度中心度 0.125
4 学者中介中心度 0.092
5 机构中介中心度 0.069
Table 16  专家4个维度及相关指标权重结果
编号 姓名 自然属性得分 兴趣属性得分 能力属性得分 社交属性得分 合作者推荐得分
1 邱均平 0.094 0.315 0.253 0.134 0.796
2 李纲 0.094 0.417 0.187 0.071 0.769
3 朱庆华 0.079 0.421 0.215 0.038 0.754
4 马费成 0.121 0.363 0.171 0.081 0.735
5 邓胜利 0.121 0.399 0.164 0.050 0.733
6 王晓光 0.121 0.437 0.110 0.046 0.713
7 毕强 0.093 0.379 0.195 0.046 0.713
8 袁勤俭 0.106 0.431 0.136 0.028 0.701
9 赵蓉英 0.121 0.285 0.200 0.094 0.700
10 苏新宁 0.106 0.368 0.163 0.062 0.699
605 刘偲偲 0.026 0 0.014 0.005 0.046
Table 17  兴趣相似科研合作者推荐结果
编号 姓名 自然属性得分 兴趣属性得分 能力属性得分 社交属性得分 合作者推荐得分
1 黄如花 0.121 0.250 0.181 0.059 0.610
2 鄂丽君 0.091 0.421 0.071 0.016 0.598
3 金武刚 0.100 0.384 0.089 0.013 0.586
4 于静 0.089 0.398 0.073 0.013 0.573
5 束漫 0.098 0.392 0.065 0.004 0.559
6 邱均平 0.094 0.077 0.253 0.134 0.558
7 肖希明 0.121 0.209 0.164 0.050 0.544
8 刘偲偲 0.026 0.482 0.014 0.005 0.528
9 易斌 0.120 0.360 0.037 0.007 0.524
10 陈传夫 0.121 0.198 0.145 0.058 0.522
605 刘雅姝 0.011 0.009 0.030 0.008 0.058
Table 18  兴趣互补科研合作者推荐结果
