科研项目布局差异对比方法研究*——以NSF和EU FP项目为例
陈挺, 韩涛, 李泽霞, 李国鹏, 王小梅
中国科学院文献情报中心 北京 100190
陈挺, ORCID: 0000-0003-4785-5367, E-mail: chent@las.ac.cn。
摘要
目的

弥补目前科研项目布局分析往往局限在单一资助机构简单数量统计上的不足, 从内容上提高资助机构布局差异的揭示能力。

方法

针对多源项目数据, 提出一种基于文本K-means++聚类算法的分析方法, 尝试从科研项目内容揭示不同资助机构的资助方向和布局重点, 分析比较各资助机构在研究方向上的资助差异。

结果

使用美国NSF与欧盟FP资助的项目信息进行方法验证与案例分析, 发现相对于多个关键词, 基于单个关键词构建的文本特征空间有更好的聚类效果。进一步去除项目申请书摘要中项目背景、未来影响等干扰信息, 只保留研究内容、研究方法等实质性研究描述文本, K-means++算法的聚类效果有进一步提升。【局限】数据清洗尚不能完全自动实现, 聚类参数的预设与调整也需人工参与。

结论

实验与案例证明该方法是可行的, 分析结果能够比较直观地反映资助机构的布局差异, 对科研管理与决策者审视宏观科研布局、前瞻科技发展方向起到一定的辅助作用。

关键词: 科研项目; 科研布局; K-means++聚类; 轮廓系数
中图分类号:
Research on Comparison Method of Scientific Funding Layout——Take NSF and EU FP Grants for Instance
Chen Ting, Han Tao, Li Zexia, Li Guopeng, Wang Xiaomei
National Science Library, Chinese Academy of Sciences, Beijing 100190, China
Abstract

[Objective] This study targets to improve the ability to discover research layout of funding agencies based on their funding application documents. [Methods] The K-means++ clustering method is proposed to analyse the funding direction and main focus based on multiple sources of funding application documents. [Results] After validation and a case study based on the funding application abstracts from NSF and FP, it is discovered that single-word feature is more accurate than multi-word feature in the K-means++ clustering. If only keep the essential contents of application abstrcts as analysis documents, the accuracy of the K-means++ clustering is significantly improved. [Limitations] Data cleaning of the funding application documents is not fully automated. Adjustment of clustering parameters need to be manually controlled. [Conclusions] The K-means++ clustering of funding application documents is a practicable method by validation and case study. Research layout differences in agencies’ funding trends are discovered and could be helpful for scientific management and policy decision.

Keyword: Research; funding; Research; layout; K-means++; clustering; Silhouette; coefficients
1 引 言

国立科研资助机构资助的科研项目是国家科技研发工作的具体部署, 体现了国家科技发展战略的重点与方向。科研项目申请书正是这样一种载体, 不仅能从微观上反映个体研究的内容和设想, 还能从宏观上反映一定时期国家科技发展部署。通过对科研项目申请相关数据的分析, 可以揭示具体的研究设想, 也可以展现宏观的科研布局, 进而辅助科研咨询、管理, 前瞻科技发展的方向与趋势。

利用科研项目相关数据, 有学者开展了学科布局、依托单位分布、地区分布的研究[1, 2, 3, 4], 有学者开展了科研项目论文产出绩效分析[5, 6, 7, 8, 9, 10], 还有学者开展了基础研究竞争力分析[11, 12]。综合上述研究发现, 现有基于科研项目布局的分析往往受制于资助数据不全或各资助机构之间资助数据不统一等原因, 要么局限于单一资助机构分

析, 只能体现单一资助机构布局, 无法进行多个资助机构之间的横向比较, 要么针对某个资助机构提供简单数据统计, 或结合产出论文进行计量分析, 分析维度过于宏观, 不能有效揭示科研布局研究内容的差异。

本研究利用多个国立科研资助机构的项目申请书摘要文本, 基于机器学习聚类算法, 尝试设计一种文本聚类分析方法, 使科研布局的揭示不再局限于单一资助机构的宏观层面统计分析, 而能够挖掘研究领域中多个资助方向, 还能比较分析不同资助机构在研究领域内各个方向上的详细布局, 从而为国家科技部署提供一定程度的参考与支撑。

2 分析方法与验证
2.1 分析方法

采集、清理多个资助机构的项目信息, 采用文本分析技术形成项目申请书的文本特征向量及相似关系, 使用K-means++聚类算法[13]形成代表不同研究方向的若干个项目聚类簇, 使用自然语言分析工具提取聚类簇概念词为聚类命名。在此基础上, 以可视化的方式对比资助机构的资助方向、资助金额等维度, 分析资助机构项目布局。分析流程如图1所示:

图1 分析流程图

(1) 数据采集与清洗

数据取自“ 战略研究信息集成服务平台-项目数据库[14]” , 该库采集积累了世界主要科研资助机构的项目资助信息, 覆盖11个国家(地区)、28个科研资助机构, 超过430万条资助项目, 并不断更新。本研究选用其中数据相对规范、内容较为完备且最具有代表性的美国NSF (National Science Foundation)与欧盟FP (Framework Program)资助项目作为实验和案例分析数据。为了提高聚类算法的准确性, 必须对项目申请书摘要进行规范和清洗, 去除研究机构、申请人的背景介绍和关于未来广泛影响等文本, 只保留摘要中关于研究内容、技术方案的实质性文本内容。清洗规则如表1所示:

表1 项目文本清洗规则

(2) 特征向量空间构建

构建项目申请书摘要的特征向量空间可以使用单词或者多词词组作为文本特征词。本研究使用在线自然语言处理服务AlchemyAPI[15]的关键词抽取接口, 抽取长度从1到5不等的关键词构建特征向量空间。由于单词或多词特征空间会影响聚类效果, 因此在后续方法验证中针对两种特征词提取方式开展聚类效果对比实验, 以确定适合项目申请书文本聚类的向量空间构成方法。

(3) 文本聚类算法选择

K-means聚类算法在文本聚类中被广泛应用, 不仅准确度高, 而且速度较快。本研究选用K-means改进算法K-means++, 该算法由Arthur等[13]于2007年提出, 使用选择初始值(Seeds)的方法进行K-means聚类, 以解决标准K-means算法的NP-Hard问题, 通过多次随机分配初始中心点的方式改进了固定初始中心点有可能造成的聚类效果不佳的情况[16]。但是与标准K-means算法一样, K-means++算法也存在较大的局限性, 即需在聚类前指定聚类簇个数K, 找出最佳K值一直是聚类分析研究的一个挑战, 并没有一个特别好的解决方案[17]。本研究采用轮廓系数法[18]辅助确定初始聚类数K, 进而调节K值大小, 得到最佳聚类效果。常用聚类算法运算速度比较如表2所示, 测试样本量为1 500, 使用Scikit-Learn Cluster脚本[19]测试。

表2 常用聚类算法运算速度比较

(4) 聚类簇自动命名

一般而言, 通常使用高频特征词为聚类簇命名。为了提高准确性和概括性, 将聚类簇中全部文本合并为一个大文本, 使用在线自然语言处理服务AlchemyAPI的概念词抽取接口抽取大文本的概念词, 以此作为聚类簇的命名。实验发现, 概念词能够较准确地反映聚类簇的主要特征, 与学科情报研究人员的判读结果有较高一致性, 而且也有比较好的可读性, 能为专家快速判读起到很好的辅助作用。

2.2 方法有效性验证

(1) 实验设计

由于各资助机构项目申请书文本有其独特的格式与行文方式, K-means++算法针对项目申请书文本的聚类效果需要验证。本研究设计了验证实验, 分别基于单词和多词两种特征向量空间进行K-means++聚类, 验证其有效性。验证流程如图2所示:

图2 聚类算法有效性验证流程图

①熟语料数据集构建

①本研究中的聚类算法采用Python程序编写, 查看地址: https: //github.com/jy00295005/ML.

本研究根据检索策略与数据清洗力度的不同, 共做了三次有效性验证实验。每次实验在粒子物理领域内使用三个关键词分别检索三组数据, 检索关键词即作为相应数据集的标签。如表3所示, 实验1使用关键词在项目题名与摘要中检索出983条数据; 实验2为提高检索词与相应数据集的相关性, 只在项目题名中检索出196条数据; 实验3对实验2的数据进行人工清洗, 去除不完整的数据以及科普、教育等非实质性科学研究项目, 进一步提高检索词与相应数据集的相关性, 最终保留161条数据。用关键词做标签的三组数据混合在一起, 构成了相应实验的语料。

表3 三组测试数据的单词、多词聚类结果比较

②基于单词、多词两种特征向量空间分别聚类

每次实验在三组数据构成的语料上分别构建单词与多词的特征向量空间, 对两种特征向量空间分别进行K-means++聚类, 得到两种聚类结果。每次聚类都经过200次随机中心点初始化计算, 迭代800次, 最后选择效果最佳的一次作为最终聚类结果。

③聚类效果比较

本研究使用Adjusted Rand Index (ARI)检验聚类效果。Rand Index由Rand[20]于1971年最早提出, 在1985年由Lawrence等[21]改进为Adjusted Rand Index, 基本思想是通过聚类结果标签与数据真实标签的相似性评价聚类效果, 是常用的聚类有效性判断方法, ARI取值范围是[-1, 1], 越接近1表示聚类结果越接近于实际情况。

(2) 实验结果分析

表3所示, 在全部三次实验中, 单词作为特征词的聚类效果均优于多词。尤其在实验3中, 单词特征聚类结果与真实情况的ARI值为0.979, 只错判一条数据。人工审阅发现, 该条数据虽然题名含有检索关键词“ Higgs” 而给予标签1— -Higgs, 但摘要中大量篇幅讨论“ Dark selection” , 在文本层面上与标签3— - Dark matter更相似, 所以聚类算法将其判为类别3— - Dark matter。图3(a)为实验三单词特征聚类结果在二维空间中的映射, 可以看到三个轮廓清晰的聚类簇, 而且聚类结果与数据实际标签基本相符。图3(b)为实

图3 实验3聚类结果

验三轮廓系数曲线图, 在聚类簇个数K为3时轮廓系数最高, 这与实际数据符合。

根据以上的实验结果证明在清洗噪音数据后, 如果能准确判断聚类簇个数, K-means++聚类算法在项目申请书摘要文本聚类中有非常良好的聚类效果, 直接使用单词特征空间聚类比多词效果更好。多词特征空间聚类效果较低的原因可能有两点:

(1) AlchemyAPI抽词不够准确, 无法真实表达文本的特征;

(2) 抽取的关键词多由2-5个单词组成, 而项目申请书摘要篇幅较短, 关键词在文本中重复出现频率偏低和tf-idf权重过低, 造成特征向量空间特征不够明显, 进而影响文本特征距离, 最终影响K-means++聚类算法的准确性。

3 案例应用— — 以NSF和FP中的“ LHC” 相关项目为例

在“ 战略研究信息集成服务平台-资助项目数据库” 中检索2009年-2013年NSF与FP资助的大型强子对撞机(LHC)相关项目数据共214篇, 去除摘要缺失项目, 会议、科普等非实质性研究项目, 最终保留197篇, 其中NSF项目139篇占70.55%, FP项目58篇约占29.45%。

聚类前计算轮廓系数, 找出可能的聚类簇数K。根据经验, 由于数据量较少, 存在超过20个研究方向的可能性较小, 因此只计算K=2到K=20的19次轮廓系数值, 如图4(a)所示, 当K=8时, 轮廓系数最高。使用K=8开展K-means++聚类, 聚类结果如图4(b)与表4所示。表5为使用自然语言处理工具AlchemyAPI抽取的聚类簇概念词, 与表4对比可以看出, 自动抽取的聚类簇概念词与人工判读具有较高一致性。

通过聚类结果可以看出, NSF与FP两个主要科研资助机构在8个聚类簇中有明显差异。FP项目大约占全部数据的29.45%, 主要分布在类0、类2和类4中, 其中类2和类0所占比例最高, 分别为54%和44%。NSF因为本身项目体量约为FP的3倍, 每个聚类簇中均占据很高的比例, 在类3、类5和类7中都超过了90%。据此可以看出NSF和FP针对不同研究主题设定了不同的资助重点。

表4 聚类簇人工判读结果

在聚类结果之上, 进一步分析资助机构年度资助项目个数与资助项目金额的趋势。图5以类1 “ Astrophysics and cosmology, Dark matter” 为例, NSF和FP在此主题中项目数量年度变化基本一致, 但NSF的资助金额在2010年后大幅下降, FP在2011年之后也处于下降趋势。而在类2 “ Higgs boson、Photon Parton、Top quark” 中, FP在2009年和2010年资助力度低于NSF, 但2010年后提高资助力度, 到2013年不论从资助项目个数到资助项目金额均远远超过NSF。由此看出, FP重视该方向的研究并逐年增加投入。

图5 NSF、FP的资助项目个数及金额年度趋势

基于上述方法开发项目布局差异在线分析工具。工具实现了NSF、FP项目信息的关键词检索、项目申请书文本特征空间向量构建、实时在线K-means++文本聚类、聚类结果可视化分析等功能, 如图6所示。

表5 聚类簇NLP概念词抽取结果

图6 项目布局差异在线分析工具

4 结 语

本研究通过文本聚类分析揭示研究领域的不同资助方向, 进一步对比资助机构的项目比例、资助项目个数/资助金额等趋势。实验结果分析表明, 本研究中设计的对比分析方法是可行的, 比较直观地反映了资助机构的布局差异。分析结果可以很好地解释科研资助机构对某一研究主题的资助趋势, 可以揭示不同资助机构项目布局, 从而了解资助机构的研究重点和研究意图以及发展趋势, 为我国主要科研机构的项目设置提供情报支持。

目前仅仅使用两个资助机构进行实验分析, 未来如果能够完善项目数据库中其他资助机构项目数据, 改进数据清洗规则与聚类准确度, 同时加强与学科情报分析人员的交流合作, 相信可以进一步完善分析方法, 更准确更全面地揭示各国、各资助机构项目布局的特征和差异。

参考文献
[1] 周兴明. 科学基金制是调控我国科学资源优化配置的重要手段——1982至1995年国家自然科学基金优化配制情况统计分析[J]. 科研管理, 1997, 18(6): 1-15.
(Zhou Xingming. The Foundation System of Nature Science is an Important Means for Adjusting the Optimal Allocation of Science Research Resources in China ——The Statistic Analysis of the Projects Supported by the Foundations of Nature Science from 1982 to 1995[J]. Science Research Management, 1997, 18(6): 1-15. ) [本文引用:1] [CJCR: 1.633]
[2] 陈丽贞, 李洁, 郑世珠, . 国家自然科学基金项目依托单位的分布统计研究[J]. 科研管理研究, 2008, 28(3): 106-108.
(Chen Lizhen, Li Jie, Zheng Shizhu, et al. Statistical Distribution Research on Research Agency of National Natural Science Foundation of China[J]. Science and Technology Management Research, 2008, 28(3): 106-108. ) [本文引用:1] [CJCR: 0.65]
[3] 蒋颖, 阳宁晖, 刘筱敏, . 我国国家自然科学基金的地区分布研究[J]. 科学学与科学技术管理, 2003, 24(3): 5-10.
(Jiang Ying, Yang Ninghui, Liu Xiaomin, et al. Regional Distribution Research Based on National Natural Science Foundation of China[J]. Science of Science and Management of S. & T. , 2003, 24(3): 5-10. ) [本文引用:1]
[4] Eckhouse S, Lewison G, Sullivan R. Trends in the Global Funding and Activity of Cancer Research[J]. Molecular Oncology, 2008, 2(1): 20-32. [本文引用:1] [JCR: 5.935]
[5] 孙金伟, 刘迪, 王贤文, . 科学基金资助与SCI论文产出: 对10个国家的比较分析[J]. 科学学研究, 2013, 31(1): 36-42.
(Sun Jinwei, Liu Di, Wang Xianwen, et al. Science Funding and SCI Paper Output: A Comparative Analysis on 10 Countries[J]. Studies in Science of Science, 2013, 31(1): 36-42. ) [本文引用:1] [CJCR: 1.878]
[6] 王贤文, 刘则渊, 侯海燕. 全球主要国家的科学基金及基金论文产出现状: 基于Web of Science的分析[J]. 科学学研究, 2010, 28(1): 62-66.
(Wang Xianwen, Liu Zeyuan, Hou Haiyan. Global Assessment of Science Funding and Funding Papers: A Study of Web of Science[J]. Studies in Science of Science, 2010, 28(1): 62-66. ) [本文引用:1] [CJCR: 1.878]
[7] 孟浩, 周立, 何建坤. 自然科学基金投入与科技论文产出的协整分析[J]. 科学学研究, 2007, 25(6): 1147-1150.
(Meng Hao, Zhou Li, He Jiankun. The Co-integration Ananlysis on NSF Input and S&T Paper Output[J]. Studies on Science of Science, 2007, 25(6): 1147-1150. ) [本文引用:1]
[8] 周小刚, 罗云峰. 1986-2006 年国家自然科学基金大气科学领域面上项目基金资助及成果统计分析[J]. 地球科学进展, 2007, 22(5): 540-546.
(Zhou Xiaogang, Luo Yunfeng. A Summary on General Program Projects in Atmospheric Science Funded by the National Natural Science Foundation of China from 1986 to 2006[J]. Advances in Earth Science, 2007, 22(5): 540-546. ) [本文引用:1] [CJCR: 1.16]
[9] 相东升. 《情报科学》2001—2005年基金资助论文定量分析[J]. 情报科学, 2006, 24(10): 1501-1504.
(Xiang Dongsheng. Quantitative Analysis upon Fund-sponsored Theses in 2001-2005 Information Science[J]. Information Science, 2006, 24(10): 1501-1504. ) [本文引用:1] [CJCR: 1.033]
[10] Auranen O, Nieminen M. University Research Funding and Publication Performance—An International Comparison[J]. Research Policy, 2010, 39(6): 822-834. [本文引用:1]
[11] 马廷灿, 曹慕昆, 王桂芳. 从国家自然科学基金看我国各省市基础研究竞争力[J]. 科学通报, 2011, 56(36): 3115-3121.
(Ma Tingcan, Cao Mukun, Wang Guifang. Analysis of the Regional Competitiveness of Basic Research in China Based on the National Natural Science Fundation of China[J]. Chinese Science Bulletin, 2011, 56(36): 3115-3121. ) [本文引用:1] [CJCR: 1.541]
[12] 华子春, 王雨轩. 基金相对资助率——反映国家自然科学基金竞争能力的一个新指标[J]. 中国科学基金, 2009, 23(1): 50-55.
(Hua Zichun, Wang Yuxuan. The Relative Funding Rate —— A New Indicator Representing Competitiveness of the Grants from the National Natural Science
Foundation[J]. Science Foundation in China, 2009, 23(1): 50-55. ) [本文引用:1]
[13] Arthur D, Vassilvitskii S. K-means++: The Advantages of Careful Seeding [C]. In: Proceedings of the 18th Annual ACM-SIAM Symposium on Discrete Algorithms. Society for Industrial and Applied Mathematics, 2007: 1027-1035. [本文引用:2]
[14] 战略研究信息集成服务平台[EB/OL]. [2014-05-20]. http: //strategy. las. ac. cn.
( Integrated Information Platform for Strategic Research of CAS [EB/OL]. [2014-05-20]. http://strategy.las.ac.cn [本文引用:1]
[15] AlchemyAPI [EB/OL]. [2014-05-20]. http://www.alchemyapi.com. [本文引用:1]
[16] K-means++[EB/OL]. [2014-07-13]. http://en.wikipedia.org/w/index.php?title=K-means%2B%2B. [本文引用:1]
[17] Moh’d B AI- Zoubi, Mohammad al Rawi. An Efficient Approach for Computing Silhouette Coefficients[J]. Journal of Computer Science, 2008, 4(3): 252. [本文引用:1]
[18] Rousseeuw P J. Silhouettes: A Graphical Aid to the Interpretation and Validation of Cluster Analysis[J]. Journal of Computational and Applied Mathematics, 1987, 20: 53-65. [本文引用:1] [JCR: 1.077]
[19] Scikit-Learn [EB/OL]. [2014-05-14]. http://scikit-learn.org/stable/_downloads/plot_cluster_comparison.py. [本文引用:1]
[20] Rand W M. Objective Criteria for the Evaluation of Clustering Methods[J]. Journal of the American Statistical Association, 1971, 66(336): 846-850. [本文引用:1] [JCR: 2.114]
[21] Lawrence H, Phipps A. Comparing Partitions[J]. Journal of Classification, 1985, 2(1): 193-218. [本文引用:1] [JCR: 0.571]