Advanced Search

数据分析与知识发现  2018 , 2 (8): 1-9 https://doi.org/10.11925/infotech.2096-3467.2018.0251

研究论文

基于t-SNE降维的科学基金资助项目可视化方法研究*

陈挺123, 李国鹏3, 王小梅3

1中国科学院文献情报中心 北京 100190
2中国科学院大学 北京 100049
3中国科学院科技战略咨询研究院 北京 100190

Visualizing Appropriation of Research Funding with t-SNE Algorithm

Chen Ting123, Li Guopeng3, Wang Xiaomei3

1National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2University of Chinese Academy of Sciences, Beijing 100049, China
3Institutes of Science and Development, Chinese Academy of Sciences, Beijing 100190, China

中图分类号:  P315 G312

通讯作者:  通讯作者: 陈挺, ORCID: 0000-0003-4785-5367, E-mail: chenting@casid.cn

收稿日期: 2018-03-7

修回日期:  2018-04-20

网络出版日期:  2018-08-25

版权声明:  2018 《数据分析与知识发现》编辑部 《数据分析与知识发现》编辑部

基金资助:  *本文系国家自然科学基金项目“科学结构特征及其演化动力学分析方法应用研究”(项目编号: 71173211)和中国科学院科技战略咨询研究院青年基金项目“科研项目布局分析中关键技术方法研究”(项目编号: Y7X1161Q01)的研究成果之一

展开

摘要

目的】设计主题模型结合流形学习文本特征降维可视化方案, 更有效地发现与更直观地展示科研基金资助布局。【方法】基于美国NSF信息与智能系统(IIS)10年(2008-2017)的基金资助项目数据, 利用聚类算法结合人工判读构建项目主题标签; 利用TF-IDF向量空间模型与LSA潜在语义分析主题模型分别构建项目申请书高维特征, 采用流形学习中t-SNE非线性降维算法将高维特征映射到二维或三维空间中可视化展示; 基于构建的项目主题标签结合人工判读检验可视化效果。【结果】实验结果表明, t-SNE算法结合潜在语义分析模型在实验数据降维效果明显, 可视化图谱不论在二维还是三维空间中, 相同主题项目有较好的聚集性, 主题间同样显示了清晰的轮廓和分界。【局限】算法参数的预设与调整需人工参与, 未对不同资助机构的基金文本数据的适用性进行验证。【结论】该方法是可行的且可视化图谱能够直观地反映资助机构的资助布局, 对科研管理与决策者审视宏观科研布局能够起到辅助作用。

关键词: 科学基金项目 ; 科研布局 ; LSA ; t-SNE ; 可视化图谱

Abstract

[Objective] This paper designs a visualization method for the appropriation of research funding, aiming to more effectively present the locations of funded projects. [Methods] First, we retrieved 4,669 funded projects from NSF’s Information and Intelligent System. Then, we added topic tags to these projects using clustering algorithm and human interpretation. Third, we extracted the high-dimensional text features for the application documents with TF-IDF model and LSA model. Fourth, we used the t-SNE algorithm to project high-dimensional features into two or three-dimensional spaces for visualization. Finally, we examined the visualization results with pre-classified topic labels. [Results] The proposed method created maps of funded projects, in both two-dimensional or three-dimensional spaces. [Limitations] The algorithm parameters need to be adjusted manually. More research is needed to evaluate the proposed method with documents of projects funded by other agencies. [Conclusions] The proposed method could generate maps for the funded projects, which is a helpful tool for scientific management.

Keywords: Research Awards ; Funding Map ; LSA ; t-SNE ; Visualization

0

PDF (2765KB) 元数据 多维度评价 相关文章 收藏文章

本文引用格式 导出 EndNote Ris Bibtex

陈挺, 李国鹏, 王小梅. 基于t-SNE降维的科学基金资助项目可视化方法研究*[J]. 数据分析与知识发现, 2018, 2(8): 1-9 https://doi.org/10.11925/infotech.2096-3467.2018.0251

Chen Ting, Li Guopeng, Wang Xiaomei. Visualizing Appropriation of Research Funding with t-SNE Algorithm[J]. Data Analysis and Knowledge Discovery, 2018, 2(8): 1-9 https://doi.org/10.11925/infotech.2096-3467.2018.0251

1 引 言

国立科研资助机构资助的基金项目是国家科技研发工作的具体部署, 体现国家科技发展战略的重点与方向。基金项目申请书正是这样一种载体, 不仅能从微观上反映个体研究的内容和设想, 还能从宏观上反映一定时期国家科技发展部署。如能从海量的基金资助数据中揭示具体的研究设想, 也可以展现宏观的科研布局, 进而辅助科研咨询、管理, 前瞻把握科技发展的方向与趋势。

近年, 基金项目布局研究有的利用文本聚类的方法分析挖掘基金资助的项目主题, 发现资助的重点方向[1,2,3]; 也有使用主题模型发现基金项目文本中潜在词主题, 进而从主题词层面揭示基金资助机构的资助布局[4,5,6]。但这些基金布局发现研究中往往都缺少直观的可视化结果展示, 项目布局的可视化呈现不仅能更有效地展示分析结果, 也可以直观地对比多资助机构的布局重点与差异。同时能够辅助专家和情报人员判断、验证基金布局分析结果的有效性。

一些学者已经展开了基金资助项目可视化方法的探索, 来自中国微软研究院的Liu等[7]利用TreeMap可视化方法, 将美国自然科学基金委员会(NSF)中的研究领域、学部、研究计划同资助项目关联在一起, 用户可一目了然地了解整个NSF的学科、研究方向、计划以及相应的资助项目。但TreeMap的特性决定了它的应用范围, 只能孤立地展示每个层级下的数据分布, 不能很好地揭示项目与项目之间的关系, 更不能跨学部、跨资助机构地展示交叉资助的情况。也有学者不直接使用资助项目数据分析资助布局[8,9,10,11], 而分析项目产出的论文, 利用论文的相关元数据与引文关系, 从另一个角度发现科研资助的重点和布局。但该方法缺陷也显而易见, 从项目资助到研究成果发表通常需要两到三年, 无法及时呈现最新的基金资助方向。

还有学者使用类似基于科技论文的科学图谱方法构建基金项目图谱。科学图谱绘制是通过论文两两之间引文关系, 构建文章与文章之间的引文关系矩阵, 再利用引文关系矩阵绘制基于拓扑结构的网络图谱, 引文关系矩阵一般是相似度矩阵, 又称距离矩阵(Distance Matrix)。该方法在基于科技论文的科学结构可视化上有较好的效果, 得到广泛应用。但科研基金资助项目之间缺乏相互引证关系, 资助项目往往只能采用文本特征描述, 而文本特征是高维向量空间模型(Vector Space Model)中的多维向量, 这些特征向量可能包含几十、几百甚至上千的维度。有研究将基金项目文本向量特征通过关系比如向量的夹角或者高维空间中的距离, 将高维向量转化为项目两两之间相似度关系, 通过两两之间的关系矩阵绘制网络结构图谱。如Herr II等[12]研制NIH VisualBrowser, 使用pLSA主题模型计算项目在各个潜在主题中的概率分布, 利用每篇项目属于每个主题中的概率构建资助项目在主题层面下的特征向量, 再计算文本两两之间主题概率分布的相对熵(Relative Entropy), 利用相对熵构建项目文本间的关系, 使用重力模型绘制关系网络图谱。这种可视化方案将高维特征向量转换成两两之间相似度关系, 无形中会损失大量的高维特征信息, 此外作者在文中提到, 文本间关系不会是一个稀疏关系, 需要使用阈值筛选强关系, 不同阈值筛选出的关系直接影响可视化效果, 阈值的选取往往凭借经验, 需要大量人工干预。Takahiro等[13]利用欧盟框架计划资助的项目构建基金图谱, 发现把高维文本特征简单转换成相似度关系绘制网络图谱很难达到预期的效果。需要对高维文本特征进一步合并, 再转换成相似度关系绘制图谱才能有相对好的可视化效果。

近年, 随着机器学习方法的发展, 降维技术从线性降维发展到基于流形学习的非线性降维, 高维特征在二维或三维降维效果有了极大提高。因为人类视觉只能接受三维或三维以下的信息, 超出三维将无法直接观察。所以本文试图使用另一种特征降维技术绘制基金可视化图谱, 适合基金资助项目文本特征的降维算法, 有效将高维基金项目的文本特征在二维或者三维空间中展示。

本文基于NSF相关项目申请书题名和摘要文本数据, 首先使用聚类算法结合人工方式构建项目数据的主题标签, 将这些主题标签信息作为可视化方法的初步验证数据。基于同一批项目数据, 设计对项目申请书高维特征向量降维的可视化方法, 将高维文本特征映射入二维或三维空间。之后在可视化图谱中加入人工构建的项目主题标签, 通过查看这些主题的分布位置评判可视化效果的优劣。本文中的核心降维算法使用Google公司开源的深度学习框架TensorFlow[14]中的Embeddings模块实现。

2 数据收集与文本预处理

NSF于2010年和2012年两次发布“开放政府计划”, 在机密与隐私的约束范围内最大限度地开放资助科研项目产生的数据, 且均为机器可读格式。如今NSF 官方网站中提供了历年资助统计数据、发布相关报告PDF文档, 以及1959年至今所有资助项目的XML数据, 包括题名、项目承担机构、承担人、项目类型、所属学部、申请书摘要等多个字段信息。本文从中筛选由美国NSF计算机信息科学与工程学部(Computer & Information Science & Engineering, CISE)信息与智能系统(Information and Intelligent Systems, IIS)资助方向2008年-2017年的全部资助项目4 678条, 数据中包括资助项目的题名、摘要、资助起始年、资助对象、资助金额等分析字段。

去除数据中摘要字段缺失的项目, 保留4 669项资助项目。为了提高降维分析的准确性, 尽可能保留申请书文本中最核心的描述研究科研目标、方法的文本, 进一步对申请书摘要文本内容进行清洗, 删除文本中与研究内容相关性不强的通用表述文本(如资助来源介绍、承担机构背景、师资力量、学生培养计划、对社会科普作用等)。数据清洗规则如下。

(1) 删除无摘要的项目数据;

(2) 删除项目申请书摘要首段中的资助来源介绍、承担机构等背景介绍;

(3) 删除申请书摘要中“Boarder Impact”(包含科研项目完成后更广泛的科普、培养研究生等方面的社会影响)和“Non-Technical”(包含项目的研究内容对公众、对社会的重要性)相关内容;

(4) 删除文本中小于三个字母的单词和停用词;

(5) 删除所有的标点符号;

(6) 对剩余文本所包含的单词进行词性还原与词干化处理。

本研究中的项目申请书数据清洗环节均采用计算机程序根据规则自动批量清洗。

3 研究方法

3.1 文本特征提取

文本的表示及其特征提取是文本挖掘、信息检索的一个基本问题, 将从文本中抽取出的特征词进行量化表示文本信息。将其从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息, 即对文本进行科学的抽象与建模, 用以描述和代替文本, 使程序能够对这种模型进行计算和操作。主流的文本特征提取方法有TF-IDF、期望交叉熵、互信息、潜在语义分析(LSA)等方法, 本研究使用两种较为常用的文本特征提取方法TF-IDF和LSA, 用于测试基金项目降维可视化算法的效果。

TF-IDF是简单但非常有效的词权重特征提取方法, 由Salton等[15]在1988年提出。TF-IDF文本特征通常基于文本中所含有的单词, 即使去除停用词和利用一定阈值过滤掉一部分单词, 它所包含的特征维度还是非常多, 其中包含一些冗余信息以及噪音信息。这种高维的文本特征不仅会给后续工作带来巨大的计算开销, 而且因为算法只考虑词频, 无法区分语义信息, 不能精准表征文本所包含的内容。因此, 必须对文本向量进一步净化处理, 在保证原文含义的基础上, 找出对文本特征类别最具代表性的文本特征, 减少冗余信息所造成的误差。LSA是Foltz[16]在1998年提出的一种文本特征提取方法, 该方法和传统向量空间模型一样使用向量表示文档特征, 而不同的是LSA将词和文档映射到潜在的语义空间, 形成虚拟的语义主题, 从主题层面表征文档。它的出发点是文档的特征与特征之间存在某种潜在的语义联系, 通过对高维向量奇异值分解(SVD), 得到一个近似且较少维度的特征向量空间(主题), 从而减少一词多义或一义多词对特征向量空间准确性的影响, 去除原始向量空间中的噪音, 提高信息检索的精确度, 同时大大降低文本特征的维度, 简化文本向量维度并大幅提高后续t-SNE算法降维的运算速度。

3.2 降维可视化算法

机器学习领域中的降维就是指采用某种映射方法, 将高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数将高维数据点映射入低维空间, 映射函数可以是线性或非线性[17]。降维算法一般基于两种假设实现[18], 一种是基于线性的高维空间到低维空间映射, 主要目的是学习得出一个矩阵变换, 用这个矩阵与高维数据相乘得到低维数据, 常见的线性降维算法有Principal Component Analysis(PCA)、Linear Discriminant Analysis(LDA)等。另一种是非线性降维, 它假设在高维空间中数据会呈现一种有规律的低维流形排列, 但是这种规律排列不能直接通过高维空间的整体欧式距离衡量。然而高维度的数据排列规律却可能在局部仍然具有欧式空间的性质。基于这种假设, 非线性降维可以通过高维空间内的局部关系在低维空间中重新排列, 形成全新的低维数据点分布。常见的非线性降维算法有Locally Linear Embedding(LLE)、Isomap、t-SNE(t-Distributed Stochastic Neighbor Embedding)等, 其中t-SNE算法是目前降维算法中可视化效果最好的算法之一。

(1) 线性降维算法在项目可视化中效果不佳

线性降维算法相对简单, 经过试验发现无法很好地在二维空间中展示项目的布局结构。本研究利用NSF项目数据测试最常用的线性降维算法, 包括无监督线性降维算法PCA和有监督的线性降维算法LDA, 两种线性算法在基金项目文本数据中降维效果如图1所示。

图1   PCA、LDA基金资助项目降维可视化效果对比

   

图1(a)是PCA算法将TF-IDF文本特征降维后在二维空间中的展示效果, 可以看出PCA算法对于NSF基金项目文本数据的降维可视化效果较差, 基金项目在二维空间中分布散乱无章, 无法看出任何结构。而图1(b)中LDA算法有非常不错的降维可视化效果, 相同主题的项目聚合在一起并形成清晰的轮廓, 但作为有监督降维算法, 需要预先传入项目的分类标签信息, 但大多数实际应用中无法预先获取项目的分类标签。

(2) 非线性t-SNE降维算法

线性降维算法在基金项目数据中效果不佳, 本文进一步验证基于流形学习的非线性降维算法(t-SNE)在基金文本数据中的效果。流形学习是一种新的非监督学习降维方法, 近年来引起越来越多机器学习和数据科学学者的重视。目前t-SNE是各类流行学习降维算法中降维效果最好的算法之一, 并成功应用于很多真实高维数据集, 如图像文字、生物信息、新闻文本数据等[19,20,21,22]。t-SNE算法由Maaten等[23]提出, 也是一种非监督降维算法, 无需预先传入项目的分类标签信息。同时相比PCA、SVD等线性映射降维算法, t-SNE可以更好地在低维空间表达高维变量之间复杂非线性关系。

t-SNE算法是基于Stochastic Neighbor Embedding (SNE)算法[24]改进而来的。SNE算法将高维空间中数据点之间的欧式距离转化为数据点之间相似性的条件概率, 假设高维空间中任意两个数据点xixj之间的相似性为条件概率pj|i, 局部符合高斯分布。基于这种假设, 相互近邻的点会有较高的pj|i, 而相互远离的点的pj|i接近于0。根据数据点的高维条件概率, 在低维空间中重组数据点的位置, 该方法的降维思路主要是利用距离与条件概率的转换实现高维特征空间在低维特空间中的映射。条件概率pj|i如公式(1)[23]所示, 其中σi是以数据点xi为中心的高斯函数的方差。

${{p}_{j|i}}=\frac{\exp (-||{{x}_{i}}-{{x}_{j}}|{{|}^{2}}/2\sigma _{i}^{2})}{{{\mathop{\sum }^{}}_{k\ne i}}\exp (-||{{x}_{i}}-{{x}_{k}}|{{|}^{2}}/2\sigma _{i}^{2})}$ (1)

而t-SNE算法采用对称的SNE计算, 即以高维空间数据点对和对应的低维空间重组的数据点对之间的联合概率代替SNE算法用到的条件概率。同时, 为解决SNE降维过程中可能会产生数据点“拥挤”的问题, 高维空间采用高斯概率分布, 低维空间采用不同的概率分布, 即自由度为1的t型分布。这种处理减弱了模拟的低维空间中映射点之间的吸引力[12]。高维空间数据点对和低维空间数据点对之间的联合概率分别表示为pijqij, 如公式(2)[23]和公式(3)[23]所示。

${{p}_{ij}}=\frac{{{p}_{i|j}}-{{p}_{j|i}}}{2n}$ (2)

${{q}_{ij}}=\frac{{{(1+||{{y}_{i}}-{{y}_{j}}|{{|}^{2}})}^{-1}}}{{{\mathop{\sum }^{}}_{k\ne l}}{{(1+||{{y}_{k}}-{{y}_{l}}|{{|}^{2}})}^{-1}}}$ (3)

t-SNE降维算法采用Kullback-Leibler散度(Kullback-Leibler Divergence, KLD)[25]测量并量化低维特征空间映射点之间的概率qij对高维空间数据点之间的概率pij映射的正确性, KLD计算如公式(4)[23]所示。KLD值在深度学习领域常常用来测量两个函数或概率分布的差异性, 并有不错的效果。如果两个概率分布差异越大则KLD值越高, 差异越小则KLD值越小, 若二者概率分布相同则值为0。

$C=KL(P|\text{ }\!\!|\!\!\text{ }Q\text{)}={{\mathop{\sum }^{}}_{i}}{{\mathop{\sum }^{}}_{j}}{{p}_{ij}}\log \frac{{{p}_{ij}}}{{{q}_{ij}}}$ (4)

在t-SNE降维效果评判中, KLD越小代表低维空间映射点对高维空间的模拟正确性越高。因此为了得到最佳低维空间映射, 利用梯度下降方法进行多次迭代更新, 最小化所有数据点的KLD, 梯度下降方法如公式(5)[23]所示, yi为低维映射数据表示, 随着KLD下降迭代不断优化。通常情况下t-SNE算法往往需要多次迭代并重复计算, 取效果最好的一次结果。

$\frac{\delta C}{\delta {{y}_{i}}}=4{{\mathop{\sum }^{}}_{j}}({{p}_{ij}}-{{q}_{ij}})({{y}_{i}}-{{y}_{j}}){{(1+||{{y}_{k}}-{{y}_{l}}|{{|}^{2}})}^{-1}}$ (5)

(3) 基金项目可视化流程

基金项目可视化流程如图2所示, 为了最大程度地保证后续降维效果, 对NSF基金申请书文本进行清洗, 去除其中与科学研究关系不紧密的文本内容。再利用TF-IDF与LSA两种文本特征提取技术分别构建两个不同维度的特征向量空间, TF-IDF特征是以单词作为文本特征, 维度可能在7 000-10 000维, 而LSA特征是将多个TF-IDF特征进行合并的主题特征, 维度可能在20-50维。有了高维文本特征后, 再使用非线性降维算法t-SNE将高维特征映射入二维或者三维展示。

图2   基金项目可视化流程

   

4 t-SNE降维项目可视化效果验证

4.1 设计实验

设计实验验证t-SNE算法在基金文本数据中的实际效果, 实验设计流程如图3所示, 在应用可视化算法构建图谱之前, 首先使用K-means聚类算法对基金项目进行文本聚类。先将基金项目通过聚类分为较小的50个类, 再经过人工逐条阅读每个类, 判断是否需要人工合并。最终将50个较细的分类合并成21个较为准确的主题, 利用这21个主题标签信息作为降维可视化准确性的一个参照标准。t-SNE降维算法将高维文本特征映射入二维空间时, 如果同主题的项目能在二维空间中相对聚合在一起, 并与其他主题之间有明显的轮廓, 则在一定程度上表明可视化效果较好, 反之如果多个主题下的项目杂乱交织在一起并无明显的结构轮廓, 则表明降维效果差, 无法利用该方法有效地可视化表征基金布局结构。

图3   可视化效果验证流程

   

4.2 TF-IDF特征与LSA特征降维效果对比

将DIIS学部下2008年-2017年10年内资助的全部项目进行数据清洗、词形还原处理并去除常见停用词, 尽可能提高文本词特征的准确性。

(1) 第一组实验, 利用词频构建基金项目申请书文本的TF-IDF特征向量空间, 根据之前处理基金项目文本的经验, 去除TF-IDF分值超过0.85的特征, 选取分值最高的8 000个词特征作为全部项目的文本特征空间。之后在这个特征向量空间中应用t-SNE算法, 将8 000维特征向量映射入二维空间。经过参数调优(算法参数见表1), 每个项目只用两个维度的向量表达其特征。每个项目的二维向量, 便可在二维平面内绘制可视化图谱。TF-IDF特征降维后二维可视化效果如图4(a)所示, 可以看出整体降维效果并不理想, 只有一部分相同主题(相同颜色)的项目聚集在一起, 大部分的相同主题项目分布较为分散, 未形成有效的聚集, 并且在图谱的左侧以及上部有大量不同主题的项目交织在一起。

表1   t-SNE算法重要参数

   

PerplexityEarlyexaggerationLearningraten_iter
50406001 000

新窗口打开

图4   两种不同文本特征应用t-SNE降维算法可视化效果对比

   

第一组实验中降维算法效果不佳的原因可能是8 000维的TF-IDF特征直接降入二维特征, 维度压缩幅度过大, 即便t-SNE算法经过多层的高维至低维概率分布转换, 二维特征也不足以表达高达8 000维向量所包含的特征信息。因此在第二组实验中, 使用潜在语义分析模型(LSA)将TF-IDF特征映射入潜在语义空间, 预先将8 000维的特征用较少的主题维度更有效地表征。

(2) 先将8 000维的TF-IDF特征映射入20维(假设与人工分类的21个主题相近的20维作为LSA维度)LSA特征空间后, 再应用t-SNE降维算法使用与第一组实验相同的参数, 将20维的LSA特征映射至二维空间。降维后二维可视化效果如图4(b)所示, 相比第一组实验, 第二组的降维效果得到了大大改善, 绝大部分的相同主题内的项目在图谱中聚集在一起, 主题之间有比较清晰的轮廓, 部分可以从图谱中一定程度上展示基金项目布局结构。经过人工判读, 进一步确认在图谱中距离越相近的两个项目确实在语义层面越为相近, 证明了t-SNE算法与LSA模型结合有较好的降维可视化效果。

5 三维可视化交互应用场景

t-SNE降维算法可将高维特空间征映射入任意维度低维空间, 为了更好地理解与发现本文构建的可视化图谱, 笔者尝试构建三维可交互的可视化基金图谱, 如图5所示, 每篇项目是三维空间中的一个方块, 颜色和数字代表预先人工分类的主题标签信息。

图5   三维可交互基金可视化图谱

   

三维图谱可表征的信息量比二维图谱有大幅提高, 在三维空间中项目的分布不再像二维空间中那样, 多个主题项目被压缩在一起, 而是在空间中呈现出更清晰的三维主题轮廓。通过对图谱的放大、缩小、平移和旋转, 能够更清晰地在空间中呈现基金项目的主题分布和不同主题之间的关联关系。

此外图谱可交互也允许用户更便捷地查看基金项目的更多细节。比如用户通过鼠标点击某项目后, 图谱会计算该项目与其他项目在三维空间中的欧式距离, 从而选取相似的项目。图5右侧是两组相似项目遴选实例, 第一篇选中的项目是关于自然语言语法理解的相关资助项目, 第二篇是关于数据可视化的相关项目, 在空间中距离最近的项目多数来自相同的主题。通过人工判读也再次确认, 在降维后的三维空间中距离越近的项目文本相识度越高, 再次证明本文采用的基金项目可视化方法有良好的效果。利用可视化交互图谱, 可以更直观地向科技决策者或科技情报人员展示布局结构, 还可以支持团队内部聚类、主题发现等算法效果判读。三维可视化图谱交互工具使用Google开源可视化工具EmbeddingProjector[26]搭建。

6 讨论与未来工作

本文提出直观展示科研基金资助布局的可视化方案, 通过LSA模型映射入潜在语义空间形成基金项目的文本主题特征, 再利用t-SNE非线性降维算法自动发现基金项目的差异, 将主题层面的高维分布映射入二维或者三维中可视化展示。使用NSF信息与智能系统相关的10年受资助项目作为实验数据, 绘制基于文本特征的可视化图谱。实验结果表明本文提出的可视化方法, 不论在二维或三维空间中, 每个分类下的项目都有较好的聚集性, 并在类间显示了清晰的轮廓和分界。经过专业情报人员人工判读, 该可视化方法能够比较直观地反映资助机构的布局。相比传统基于文本两两间相似度绘制的网络结构图谱, 本文提出的可视化方法保留了更多的高维文本特征。此外利用机器学习降维算法绘制图谱还大大减少了人工对可视化的干预, 无需因为文本相似度关系过于密集而手工调节相似度阈值, 并且不会出现因为网络布局算法的随机性, 需要多次运行才能获得满意可视效果的情况。此外本文提出的可视化方案不仅能绘制二维图谱, 还可以在三维空间中展示布局结构。进一步构建可交互的三维可视化图谱, 允许用户对图谱放大、缩小、平移、旋转和点选, 能更深入地发现和解读基金的布局结构。

本研究中实现的可交互的基金可视化图谱, 可以辅助情报人员判断相关主题发现算法的准确性。情报人员可以很容易地在图谱中判断位置相近的项目是否相似, 从而判断相关主题算法结果是否合理。如图谱中呈现出强烈聚集效果的项目群, 却被布局发现算法拆分成两个聚类, 这样主题发现算法的效果可能较差, 通常类似问题通过人工判读较为费时费力。

目前基金图谱绘制工作尚处于实验阶段, 尚未对更多不同资助机构的项目文本进行测试。未来将进一步验证基金可视化方法在不同数据集、不同资助机构数据集中的可视化效果。还可能将基金项目在低维空间的特征, 直接作为项目低维特征应用于布局发现算法, 如K-means、DBSCAN等聚类算法。直接在基金图谱的空间结构中, 利用聚类算法自动发现资助机构的资助热点方向与资助的空白区域。这样特征选取、布局发现算法和最后的可视化在算法层面得到统一, 分析结果会有更好的一致性与可解释性。最终将形成一整套完善的基金分析与可视化的方法与工具, 以供情报分析人员与科技决策者使用。

作者贡献声明

陈挺: 提出研究思路, 完成实验, 起草论文;

李国鹏: 数据抓取与预处理, 参与实验;

王小梅: 提出研究问题, 论文修改与定稿。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, https://gist.github.com/jy00295005/ 273455f6bd7559667104731deb0b6ab5。

[1] 陈挺. 基金可视化分析数据. cvs. 实验数据包括: NSF基金id、聚类号、题名和摘要文本.


参考文献

[1] Talley E M, Newman D, Mimno D, et al.

Database of NIH Grants Using Machine-Learned Categories and Graphical Clustering

[J]. Nature Methods, 2011, 8(6): 443-444.

https://doi.org/10.1038/nmeth.1619      URL      PMID: 21623347      [本文引用: 1]      摘要

Talley EM, Newman D, Mimno D, Herr BW 2nd, Wallach HM, Burns GA, Leenders AG, McCallum A.
[2] 陈挺, 韩涛, 李泽霞, .

科研项目布局差异对比方法研究——以NSF和EUFP项目为例

[J]. 现代图书情报技术, 2015(7-8): 89-96.

[本文引用: 1]     

(Chen Ting, Han Tao, Li Zexia, et al.

Research on Comparison Method of Scientific Funding Layout——Take NSF and EUFP Grants for Instance

[J]. New Technology of Library & Information Service, 2015(7-8): 89-96.)

[本文引用: 1]     

[3] 陈挺, 李国鹏, 姜山, .

NSF材料科学十年——基金项目分布及趋势变化分析

[J]. 世界科技研究与发展, 2017, 39(5): 401-411.

URL      [本文引用: 1]      摘要

进行主题分析,并使用回归拟合分析项目主题的投入金额变化趋势,直观展现了项目主题十年间的发展变化趋势。通过基于数据的统计分析与文本挖掘分析,客观地呈现了NSF材料学部资助项目的发展轨迹、现状与未来发展趋势。研究发现,NSF材料学部的资助金额近年来呈持续下降的趋势,2011年之后几乎不再资助大型研究中心与大型仪器设备;在通过聚类分析方法发现的47个材料领域项目主题中,NSF对材料相关仪器设备的投入不论是资助金额还是资助数量均远高于其他项目主题,尤其重视射线光源和显微镜成像等材料相关表征设备。从主题的资助金额时序中可以看出,"晶体生长"和"界面研究"两个主题在过去几年内的资助金额增长最为迅猛,可能是材料领域近期的资助热点。

(Chen Ting, Li Guopeng, Jiang Shan, et al.

Past Decade of NSF Material Science:An Analysis of Layout and Trend of Funded Projects

[J]. World Sci-Tech R&D, 2017, 39(5): 401-411.)

URL      [本文引用: 1]      摘要

进行主题分析,并使用回归拟合分析项目主题的投入金额变化趋势,直观展现了项目主题十年间的发展变化趋势。通过基于数据的统计分析与文本挖掘分析,客观地呈现了NSF材料学部资助项目的发展轨迹、现状与未来发展趋势。研究发现,NSF材料学部的资助金额近年来呈持续下降的趋势,2011年之后几乎不再资助大型研究中心与大型仪器设备;在通过聚类分析方法发现的47个材料领域项目主题中,NSF对材料相关仪器设备的投入不论是资助金额还是资助数量均远高于其他项目主题,尤其重视射线光源和显微镜成像等材料相关表征设备。从主题的资助金额时序中可以看出,"晶体生长"和"界面研究"两个主题在过去几年内的资助金额增长最为迅猛,可能是材料领域近期的资助热点。
[4] De-Miguel-Molina B, Cunningham S W, Palop F.

Analyzing Funding Patterns and Their Evolution in Two Medical Research Topics

[J]. International Journal of Innovation and Technology Management, 2017, 14(2). DOI: 10.1142/S0219877017400107.

URL      [本文引用: 1]      摘要

This paper analyzes funding patterns and their evolution in two medical research topics: breast cancer and ovarian cancer, taking into account cross-agency and cross-national co-funding. A bibliometric analysis of 355463 papers from PubMed (273526 on breast cancer and 81937 on ovarian cancer) brought back 91 funding agencies involved in breast cancer and 65 in ovarian cancer. Additionally, the paper examined the evolution of medical subject headings (MESH) funded by agencies. An analysis of patterns in funding, co-funding, MESH, and their evolution, was carried out using social network analysis (SNA) methodology. The results show the importance of the National Cancer Institute (NCI) in both breast and ovarian cancer. The NCI achieves its policy goals by co-funding its programs with both national and cross-national agencies. Moreover, the MESH agencies co-funded in the two years studied coincided; however, it must be said that the number of agencies which participated in research funding also increased.
[5] 王文娟, 马建霞.

基于LDA的科研项目主题挖掘与演化分析——以NSF海洋酸化研究为例

[J]. 情报杂志, 2017, 36(7): 34-39.

https://doi.org/10.3969/j.issn.1002-1965.2017.07.007      URL      [本文引用: 1]      摘要

[目的/意义]基于当前对科研项目的研究主要以数据统计和计量分析为主,以NSF资助的海洋酸化相关研究的项目数据为例,从项目主题的角度研究科研立项的重点和演化,并对未来投入趋势加以预测。[方法/过程]使用LDA主题模型对该研究的主题进行分析,计算主题强度分析演化过程,统计NSF申请书项目与支撑发表的核心论文主题强度之间的相关性,进而分析NSF海洋酸化项目的主题发展趋势。[结果/结论]发现LDA模型可以很好的发现海洋酸化的主要研究主题,且NSF资助的科研项目与支撑发表论文的主题演化规律具有一致性。使用的方法对科研资助机构资助的项目从主题的角度进行分析,研究国家科研机构资助项目的主题布局和变化趋势,对国家科技部门或机构的项目发展部署和规划具有一定的参考和支撑作用。

(Wang Wenjuan, Ma Jianxia.

Topic Detection and Evolution Analysis of Research Project Based on LDA——A Case Study of Projects on Ocean Acidification Supported by NSF

[J]. Journal of Intelligence, 2017, 36(7): 34-39.)

https://doi.org/10.3969/j.issn.1002-1965.2017.07.007      URL      [本文引用: 1]      摘要

[目的/意义]基于当前对科研项目的研究主要以数据统计和计量分析为主,以NSF资助的海洋酸化相关研究的项目数据为例,从项目主题的角度研究科研立项的重点和演化,并对未来投入趋势加以预测。[方法/过程]使用LDA主题模型对该研究的主题进行分析,计算主题强度分析演化过程,统计NSF申请书项目与支撑发表的核心论文主题强度之间的相关性,进而分析NSF海洋酸化项目的主题发展趋势。[结果/结论]发现LDA模型可以很好的发现海洋酸化的主要研究主题,且NSF资助的科研项目与支撑发表论文的主题演化规律具有一致性。使用的方法对科研资助机构资助的项目从主题的角度进行分析,研究国家科研机构资助项目的主题布局和变化趋势,对国家科技部门或机构的项目发展部署和规划具有一定的参考和支撑作用。
[6] Park J, Blume-Kohout M, Krestel R, et al.

Analyzing NIH Funding Patterns over Time with Statistical Text Analysis

[C]// Proceedings of the 30th AAAI Conference on Artificial Intelligence. 2016.

[本文引用: 1]     

[7] Liu S, Cao N, Lv H.

Interactive Visual Analysis of the NSF Funding Information

[C]//Proceedings of 2008 IEEE Pacific Visualization Symposium. DOI: 10.1109/PACIFICVIS.2008.4475475.

[本文引用: 1]     

[8] 王贤文, 刘则渊, 侯海燕.

全球主要国家的科学基金及基金论文产出现状: 基于Web of Science的分析

[J]. 科学学研究, 2010, 28(1): 62-66.

URL      [本文引用: 1]      摘要

利用Web of Science数据库新增加的基金项目检索功能,首次考察了全球主要论文发表国家的科学基金论文资助情况。各国科学基金对论文的资助比例普遍在12%至15%之间,中国的基金论文资助比例为24.43%。各国基金论文的篇均基金数量均在2.49以上,中国的篇均基金数量为2.97。进一步考察了中国不同基金管理部门和主要基金项目对论文的共同资助情况,发现目前中国科学基金对论文的重复资助现象比较突出。

(Wang Xianwen, Liu Zeyuan, Hou Haiyan.

Global Assessment of Science Funding and Funding Papers: A Study in Web of Science

[J]. Studies in Science of Science, 2010, 28(1): 62-66.)

URL      [本文引用: 1]      摘要

利用Web of Science数据库新增加的基金项目检索功能,首次考察了全球主要论文发表国家的科学基金论文资助情况。各国科学基金对论文的资助比例普遍在12%至15%之间,中国的基金论文资助比例为24.43%。各国基金论文的篇均基金数量均在2.49以上,中国的篇均基金数量为2.97。进一步考察了中国不同基金管理部门和主要基金项目对论文的共同资助情况,发现目前中国科学基金对论文的重复资助现象比较突出。
[9] 孙金伟, 刘迪, 王贤文, .

科学基金资助与SCI论文产出: 对10个国家的比较分析

[J]. 科学学研究, 2013, 31(1): 36-42.

https://doi.org/10.3969/j.issn.1003-2053.2013.01.006      URL      [本文引用: 1]      摘要

对2011年科学基金资助情况进行总体分析,选择了SCI论文数排名前十的国家为研究对象,即美国、中国、德国、英国、日本、法国、意大利、加拿大、西班牙以及澳大利亚。研究发现中国的基金论文比例最高,2011年77.79%的SCI论文均得到了基金的支持。而在篇均基金数上,中国和西班牙平均每篇基金论文都受到了超过2.7项基金的资助,日本篇均基金数相对较低,只有2.14。通过对资助机构进行统计研究,总结出基金资助机构的三种模式:单一机构主导型、两机构主导型、多样化型。

(Sun Jinwei, Liu Di, Wang Xianwen, et al.

Science Funding and SCI Papers Output: A Comparative Analysis on 10 Countries

[J]. Studies in Science of Science, 2013, 31(1): 36-42.)

https://doi.org/10.3969/j.issn.1003-2053.2013.01.006      URL      [本文引用: 1]      摘要

对2011年科学基金资助情况进行总体分析,选择了SCI论文数排名前十的国家为研究对象,即美国、中国、德国、英国、日本、法国、意大利、加拿大、西班牙以及澳大利亚。研究发现中国的基金论文比例最高,2011年77.79%的SCI论文均得到了基金的支持。而在篇均基金数上,中国和西班牙平均每篇基金论文都受到了超过2.7项基金的资助,日本篇均基金数相对较低,只有2.14。通过对资助机构进行统计研究,总结出基金资助机构的三种模式:单一机构主导型、两机构主导型、多样化型。
[10] Auranen O, Nieminen M.

University Research Funding and Publication Performance - An International Comparison

[J]. Research Policy, 2010, 39(6): 822-834.

https://doi.org/10.1016/j.respol.2010.03.003      URL      [本文引用: 1]      摘要

In current science policies, competition and output incentives are emphasized as a means of making university systems efficient and productive. By comparing eight countries, this article analyzes how funding environments of university research vary across countries and whether more competitive funding systems are more efficient in producing scientific publications. The article shows that there are significant differences in the competitiveness of funding systems, but no straightforward connection between financial incentives and the efficiency of university systems exists. Our results provoke questions about whether financial incentives boost publication productivity, and whether policy-makers should place greater emphasis on other factors relevant to high productivity.
[11] Wang J, Shapira P.

Funding Acknowledgement Analysis: An Enhanced Tool to Investigate Research Sponsorship Impacts: The Case of Nanotechnology

[J]. Scientometrics, 2011, 87(3): 563-586.

https://doi.org/10.1007/s11192-011-0362-5      URL      [本文引用: 1]     

[12] Herr II B W, Talley E M, Burns G A P C, et al.

The NIH Visual Browser: An Interactive Visualization of Biomedical Research

[C]// Proceedings of the 13th International Conference on Information Visualisation. IEEE, 2009.

[本文引用: 2]     

[13] Takahiro K, Katsutaro W, Naoya M.

Funding Map for Research Project Relationships Using Paragraph Vectors

[C]// Proceedings of the 16th International Conference on Scientometrics&Informetrics (ISSI), Wuhan, China. 2017.

[本文引用: 1]     

[14] Abadi M, Agarwal A, Barham P, et al. TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems[OL]. arXiv:1603.04467. 2016.

[本文引用: 1]     

[15] Salton G, Buckley C.

Term-Weighting Approaches in Automatic Text Retrieval

[J]. Information Processing & Management,1988, 24(5): 513-523.

https://doi.org/10.1016/0306-4573(88)90021-0      URL      [本文引用: 1]      摘要

The experimental evidence accumulated over the past 20 years indicates that text indexing systems based on the assignment of appropriately weighted single terms produce retrieval results that are superior to those obtainable with other more elaborate text representations. These results depend crucially on the choice of effective termweighting systems. This article summarizes the insights gained in automatic term weighting, and provides baseline single-term-indexing models with which other more elaborate content analysis procedures can be compared.
[16] Foltz P W.

Latent Semantic Analysis for Text-based Research

[J]. Behavior Research Methods Instruments & Computers, 1996, 28(2): 197-202.

https://doi.org/10.3758/BF03204765      URL      [本文引用: 1]      摘要

Latent semantic analysis (LSA) is a statistical model of word usage that permits comparisons of semantic similarity between pieces of textual information. This paper summarizes three experiments that illustrate how LSA may be used in text-based research. Two experiments describe methods for analyzing a subject’s essay for determining from what text a subject learned the information and for grading the quality of information cited in the essay. The third experiment describes using LSA to measure the coherence and comprehensibility of texts.
[17] Roweis S T, Saul L K.

Nonlinear Dimensionality Reduction by Locally Linear Embedding

[J]. Science, 2000, 290(5500): 2323-2326.

https://doi.org/10.1126/science.290.5500.2323      URL      PMID: 11125150      [本文引用: 1]      摘要

Many areas of science depend on exploratory data analysis and visualization. The need to analyze large amounts of multivariate data raises the fundamental problem of dimensionality reduction: how to discover compact representations of high-dimensional data. Here, we introduce locally linear embedding (LLE), an unsupervised learning algorithm that computes low-dimensional, neighborhood-preserving embeddings of high-dimensional inputs. Unlike clustering methods for local dimensionality reduction, LLE maps its inputs into a single global coordinate system of lower dimensionality, and its optimizations do not involve local minima. By exploiting the local symmetries of linear reconstructions, LLE is able to learn the global structure of nonlinear manifolds, such as those generated by images of faces or documents of text.
[18] Burges C J C.

Dimension Reduction: A Guided Tour

[J]. Foundations & Trends® in Machine Learning, 2010, 2(4): 262-286.

https://doi.org/10.1561/2200000002      URL      [本文引用: 1]      摘要

Summary: We give a tutorial overview of several foundational methods for dimension reduction. We divide the methods into projective methods and methods that model the manifold on which the data lies. For projective methods, we review projection pursuit, principal component analysis (PCA), kernel PCA, probabilistic PCA, canonical correlation analysis (CCA), kernel CCA, Fisher discriminant analysis, oriented PCA, and several techniques for sufficient dimension reduction. For the manifold methods, we review multidimensional scaling (MDS), landmark MDS, Isomap, locally linear embedding, Laplacian eigenmaps, and spectral clustering. Although the review focuses on foundations, we also provide pointers to some more modern techniques. We also describe the correlation dimension as one method for estimating the intrinsic dimension, and we point out that the notion of dimension can be a scale-dependent quantity. The Nystr枚m method, which links several of the manifold algorithms, is also reviewed. We use a publicly available dataset to illustrate some of the methods. The goal is to provide a self-contained overview of key concepts underlying many of these algorithms, and to give pointers for further reading.
[19] Zhong G, Cheriet M.

Large Margin Low Rank Tensor Analysis

[J]. Neural Computation, 2014, 26(4):761-780.

https://doi.org/10.1162/NECO_a_00570      URL      PMID: 24479778      [本文引用: 1]      摘要

We present a supervised model for tensor dimensionality reduction, which is called large margin low rank tensor analysis (LMLRTA). In contrast to traditional vector representation-based dimensionality reduction methods, LMLRTA can take any order of tensors as input. And unlike previous tensor dimensionality reduction methods, which can learn only the low-dimensional embeddings with a priori specified dimensionality, LMLRTA can automatically and jointly learn the dimensionality and the low-dimensional representations from data. Moreover, LMLRTA delivers low rank projection matrices, while it encourages data of the same class to be close and of different classes to be separated by a large margin of distance in the low-dimensional tensor space. LMLRTA can be optimized using an iterative fixed-point continuation algorithm, which is guaranteed to converge to a local optimal solution of the optimization problem. We evaluate LMLRTA on an object recognition application, where the data are represented as 2D tensors, and a face recognition application, where the data are represented as 3D tensors. Experimental results show the superiority of LMLRTA over state-of-the-art approaches.
[20] Li W, Cerise J E, Yang Y, et al.

Application of t-SNE to Human Genetic Data

[J]. Journal of Bioinformatics & Computational Biology, 2017, 15(4): 1750017. DOI: 10.1142/S0219720017500172.

URL      PMID: 28718343      [本文引用: 1]      摘要

The t-distributed stochastic neighbor embedding t-SNE is a new dimension reduction and visualization technique for high-dimensional data. t-SNE is rarely applied to human genetic data, even though it is commonly used in other data-intensive biological fields, such as single-cell genomics. We explore the applicability of t-SNE to human genetic data and make these observations: (i) similar to previously used dimension reduction techniques such as principal component analysis (PCA), t-SNE is able to separate samples from different continents; (ii) unlike PCA, t-SNE is more robust with respect to the presence of outliers; (iii) t-SNE is able to display both continental and sub-continental patterns in a single plot. We conclude that the ability for t-SNE to reveal population stratification at different scales could be useful for human genetic association studies.
[21] Pezzotti N, Lelieveldt B, Maaten L V D, et al.

Approximated and User Steerable tSNE for Progressive Visual Analytics

[J]. IEEE Transactions on Visualization & Computer Graphics, 2017, 23(7): 1739-1752.

https://doi.org/10.1109/TVCG.2016.2570755      URL      PMID: 27323366      [本文引用: 1]      摘要

Abstract Progressive Visual Analytics aims at improving the interactivity in existing analytics techniques by means of visualization as well as interaction with intermediate results. One key method for data analysis is dimensionality reduction, for example, to produce 2D embeddings that can be visualized and analyzed efficiently. t-Distributed Stochastic Neighbor Embedding (tSNE) is a well-suited technique for the visualization of high-dimensional data. tSNE can create meaningful intermediate results but suffers from a slow initialization that constrains its application in Progressive Visual Analytics. We introduce a controllable tSNE approximation (A-tSNE), which trades off speed and accuracy, to enable interactive data exploration. We offer real-time visualization techniques, including a density-based solution and a Magic Lens to inspect the degree of approximation. With this feedback, the user can decide on local refinements and steer the approximation level during the analysis. We demonstrate our technique with several datasets, in a real-world research scenario and for the real-time analysis of high-dimensional streams to illustrate its effectiveness for interactive data analysis.
[22] Liu S, Bremer P T, Thiagarajan J J, et al.

Visual Exploration of Semantic Relationships in Neural Word Embeddings

[J]. IEEE Transactions on Visualization & Computer Graphics, 2017, 24(1): 553-562.

https://doi.org/10.1109/TVCG.2017.2745141      URL      PMID: 28866574      [本文引用: 1]      摘要

Constructing distributed representations for words through neural language models and using the resulting vector spaces for analysis has become a crucial component of natural language processing (NLP). However, despite their widespread application, little is known about the structure and properties of these spaces. To gain insights into the relationship between words, the NLP community has begun to adapt high-dimensional visualization techniques. In particular, researchers commonly use t-distributed stochastic neighbor embeddings (t-SNE) and principal component analysis (PCA) to create two-dimensional embeddings for assessing the overall structure and exploring linear relationships (e.g., word analogies), respectively. Unfortunately, these techniques often produce mediocre or even misleading results and cannot address domain-specific visualization challenges that are crucial for understanding semantic relationships in word embeddings. Here, we introduce new embedding techniques for visualizing semantic and syntactic analogies, and the corresponding tests to determine whether the resulting views capture salient structures. Additionally, we introduce two novel views for a comprehensive study of analogy relationships. Finally, we augment t-SNE embeddings to convey uncertainty information in order to allow a reliable interpretation. Combined, the different views address a number of domain-specific tasks difficult to solve with existing tools.
[23] Maaten L V D, Hinton G.

Visualizing Data Using t-SNE

[J]. Journal of Machine Learning Research, 2008, 9(2605): 2579-2605.

https://doi.org/10.1007/s10846-008-9235-4      URL      [本文引用: 6]      摘要

We present a new technique called "t-SNE" that visualizes high-dimensional data by giving each datapoint a location in a two or three-dimensional map. The technique is a variation of Stochastic Neighbor Embedding (Hinton and Roweis, 2002) that is much easier to optimize, and produces significantly better visualizations by reducing the tendency to crowd points together in the center of the map. t-SNE is better than existing techniques at creating a single map that reveals structure at many different scales. This is particularly important for high-dimensional data that lie on several different, but related, low-dimensional manifolds, such as images ofobjects from multiple classes seen from multiple viewpoints. For visualizing the structure of very large data sets, we show how t-SNE can use random walks on neighborhood graphs to allow the implicit structure of all of the data to influence the way in which a subset of the data is displayed. We illustrate the performance of t-SNE on a wide variety of data sets and compare it with many other non-parametric visualization techniques, including Sammon mapping, Isomap, and Locally Linear Embedding. The visualizations produced by t-SNE are significantly better than those produced by the other techniques on almost all of the data sets.
[24] Hinton G, Roweis S.

Stochastic Neighbor Embedding

[J]. Advances in Neural Information Processing Systems, 2002, 41(4): 833-840.

[本文引用: 1]     

[25] Kullback S, Leibler R A.

On Information and Sufficiency

[J]. Annals of Mathematical Statistics, 1951, 22(1): 79-86.

https://doi.org/10.1214/aoms/1177729694      URL      [本文引用: 1]     

[26]

Embedding Projector

[EB/OL]. [2018-02-20]. .

URL      [本文引用: 1]     

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn

/