Permissions
Copyright©2014, The modern information technology editorial office
提取核心特征词的惩罚性矩阵分解方法—— 以共词分析为例.现代图书情报技术
俞仙子1, 高英莲2, 马春霞1, 刘金星1
1. 曲阜师范大学信息技术与传播学院 日照 276826
2. 曲阜师范大学图书馆 日照 276826
俞仙子 E-mail: yuxianzi2010@163.com

俞仙子: 采集、清洗、分析数据和论文起草;
高英莲: 数据的分析与论文修订;
马春霞: 实验调试;
刘金星: 提出研究思路, 设计研究方案和论文修订。

摘要

【目的】

在共词分析时对高维共词矩阵进行稀疏降维, 直观快速地凸显出高维矩阵中的核心特征词。

【方法】

提出基于惩罚性矩阵分解(PMD)的文本核心特征词提取方法, 选取有关高校图书馆使用社交网络这一主题的文献进行实验, 用Matlab R2012a对构建的共词矩阵进行PMD分解降维。

【结果】

利用PMD从1 648个特征词中提取出65个核心特征词, 不仅大于用主成分分析提取的34个特征词, 而且揭示出高校图书馆使用社交网络的研究热点。

【局限】

实验中提取的高校图书馆使用社交网络的特征词未能全面涉及, 有一定的主观性。

【结论】

用PMD方法对高维共词矩阵进行稀疏后, 所获核心特征词更容易被理解和解释, 也能够表明一些边缘化的主题。

关键词: 惩罚性矩阵分析; 特征词提取; 主成分分析;
The Penalized Matrix Decomposition Method of Extracting Core Characteristic Words ——Taking Co-word Analysis as an Example
Yu Xianzi1, Gao Yinglian2, Ma Chunxia1, Liu Jinxing1
1. Department of Information Technology and Communication, QuFu Normal University, Rizhao 276826, China
2. Library of QuFu Normal University, Rizhao 276826, China
Abstract

[Objective]

Highlight core characteristic words directly by reducing the high-dimensional co-matrix sparely in co-word analysis.

[Methods]

This article proposes, based on the Penalized Matrix Decomposition (PMD) method, a method to extract core characteristic words from texts of characteristic words.The authors experiment on articles which are related to university libraries that take advantage of SNS, and use Matlab R2012a to decompose high-dimensional co-word matrix by PMD.

[Results]

By using PMD method, 65 core characteristic words are extracted from all 1648 characteristic words, which more than 34 characteristic words that extracted by the principal components analysis, and also reveal research hotspots of the university libraries using social networks.

[Limitations]

The authors don’t refer to all the characteristic words that acquired from literature, and have a certain subjectivity.

[Conclusions]

Converting into sparse matrix by PMD, core characteristic words are comprehended and explained more easily, meanwhile, they can show some marginal subjects.

Keyword: PMD; Extracting core characteristic words; PCA;

目前, 有关共词分析的文献中, 基本是应用数学指标和关系范式与共词矩阵相结合, 通过揭示共词矩阵中的关键词或主题词, 来表现某一领域的研究热点和趋势。但是, 在互联网技术飞速发展的今天, 文本数据激增使得这一传统方法的使用受到了一定限制。

1 基于共词分析方法提取特征词概述

国内大部分学者从其研究领域出发, 将构建的高频词共词矩阵导入SPSS软件, 利用多元统计方法, 寻找各自领域所关注的主题和新兴学科的研究范式[1]。张勤等[2]在国外知识管理研究领域 58个高频关键词的基础上, 运用传统共词分析法, 以 SPSS软件为工具, 发现了国外知识管理领域的三大学派、两大范式。陆宇杰等[3]收集全球100多所高校图书馆的核心价值陈述文本, 在核心价值基本概念集的基础上, 对高频词共词矩阵进行因子分析、聚类分析、多维尺度分析, 提炼出国外高校图书馆核心价值的体系结构和关键要素。文献[4]以信息检索领域文献为基础, 研究相关文献的关键词的共现频率, 分析其主题领域以及特殊时期的变化, 并利用SPSS中多维尺度分析, 绘制了一副详细的领域地图。Morris[5]将共词分析引入医学领域, 将患有某一疾病的患者数据转换成能够表示所有病症的相关因素的共词矩阵, 利用主成分分析方法, 抽取出患者的最主要特征, 其目的是找到某一疾病形成的主要原因。

文献[6,7]用改进的共词分析, 对关键词或者主题词进行加权, 但跳脱不出因子分析等多元统计方法, 抽取的主题词或关键词不能充分体现该领域文本繁杂的特性。鉴于此, 本文提出了一种基于惩罚性矩阵分解 (Penalized Matrix Decomposition, PMD)[8]的核心特征词提取方法, 对高维共词矩阵进行稀疏约束, 从而直观全面地从复杂文本中提取出核心特征词。

2 惩罚性矩阵分解的概述

目前, 稀疏约束的方法广泛应用于人脸识别和基因提取等领域, 充分说明稀疏的方法在减少数据的复杂性方面具有显著的优势。同样的, 稀疏约束可以使复杂的文本变得容易识别和理解。PMD就是一种基于稀疏约束的矩阵分解降维方法, 在生物基因提取领域, Zheng等[9,10]利用PMD发现了大量基因中的转录模块。

2.1 惩罚性矩阵分解的概念

惩罚性矩阵分解方法最早由Witten等[8]提出, 已知X为一个m×n的矩阵, m为样本数, n为特征数, 且m≥n。假设矩阵X中的行和列的平均值全为零, 对矩阵X进行奇异值分解(Singular Value Decomposition, SVD)如下所示:

X=UDVT UTU=Im VTV=In (1)

PMD通过对U和V施加惩罚性的约束条件来进行稀疏矩阵分解, 单因子PMD可以通过如下目标函数进行优化[8]:

(2)

其中, u和v分别是分解后的矩阵U和V的一列, d是矩阵D对角线上的元素, ∙是Frobenius范式, p1和p2是具有多种函数形式的惩罚函数[8]。公式(2)可以用如下函数进行优化[8], 成为线性函数:

maximize uTXv (3)

其中, 目标函数uTX在列向量u和v中是双线性的, 如果u是固定的, 那么v就是线性函数, 反之亦然。利用p1或p2对u和v进行惩罚性约束, 使p1(u)≤α1, p2(u)≤α2, 选取适当的参数α1、α2使u或v是稀疏的[8]

2.2 基于PMD的核心特征词的提取

本文利用PMD的目的是从大量杂乱的特征词文本中提取核心特征词, 这些核心特征词代表了所要探究领域的研究热点。由于PMD基于稀疏约束, 经过约束的矩阵的大多数系数都会变成零, 从而凸显出特征词样本的最主要部分, 使高维矩阵更加容易识别和解释。所以, 提取出的核心特征词可以捕捉到相同条件下所有特征词样本的变化, 能够直观迅速地分析出所研究领域的热点和研究方向, 为后续发现文本中主要特征词提供了参考方法。

对于共词分析中的n×n维的共词矩阵B, 有B=XTX, 再求得特征词-样本矩阵X后, 参照文献[11]用PMD将其分解成两个基本的矩阵U和V, 即X~UV, 它们分别为左奇异矩阵和右奇异矩阵[11], 右奇异向量{vk}是V的一列, 代表了相应特征词样本的表达模式, 左奇异向量{uk}是矩阵U的一列, 代表了特征词样本, 如图1所示[11]:

图1 文本数据的元样本模型图

通常, 文本数据的元样本定义为原始样本的线性组合, 元样本数据应包括数据的本征结构, 从另一方面说, 每个样本都可以看成元样本的线性组合[12], 所以可以在特征词元样本中找到能够代表所有样本的核心特征词。为了对复杂的数据进行降维处理, 必须从特征词-文献矩阵X中选取一个子集来表示矩阵X, 其潜在的依据就是要从元样本中提取出数据的本征结构, 即相应的样本表达模式, 再从这些表达模式中识别出核心特征样本。令:

本文中矩阵X的第j列元素, 即m维的向量sj, 是特征词样本{uk}中各样本的线性函数, 可以由特征词样本{uk}来表示, 通过选择适当的惩罚函数p1, 使u1≤α1, 可以得到一个有很多零元素的稀疏矩阵u, 其中的非零元素就代表核心特征词。由于 , 则 , 即 。基于PMD的核心特征词的提取流程如图2所示:

图2 基于PMD的核心特征词流程

3 实验过程及结果

主要选取有关高校图书馆使用社交网络这一主题的文献进行分析, 对构建的特征词共词矩阵进行PMD分解降维, 并提取出核心特征词, 通过对比基于主成分分析和PMD提取出的核心特征词, 验证PMD方法的有效性。

3.1 数据来源

以CNKI中国期刊全文数据库为文献来源, 对有关高校图书馆使用社交网络的文献进行调研查询, 以期得出高校图书馆使用社交网络的核心主题和今后的发展趋势, 希望能有别于针对某一社交网站的案例调研分析, 深入研究文献内容中隐含的潜在信息, 客观总结出能够将高校图书馆服务融入社交网络的好方法。

利用专业检索, 设定检索式为SU=(‘SNS’+‘社交网络’+‘社交网站’+ ‘twitter’+‘facebook’+‘微博’+‘人人网’+‘校内网’+‘豆瓣网’+‘开心网’+‘QQ空间’)+(‘图书馆’), 可以检索到主题为“SNS”或“社交网络”或“社交网站”或者“微博”或者“人人网”等有关“图书馆”的所有文献信息。然后对检索的407篇(除去与主题无关的论文、报告和通知等)相关文献, 统计出各个文献的题目、摘要和关键词。

将所有文献的标题和摘要导入武汉大学开发的ROST软件, 加载分词自定义词表, 如将“微”“博”统一为“微博”, 将“豆瓣”“网”统一成“豆瓣网”等, 最终得到分词后的标题和摘要中的文本。然后, 对分词后的标题和摘要文本及原有关键词进行表面特征的简单整合, 如将“高校学生”统一为“大学生”等。另外, 将影响本文研究内容的关键词“图书馆”进行舍弃, 进而邀请4位专家对每篇文献中剩余的特征词进行判定, 决定这些特征词是否代表了该文献的主题内容, 最终得到特征词1 648个。用ROST软件统计词频并排序, 如表1所示:

表1 高频特征词局部
3.2 数据处理

通过简单的词频统计可以清楚地看到在应用社交网络提升图书馆服务这一方面, 高校图书馆远远高于公共图书馆。其次, 特征词“微博”出现的最多, 为199次, 可见, “微博”平台的使用率和研究率是最高的。通过高频特征词可以了解该领域研究的基本情况, 但是会忽视低频词对这个研究领域的影响。况且, 单凭词频统计还不能进一步反映这些主题词之间的关系[13], 无法深入探究其研究方向和热点。因此, 用ROST 软件统计这1 648个特征词在每篇文献中的共现频次, 建立一个1 648×1 648的共词矩阵。首先, 在功能性分析中选择社会网络和语义网络分析, 将行和列的最大值设为2 000, 得到一个包含所有特征词的1 648行、1 648列的共词矩阵, 局部如表2所示:

表2 特征词共词矩阵局部

表2中单元格的数据是两个关键词共同出现的次数, 这一数字越大, 说明这两个关键词在整个样本中相遇的机会越大, 如“微博”和“高校图书馆”的共词频次为62, 即有62篇论文同时使用了这两个特征词。

3.3 实验结果

利用PMD方法对搜集到的所有特征词样本进行分析, 因为PMD是一种基于稀疏约束的降维方法, 可以将大量复杂的矩阵向量变稀疏, 因此忽略选取高频特征词这一步骤, 对所有特征词所构成的共词矩阵进行分析。这样, 不仅将能够统计出表现热点的高阈值的特征词, 还能够统计出代表边缘化主题的低阈值特征词, 使共词分析结果更加客观和完整。

在Matlab R2012a中, 首先将特征词共词矩阵转化为特征词-文献矩阵(详见本篇论文的网络版本), 并对其进行标准化处理, 其中要求均值为0, 方差为1。再利用PMD方法对这一样本进行核心特征词的提取, 通过对特征词-文献矩阵进行奇异分解即X~UV, 利用l1范数对U进行约束, 设迭代100次后u变得收敛。由于 , 本实验中已知m=1 648, 则 , 即 。在这里, 约束参数越大, 被约束矩阵的稀疏度也就越大, 为了得到更好的效果, 取 , 对U进行约束, 从而得到一个有很多零元素的稀疏矩阵u (详见本篇论文的网络版本)。所有非零元素代表了所要提取的核心特征词, 即该表中的元素不等于零时, 这一元素uij就是核心特征词, 最终从1 648个特征词中共提取出65个核心特征词, 如表3所示:

表3 基于PMD提取的核心特征词

从提取出的65个核心特征词中, 可以清晰地看到目前国内学者对于高校图书馆使用社交网络的讨论情况: 越来越多的高校图书馆使用微博这一社交网络提供信息服务, 各高校图书馆如何选择适合自己的微博平台成为当之无愧的焦点; 更加关注高校图书馆如何高效率地在其社交网络的主页上组织和发布信息; 探讨国外高校图书馆开展社交网络服务的具体内容, 给我国高校图书馆社交网络应用出现的问题提供解决措施。

其中, 特征词“媒体推广”“图书搜索”“同行关注”“重庆大学图书馆”“清华大学图书馆”等都是阈值低于4的低频词, 而特征词“微博信息推送”是一个阈值为1的低频词, 充分说明利用惩罚性矩阵分解可以清晰地发现高校图书馆应用社交网络这一研究领域的一些边缘化主题, 特别突出了对社交网络使用贡献较大的高校图书馆, 即清华大学图书馆和重庆大学图书馆。这些阈值低的特征词不仅表现出高校图书馆可以利用社交网络进行媒体推广和形象维护, 而且在将微博融入图书馆服务这一方面, 表现出高校图书馆可以在多种商业平台上建立系统化的微博账户, 分层分级, 充分利用现有的资源, 扩大服务的受众面等。

3.4 对比分析

为了验证本文提出的PMD方法的有效性和优越性, 笔者对该组特征词样本进行主成分分析, 提取出特征词样本的主成分和影响主成分的特征词。根据经验选取词频大于4的高频特征词, 构建一个176×176的高频特征词共词矩阵T, 并对其进行分析。

(1) 主成分分析过程

主成分分析(Principal Components Analysis, PCA)由Pearson提出[14], 是一种将多个变量通过线性变换以选出较少个数重要变量的多元统计分析方法, 经常用于减少数据集的维数, 保持数据集中对方差贡献最大的特征, 主要通过对协方差矩阵进行特征分解[15], 得出数据的主成分与它们的权值, 即特征向量和特征值, 其结果可以认为是对原数据中的方差做出解释。

在Matlab R2012a中, 运用协方差矩阵进行主成分分析(Pcacov), 得到主成分(COEFF)、协方差矩阵T的特征值(Latent)和每个特征向量表征在观测量总方差中所占的百分数(Explained)。笔者分析的矩阵T是一个n×n的矩阵, 得到的主成分中每列数据代表了主成分与变量的相关系数, Latent中存放对应矩阵的特征值, 这些特征值在函数里面是通过矩阵奇异值分解实现的。

(2) 主成分分析结果

最终提取出67个主成分, 其累计贡献率为85.15%, 即这67个主成分可以解释高校图书馆使用社交网络全部信息的85%以上。其中, 前7个主成分解释的方差比例较高, 累计方差解释贡献率为37.30%, 表明这7个主成分可以解释我国高校图书馆使用社交网络现状的37%以上的隐含信息。基于主成分分析的特征词如表4所示, 其中每一个数字代表主成分与特征词样本间的相关系数, 即主成分的因子载荷量, 它的大小和它前面的正负号直接反映了主成分与相应特征关系的密切程度。

根据统计学惯例, 并结合本研究的样本数量, 规定因子负载的绝对值超过0.3的才被接受, 超过0.4则对解释该主成分有帮助[16]。因此, 从主成分与特征词样本间相关系数中找出绝对值大于0.3的, 也就是说因子负载的绝对值超过0.3的主要特征词能够影响这一主题。这些特征词一共有34个, 它们分别是: 微博、高校图书馆、信息服务、SNS、互动交流、Web2.0、存在问题、新浪微博、应用现状、建议、引入SNS、图书馆服务、优势、国内高校图书馆、提升服务质量、公共图书馆、发布内容、管理机制、杭州图书馆、豆瓣网、数字图书馆、信息传递、RSS、认证账户、必要性、Wiki、Blog、特征、概念、图书馆微博、更新频率、Tag、微博建设、多样化。

表4 基于主成分分析的特征词
(3) 结果对比

将主成分分析方法提取出的主要特征词与用PMD方法提取出的核心特征词对比, 发现有17个重复的特征词, 说明这17个特征词必然表示了高校图书馆使用社交网络研究现状的热点, 而主成分分析方法提取出的主要特征词基于阈值大于4的高频特征词, 在进行分析初始就有一定的局限性和主观性, 而提取出的34个主要特征词, 从数量上来说就远小于基于PMD方法提取出的65个核心特征词, 从质量上看PCA方法提取出的特征词未能体现边缘化的主题, 但PMD方法能够比较客观和全面地反映出过去和现在的研究热点, 揭示了一些潜在的研究趋势。

值得注意的是, 基于PMD提取的核心特征词表明在现阶段越来越多的研究不再反映高校图书馆使用社交网络的途径和目的, 而是关注高校图书馆如何组织社交网络的主页, 对社交网络上的信息进行内容分析, 研究实践中的高校图书馆在社交网络上运营自己的主页的情况。比如清华大学图书馆和重庆大学图书馆, 这一热点是在主成分分析中没有明确体现出来的。除此之外, 虽然两种分析方法都提取出了“公共图书馆”和“杭州图书馆”这两个特征词, 但是基于PMD提取的核心特征词有明确的指向性, 即高校图书馆应用社交网络时也要向公共图书馆学习, 不仅要提高图书馆的服务质量, 也要重复利用社交网络来进行图书馆营销和宣传推广, 维护各高校图书馆的形象。

4 结 语

本文中提出了一种新的方法对共词矩阵词进行降维处理, 即基于惩罚性矩阵分解的核心特征词提取方法, 根据实验和对比发现, 这一新的方法获得的核心特征词更容易被理解和解释, 它超越了之前共词分析中习惯使用的主成分分析法, 所以这种方法在进行共词分析时是十分有效的。

Reference
[1] 李颖, 贾二鹏, 马力. 国内外共词分析研究综述[J]. 新世纪图书馆, 2012(1): 23-27.
(Li Ying, Jia Erpeng, Ma Li. A Review of Domestic and International Co-word Analysis[J]. New Century Library, 2012(1): 23-27. ) [Cited within: 1] [CJCR: 0.6797]
[2] 张勤, 马费成. 国外知识管理研究范式——以共词分析为方法[J]. 管理科学学报, 2007, 10(6): 65-75.
(Zhang Qin, Ma Feicheng. On Paradigm of Research Knowledge Management: A Bibliometric Analysis[J]. Journal of Management Sciences in China, 2007, 10(6): 65-75. ) [Cited within: 1] [CJCR: 1.411]
[3] 陆宇杰, 张凤仙, 范并思. 基于共词分析的高校图书馆核心价值研究[J]. 大学图书馆学报, 2011, 29(6): 34-40.
(Lu Yujie, Zhang Fengxian, Fan Bingsi. Research on the Core Value of Foreign Universities——Based on Co-word Analysis[J]. Journal of Academic Libraries, 2011, 29(6): 34-40. ) [Cited within: 1] [CJCR: 3.739]
[4] Ding Y, Chowdhury G G, Foo S. Bibliometric Cartography of Information Retrieval Research by Using Co-word Analysis[J]. Information Processing & Management, 2001, 37(6): 817-842. [Cited within: 1] [JCR: 0.488]
[5] Morris S A. Manifestation of Emerging Specialties in Journal Literature: A Growth Model of Papers, References, Exemplars, Bibliographic Coupling, Cocitation, and Clustering Coefficient Distribution[J]. Journal of the American Society for Information Science and Technology, 2005, 56(12): 1250-1273. [Cited within: 1] [JCR: 2.005]
[6] 李纲, 李轶. 一种基于关键词加权的共词分析方法[J]. 情报科学, 2011, 29(3): 321-324.
(Li Gang, Li Yi. An Approach to Co-word Analysis Based on Weighted Keywords[J]. Information Science, 2011, 29(3): 321-324. ) [Cited within: 1] [CJCR: 1.112]
[7] 杨彦荣, 张阳. 加权共词分析法研究[J]. 情报理论与实践, 2011, 34(4): 61-63.
(Yang Yanrong, Zhang Yang. Research on Weighted Co-word Analysis[J]. Information Studies: Theory & Application, 2011, 34(4): 61-63. ) [Cited within: 1] [CJCR: 1.5]
[8] Witten D M, Tibshirani R, Hastie T. A Penalized Matrix Decomposition, with Applications to Sparse Principal Components and Canonical Correlation Analysis[J]. Biostatistics, 2009, 10(3): 515-534. [Cited within: 6] [JCR: 2.427]
[9] Zheng C H, Zhang L, Ng T Y, et al. Inferring the Transcriptional Modules Using Penalized Matrix Decomposition[C]. In: Proceedings of the 6th International Conference on Intelligent Computing, Changsha, China. 2010: 35-41. [Cited within: 1]
[10] Zhang J, Zheng C H, Liu J X, et al. Discovering the Transcriptional Modules Using Microarray Data by Penalized Matrix Decomposition[J]. Computers in Biology and Medicine, 2011, 41(11): 1041-1050. [Cited within: 1] [JCR: 1.162]
[11] Liu J X, Zheng C H, Xu Y. Extracting Plants Core Genes Responding to Abiotic Stresses by Penalized Matrix Decomposition[J]. Computers in Biology and Medicine, 2012, 42(5): 582-589. [Cited within: 2] [JCR: 1.162]
[12] 王娟, 范少萍, 郑春厚. 基于惩罚性矩阵分解的文本聚类分析[J]. 情报学报, 2012, 31(9): 998-1008.
(Wang Juan, Fan Shaoping, Zheng Chunhou. Analysis of Text Clustering Based on Penalized Matrix Decomposition[J]. Journal of the China Society for Scientific and Technical Information, 2012, 31(9): 998-1008. ) [Cited within: 1] [CJCR: 1.1348]
[13] 郭春侠, 叶继元. 基于共词分析的国外图书情报学研究热点[J]. 图书情报工作, 2011, 55(20): 19-22.
(Guo Chunxia, Ye Jiyuan. Hot Topics of Library and Information Science Abroad Between 2005 and 2009 Based on Co-word Analysis Method[J]Library and Information Service, 2011, 55(20): 19-22. ) [Cited within: 1] [CJCR: 1.193]
[14] Pearson K. On Lines and Planes of Closest Fit to Systems of Points in Space[J]. Philosophical Magazine, 1901, 2(6): 559-572. [Cited within: 1] [JCR: 1.596]
[15] Abdi H, Williams L J. Principal Component Analysis[J]. Wiley Interdisciplinary Reviews: Computational Statistics, 2010, 2(4): 433-459. [Cited within: 1]
[16] 孙晓宁, 储节旺. 近十年知识管理领域硕博士学位论文研究热点分析——以共词分析为方法[J]. 情报杂志, 2012, 31(6): 433-459.
(Sun Xiaoning, Chu Jiewang. On Hotspots of Master and Ph. D. Degree’s Dissertations in the Field of Knowledge Management During the Last Decade: A Co-word Analysis[J]. Journal of Intelligence, 2012, 31(6): 433-459. ) [Cited within: 1] [CJCR: 0.951]