基于依存句法网络的文本特征提取研究*
唐晓波, 肖璐
武汉大学信息资源研究中心 武汉 430072
通讯作者:肖璐:E-mail:ahjk_xiaolu@163.com

作者贡献声明:

唐晓波:提出研究命题与研究方案, 实验方案设计与结果分析;

肖璐:研究方案的具体实施, 实验数据采集, 论文起草与最终版本修订。

摘要

【目的】利用依存句法分析构建更准确的文本网络, 提高基于网络图的文本特征提取方法的准确率。【方法】根据依存句法分析的结果确定特征词之间的语义关联, 利用特征词依存方向确定其关联方向, 采用改进的PageRank算法计算节点重要性, 并以此为指标进行特征提取。【结果】实验结果表明, 相较共词网络, 基于依存句法网络的特征提取方法能在一定程度上提高文本聚类的效果。【局限】利用依存关系确定特征词关联方向时没有对不同的依存类型进行区分。【结论】提出的基于依存句法网络的文本特征提取方法是有效的。

关键词: 特征提取; 依存句法分析; 复杂网络
中图分类号:TP391.1
Research of Text Feature Extraction on Dependency Parsing Network
Tang Xiaobo, Xiao Lu
Center for the Studies of Information Resources, Wuhan University, Wuhan 430072, China
Abstract

[Objective] In order to promote the accuracy of text feature extraction method based on network, this paper builds a more accurate text network by dependency parsing.[Methods] This method determines the semantic association between feature words according to the result of dependency parsing and the direction of the edges by dependent direction of feature words. And then the improved PageRank algorithm is used to calculate the network node importance to complete the feature extraction.[Results] Experimental results show that to some extent, text feature extraction based on dependency parsing network can improve the effect of document clustering, compared to co-word network.[Limitations] This paper does not distinguish different dependent type when determines the direction between feature words by dependent relationship.[Conclusions] The proposed method based on dependency parsing network is effective on the text feature extraction.

Keyword: Feature extraction; Dependency parsing; Complex network
1 引言

文本特征提取是自然语言处理中的重要技术[1], 是文本挖掘的基础。常用的特征提取方法有特征频度[2, 3]、TF-IDF[4, 5]、互信息[6]、信息增益[7]、χ 2统计量[8]等, 其基本思想是使用某种评估函数对特征词打分, 再根据得分高低进行特征选择[9]。这种基于词频统计的特征提取方法简单易行, 但容易忽略文本结构信息, 缺乏对特征词条上下文环境的考虑[10]。为解决该问题, 有学者提出了基于复杂网络的文本特征提取方法。该方法将文本表示成网络, 并利用网络统计指标进行特征选择, 从而解决传统特征提取中忽略文本语义信息的不足, 取得了较好的效果。

文本网络构建是基于复杂网络的文本特征提取方法的关键, 常用方法构建的大多为无向网络且容易引入无关联边。基于此, 本文采用一种新的构建方法, 该方法以特征词为网络节点, 利用依存句法分析挖掘节点间关联关系, 据此构建出文本网络, 即依存句法网络。依存句法网络克服了传统网络存在的不足:首先, 依存句法分析是一种语法结构分析方法, 用该方法挖掘出的关联词对存在一定的句法关联, 据此构建的网络既能反映上下文信息, 又能避免引入无关联的边; 其次, 根据依存句法分析中的依存原则, 依存词对之间存在一个词依存于另一个词的现象, 利用这种现象可实现节点间的有向关联, 将之前无向网络改进为更准确的加权有向网络。

由于构建方法的改变, 依存句法网络的结构较共词网络有较大区别, 在计算节点重要度时, 常用的统计指标作用有限。考虑到该网络的有向性, 因而选择PageRank算法进行节点重要度计算。传统PageRank算法根据节点之间链接计算重要度, 将相邻节点的影响考虑进来, 但该算法没有考虑节点之间链接的权重与节点本身重要度, 本文对其进行了改进, 使之更适用于依存句法网络。最后用实验证明本文提出的文本特征提取方法的可行性与有效性。

2 研究背景

基于复杂网络的文本特征提取方法最重要的两步为:文本网络构建和节点重要度计算, 研究背景介绍也将从这两个方面进行。

(1) 文本网络构建

即将文本表示成网络, 其中节点代表特征词, 边表征特征词之间关联, 边的权重表征关联程度。常用方法是利用特征词在同一语言单元的共现频率来确定特征词之间的语义关联及关联程度, 并据此进行文本网络构建, 本文将该文本网络称为共词网络, 例如文献[10, 11, 12]。文本共词网络存在如下两个问题:

①文献[13]指出只有50%的邻近共现词语有句法上的关联。利用共现频次确定特征词关联, 容易引入一些无关联的边。

②共现关系只能表征两个特征词之间有关联, 无法区别两个词在表征文本内容程度上的强弱, 构建出的网络是无向网络, 降低描述文本语义信息的准确度。

除此之外, 外部知识库如HowNet、WordNet等, 也是确定特征词之间关联及关联程度的重要依据, 例如文献[14, 15]。利用外部知识库构建文本网络, 可深层挖掘特征词之间一般意义上的语义关系, 但容易忽略文本本身的语义, 因为很多没有语义关联的词语, 在特定主题的文本中存在一定语义关系。

(2) 节点重要度计算

即综合利用复杂网络中的统计指标进行节点的重要度计算, 从而实现特征提取。常用的统计指标包括节点度、聚类系数和介数。研究者通常综合应用这几个指标计算节点重要度, 例如文献[1]利用节点度和聚类系数来抽取关键词, 文献[16]利用加权聚类系数和节点的介数进行关键词提取, 文献[12]综合考虑节点加权度、加权聚类系数和边介数进行特征选择。

3 基于依存句法网络的文本特征提取过程

基于复杂网络的文本特征提取方法解决了传统基于词频统计特征提取中存在的忽略文本语义信息的缺陷, 提高了特征提取的准确性。文本网络构建是该类特征提取方法的关键, 但目前常用的方法存在一定不足。据此, 本文提出利用依存句法分析构建文本依存句法网络, 并以该网络为基础实现文本特征的提取。具体过程可大致分为两步, 即文本网络构建和文本特征提取。

3.1 文本网络构建

文本网络由节点和有向边及边的权重组成。其中, 节点代表文本特征词; 边代表特征词之间的语义关联, 由句法分析结果确定; 边的权重代表特征词之间语义关联的程度。具体构建过程包括:

(1) 文本句子集获取。句法分析一般以一个语言单元为粒度进行分析, 在对一个文本进行句法分析时需先将其划分成句子集。以标点符号为依据, 将待分析文本划分成句子。定义Di={S1, S2, S3, ...Sj}, 其中Di表示待分析文本i, Sj表示文本i中第j个句子。

(2) 关联词对集获取。本文利用依存句法分析获取关联词对。依存句法分析是一种基于依存语法的句子语法结构分析方法, 由法国语言学家Tesniere[17]于1959年提出, 该方法通过分析语言单位内成分之间的依存关系揭示其句法结构[18]。依存语法认为, 词之间的关系是有方向的, 即一个词支配另一个词, 这种支配与被支配关系就是依存关系[19]。利用依存关系确定关联词对, 既可保证关联词对之间存在一定句法关联, 又可实现有向关联, 从而保证文本网络构建的准确性。

具体过程包括两步:首先, 利用依存句法分析器对文本句子集中的句子逐一进行分析; 其次, 根据分析结果提取关联词对及关联方向。例如, 利用哈尔滨工业大学社会计算与信息检索研究中心开发的语言技术平台(LTP)[20]对句子“ 投票委员会正在统计投票结果” 进行依存句法分析的结果如图1所示, 其中关联词对及关联方向为:“ 统计→ 委员会” 、“ 统计→ 正在” 、“ 委员会→ 投票” 、“ 统计→ 结果” 、“ 结果→ 投票” 。

图1 例句的依存句法分析结果

(3) 有效关联词对集获取。步骤(2)中获取的是文本依存关联词对的全量数据, 其中包含大量停用词, 需将其删除, 否则会影响后面节点重要度计算, 同时增加程序运行的时间复杂度。将含有一个或两个停用词的关联词对从关联词对集中删除, 得到最终的有效关联词对集。

(4) 节点、边及其权重获取。首先, 统计有效关联词对集中的特征词, 进行除重处理, 得到文本特征词集, 该词集中的特征词就是文本网络中的节点。定义Di={t1, t2, t3, ...tj}, 其中tj表示文本i中第j个特征词或文本网络i中第j个节点。其次, 节点的边由节点所代表的特征词的依存句法分析结果确定。最后, 边的权重由其所连接的节点代表的特征词之间存在关联的频次决定, 且需将边的方向考虑进去。本文通过改进文献[12]的方法进行边权重计算, 公式如下所示:

(1)

其中, wij表示由节点i指向节点j的边的权重, fre(ti)和fre(tj)分别表示节点i和j代表的特征词在文本Di中出现的频次, fre(ti, tj)表示词对“ i→ j” 在文本Di的有效关联词对集中出现的频次。

(5) 文本网络构建。根据步骤(4)得到的数据构建文本网络, 其中节点代表特征词, 边代表特征词之间语义关联, 边的权重代表关联程度。文本网络属于语言网络, 文献[21]指出语言网络是一种具有小世界特征的复杂网络。将文本转化成网络后可利用节点度、聚类系数等网络参数对其进行挖掘。常用的文本共词网络存在一定不足, 本文考虑利用依存句法分析构建文本依存句法网络。文献[22, 23]对该类网络进行了深入分析, 证明该类网络也是具有小世界效应和无标度特性的复杂网络。

以搜狐网中一篇关于“ 克里米亚公投结束 民调显示93%选民赞成入俄” [24]的文章为例, 利用网络分析与可视化软件Gephi[25], 按上述方法构建文本网络, 其结果如图2所示:

图2 例文的文本网络

3.2 文本特征提取

基于复杂网络的文本特征提取常用指标有节点度、聚类系数和介数。节点度用来衡量节点与其他节点的连接强度[12], 在进行特征选择时可避免提取高频孤立词; 聚类系数和介数则分别反映了节点对网络局部和全局的影响。但该类节点重要度计算方法对于有向网络作用有限。本文以依存句法分析为基础构建依存句法网络, 由于该网络具有有向性, 根据此特点选用PageRank算法进行节点重要性计算。相较节点度、聚类系数和介数, 该算法不但考虑到了节点自身的重要性, 还考虑到相邻节点重要性对该节点重要性的影响, 从而能更准确地计算出节点在网络中的重要程度。由于经典的PageRank算法进行节点重要度计算时没有考虑边的权重及节点本身的重要性, 本文对其进行了改进。

文本特征提取具体过程包括节点重要度计算和文本特征提取:

(1) 节点重要度计算。根据以上分析, 采用PageRank算法计算节点重要度。PageRank算法最早应用于Google搜索引擎中, 是一种网页重要性计算方法, 其算法基于“ 从许多优质网页链接过来的网页, 必定还是优质网页” 的回归关系, 来判定所有网页的重要性[26], 具体计算公式如下所示[27]:

(2)

其中, PR(Tj)表示节点j的PageRank值, PR(Ti)表示指向j的节点i的PageRank值, O(Ti)表示节点i的出度, int(Ti)为指向节点j的节点集合, d表示阻尼系数, N为作归一化处理的常数总数。

针对本文构建的网络, 传统PageRank算法存在以下两个不足:

①传统PageRank算法仅考虑相邻节点PageRank值对目标节点的影响, 而没有对影响的强度进行区分, 即将一个节点的PageRank值平均分配到该节点链入的节点上。(注:目标节点指的是计算PageRank值的节点, 相邻节点指的是指向目标节点的节点)。依存句法网络是加权有向网, 边的权重可在一定程度上反映相邻节点对目标节点影响的大小, 将其考虑进去, 可提高节点重要度计算的准确性。

②文献[28]指出利用传统PageRank算法计算节点重要度时忽略了目标节点本身重要度对相邻节点的影响力。即目标节点本身重要度越高, 从相邻节点分配到的PageRank值应该越多, 而传统PageRank算法没有考虑到这一点。同时文献[28]提出三个影响节点本身重要度的因素, 即节点的覆盖重要性、频度重要性及位置重要性。由于本文构建的依存句法网络的边的权重是根据节点对所代表的特征词对在有效关联词对集中出现的频次来计算, 该值将节点覆盖重要性和频度重要性考虑进去, 所以本文在进行节点本身重要度计算时仅考虑节点的位置重要性。具体从两方面来衡量:文献[28]认为在文本标题中出现的特征词对相邻节点影响力较大; 在文本自动摘要领域, 较多学者指出相较其他句子, 段落的首句成为摘要句的可能性更大。由此推断出, 出现在段落首句的特征词可能表征文本主题的程度更大。

综上所述, 改进的PageRank算法如公式(3)所示:

其中, out(Ti)表示节点i的外链接集合; Pj表示节点j的重要度值, 如果节点j所代表的特征词出现在标题中Pj=ρ , 出现在段落首句中 Pj=σ , 既出现在标题中又出现段落首句中Pj=ρ , 既不出现在标题中又不出现段落首句中Pj=1, 且ρ > σ > 1。

(2) 文本特征提取。根据公式(3)计算文本网络中所有节点的PageRank值, 并进行排序。然后设定阈值A, 选择排名前A的节点所代表的特征词为表征文本主题内容的词语。

4 实证分析

特征提取是文本数据挖掘的基础, 在很大程度上决定了分类和聚类的结果。所以, 文本分类和聚类效果可在一定程度上评估特征提取方法的有效性。考虑到文本分类需要训练分类器, 增加实验的复杂度, 本文选择通过文本聚类分析进行特征提取方法的有效性评估。

从腾讯新闻网站下载2 000篇文章作为实验数据, 其中社会新闻、娱乐新闻、体育新闻、财经新闻、国际新闻各400篇。从5个类别中随机抽取20、60、100、140、180、220、260篇文章, 组成分别包含100、300、500、700、900、1 100、1 300篇文章的待分析数据集。以该数据集为基础进行三种文本特征提取方法的比较实验:第一种为传统的IF-IDF方法; 第二种为基于词共现的复杂网络方法, 在该方法中特征词共现窗口设定为句子, 节点重要度通过节点的加权度、介数和聚类系数来衡量; 第三种为本文提出的方法。应用的软件工具主要有中国科学院计算技术研究所的ICTCLAS分词系统[29]、网络分析与可视化软件Gephi[25]、斯坦福大学的Stanford Parser[30]及办公软件Excel等。

利用宏平均F1值进行聚类效果比较, 具体结果如表1所示, 将该结果转化成散点图, 如图3所示:

表1 待分析数据集聚类结果对比(F1值%)

图3 待分析数据集聚类结果散点图

根据实验结果可知:

(1) 相较传统方法, 基于文本网络的特征提取方法效果更好, 分析其原因, 传统特征提取方法将特征词看成是独立的, 丧失了词语之间的语义关联, 而基于网络的方法在构建文本网络时将词语的语义关系考虑进去, 从而在一定程度上提高特征词权重计算的准确性。再者, 随着网络技术的发展, 文本产生速度加快, 文本长度变短, 特征词在文本中出现频率下降。从而导致基于词频统计的特征提取方法的作用越来越有限, 将特征词之间的语义信息考虑进去可在一定程度上弥补文本长度对特征选择的影响。

(2) 在两种基于文本网络的特征提取方法中, 基于依存句法网络的聚类分析效果更好。分析其原因:利用依存句法分析构建的文本网络, 减少了无语法关联边的引入, 并将无向网络改进成有向网络, 实现了文本语义更精确的描述; 选用改进的PageRank算法计算节点重要度, 该算法不但将相邻节点的PageRank值考虑进来, 而且将该值对目标节点PageRank值的影响强度进行区分, 提高了计算的准确性。实际上, 无向词语网络中, 节点的度数、介数等指标与其词频存在正线性相关, 因而其特征选择效果存在改进空间[31]

5 结语

基于复杂网络特征提取方法解决了传统方法中忽略文本语义结构和上下文环境的问题, 但在构建文本网络时, 常以特征词在同一语言单位内共现频次为基础确定特征词之间的关联及关联程度。这样容易引入一些无关联边, 且无法描述关联特征词之间的关联方向。基于此, 本文提出一种新的文本网络构建方法, 即利用依存句法分析构建文本依存句法网络。首先, 该方法以依存句法分析的结果为基础确定特征词之间的关联及关联程度, 减少了无关联边的引入; 其次, 根据依存语法中定义的依存关系可将无向边转化成有向边, 得到更准确描述文本语义内容的有向网络。该网络与以前的文本网络在结构上有较大区别, 本文对该网络结构特点进行了分析, 采用改进的PageRank算法进行节点重要度计算, 最终实现文本特征词的提取。最后通过实验证明了该方法的可行性和有效性。本文虽在一定程度上提高了基于网络的文本特征提取的准确性, 但还存在一些不足:例如, 在构建文本网络时, 仅根据依存关系确定关联词对的方向。依存关系是一个总称, 下面有很多种依存类型, 不同依存类型的关联词对的关联方向可能不一样, 而本文没有在这方面做区分, 这是以后需要改进的地方。

参考文献
[1] 赵鹏, 蔡庆生, 王清毅, . 一种基于复杂网络特征的中文文档关键词抽取算法[J]. 模式识别与人工智能, 2007, 20(6): 827-831.
Zhao Peng, Cai Qingsheng, Wang Qingyi, et al. An Automatic Keyword Extraction of Chinese Document Algorithm Based on Complex Network Features[J]. Pattern Recognition and Artificial Intelligence, 2007, 20(6): 827-831. [本文引用:2] [CJCR: 0.7855]
[2] Dumais S, Platt J, Heckerman D, et al. Inductive Learning Algorithms and Representations for Text Categorization [C]. In: Proceedings of the 7th International Conference on Information and Knowledge Management (CIKM’98). New York: ACM, 1998: 148-155. [本文引用:1]
[3] Apté C, Damerau F, Weiss S M. Automated Learning of Decision Rules for Text Categorization[J]. ACM Transactions on Information Systems, 1994, 12(3): 233-251. [本文引用:1] [JCR: 1.07]
[4] Joachims T. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization [C]. In: Proceedings of the 14th International Conference on Machine Learning (ICML’97). San Francisco: Morgan Kaufmann Publishers Inc. , 1997: 143-151. [本文引用:1]
[5] Yang Y, Pedersen J O. A Comparative Study on Feature Selection in Text Categorization [C]. In: Proceedings of the 14th International Conference on Machine Learning (ICML’97). San Francisco: Morgan Kaufmann Publishers Inc. , 1997: 412-420. [本文引用:1]
[6] Church K W, Hanks P. Word Association Norms, Mutual Information, and Lexicography[J]. Computational Linguistics, 1990, 16(1): 22-29. [本文引用:1] [JCR: 0.94]
[7] Quinlan J R. Induction of Decision Trees[J]. Machine Learning, 1986, 1(1): 81-106. [本文引用:1] [JCR: 1.467]
[8] Mesleh A M A. Chi Square Feature Extraction Based SVMs Arabic Language Text Categorization System[J]. Journal of Computer Science, 2007, 3(6): 430-435. [本文引用:1]
[9] 张玉芳, 万斌候, 熊忠阳. 文本分类中的特征降维方法研究[J]. 计算机应用研究, 2012, 29(7): 2541-2543.
Zhang Yufang, Wan Binhou, Xiong Zhongyang. Research on Feature Dimension Reduction in Text Classification[J]. Application Research of Computers, 2012, 29(7): 2541-2543. [本文引用:1] [CJCR: 0.601]
[10] 邹加棋, 陈国龙, 郭文忠. 基于图模型的中文文档分类研究[J]. 小型微型计算机系统, 2006, 27(4): 754-757.
Zou Jiaqi, Chen Guolong, Guo Wenzhong. Research on Chinese Document Classification Based on Graph Model[J]. Mini- Micro Systems, 2006, 27(4): 754-757. [本文引用:2] [CJCR: 0.46]
[11] 孟海东, 张炼, 吕海林. 基于图模型的文本分类方法的研究[J]. 计算机与现代化, 2010 (9): 38-40, 44.
Meng Haidong, Zhang Lian, Lv Hailin. Research on Document Classification Method Based on Graph Model[J]. Computer and Modernization, 2010(9): 38-40, 44. [本文引用:1] [CJCR: 0.3579]
[12] 赵辉, 刘怀亮, 张倩. 一种基于复杂网络的中文文本分类算法[J]. 情报学报, 2012, 31(11): 1179-1186.
Zhao Hui, Liu Huailiang, Zhang Qian. A Chinese Text Classification Algorithm Based on Complex Network[J]. Journal of the China Society for Scientific and Technical Information, 2012, 31(11): 1179-1186. [本文引用:4] [CJCR: 1.1348]
[13] Liu H. The Complexity of Chinese Syntactic Dependency Networks[J]. Physica A: Statistical Mechanics and Its Applications, 2008, 387(12): 3048-3058. [本文引用:1] [JCR: 1.676]
[14] Liu G, Zhai Z. Research on Keywords Extraction of Chinese Documents Based on TEXT-NET [C]. In: Proceedings of 2011 International Conference on Electric Information and Control Engineering (ICEICE), Wuhan, China. IEEE, 2011: 6074-6077. [本文引用:1]
[15] Hensman S. Construction of Conceptual Graph Representation of Texts [C]. In: Proceedings of the Student Research Workshop at HLT-NAACL 2004. Stroudsburg: Association for Computational Linguistics, 2004: 49-54. [本文引用:1]
[16] 谢凤宏, 张大为, 黄丹, . 基于加权复杂网络的文本关键词提取[J]. 系统科学与数学, 2010, 30(11): 1592-1596.
Xie Fenghong, Zhang Dawei, Huang Dan, et al. Keywords Extraction Based on Weighted Complex Network[J]. Journal of Systems Science and Mathematical Sciences, 2010, 30(11): 1592-1596. [本文引用:1] [CJCR: 0.3797]
[17] 吕西安·泰尼埃尔. 结构句法基础[G]. 北京: 中国人民大学语言文学系, 1987.
Tesniere L. The Basis of Structure Syntax [G]. Beijing: Language and Literature Department of Renmin University of China, 1987. [本文引用:1]
[18] 李彬, 刘挺, 秦兵, . 基于语义依存的汉语句子相似度计算[J]. 计算机应用研究, 2003, 20(12): 15-17.
Li Bin, Liu Ting, Qin Bing, et al. Chinese Sentence Similarity Computing Based on Semantic Dependency Relationship Analysis[J]. Application Research of Computers, 2003, 20(12): 15-17. [本文引用:1] [CJCR: 0.601]
[19] 王鹏, 樊兴华. 中文文本分类中利用依存关系的实验研究[J]. 计算机工程与应用, 2010, 46(3): 131-133, 141.
Wang Peng, Fan Xinghua. Study on Chinese Text Classification Based on Dependency Relation[J]. Computer Engineering and Applications, 2010, 46(3): 131-133, 141. [本文引用:1] [CJCR: 0.457]
[20] Che W, Li Z, Liu T. LTP: A Chinese Language Technology Platform [C]. In: Proceedings of the 23rd International Conference on Computational Linguistics: Demonstrations, Beijing, China. Stroudsburg: Association for Computational Linguistics, 2010: 13-16. [本文引用:1]
[21] Matsuo Y, Ohsawa Y, Ishizuka M. A Document as a Small World[A]//New Frontiers in Artificial Intelligence [M]. Springer Berlin Heidelberg, 2001: 444-448. [本文引用:1]
[22] 刘知远, 郑亚斌, 孙茂松. 汉语依存句法网络的复杂网络性质[J]. 复杂系统与复杂性科学, 2008, 5(2): 37-45.
Liu Zhiyuan, Zheng Yabin, Sun Maosong. Complex Network Properties of Chinese Syntactic Dependency Network[J]. Complex Systems and Complexity Science, 2008, 5(2): 37-45. [本文引用:1] [CJCR: 0.6105]
[23] 刘海涛. 汉语句法网络的复杂性研究[J]. 复杂系统与复杂性科学, 2007, 4(4): 38-44.
Liu Haitao. The Complexity of Chinese Syntactic Network[J]. Complex Systems and Complexity Science, 2007, 4(4): 38-44. [本文引用:1] [CJCR: 0.6105]
[24] 刘旭. 克里米亚公投结束民调显示93%选民赞成入俄[EB/OL]. (2014-03-17). http: //news. sohu. com/20140317/n396701134. shtml.
Liu Xu. The End of the Crimean Referendum Poll Shows 93% of Voters is in Favor of the Entry of Russia [EB/OL]. (2014-03-17). http://news.sohu.com/20140317/n396701134.shtml. [本文引用:1]
[25] The Open Graph Viz Platform [EB/OL]. [2014-03-05]. http://www.gephi.org. [本文引用:2]
[26] 张巍. 基于PageRank算法的搜索引擎优化策略研究[D]. 成都: 四川大学, 2005.
Zhang Wei. Research on Optimizing Strategies of Search Engine Based on PageRank Algorithm [D]. Chengdu: Sichuan University, 2005. [本文引用:1]
[27] 陈小飞, 王轶彤, 冯小军. 一种基于网页质量的PageRank算法改进[J]. 计算机研究与发展, 2009, 46(S): 381-387.
Chen Xiaofei, Wang Yitong, Feng Xiaojun. An Improvement of PageRank Algorithm Based on Page Quality[J]. Journal of Computer Research and Development, 2009, 46(S): 381-387. [本文引用:1]
[28] 夏天. 词语位置加权TextRank的关键词抽取研究[J]. 现代图书情报技术, 2013(9): 30-34.
Xia Tian. Study on Keyword Extraction Using Word Position Weighted TextRank[J]. New Technology of Library and Information Service, 2013(9): 30-34. [本文引用:3] [CJCR: 1.073]
[29] Zhang H, Yu H, Xiong D, et al. HHMM-based Chinese Lexical Analyzer ICTCLAS[C]. In: Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing (SIGHAN’03), Sapporo, Japan. Stroudsburg: Association for Computational Linguistics, 2003: 184-187. [本文引用:1]
[30] The Stanford Parser: A Statistical Parser [EB/OL]. [2014-05- 29]. http://nlp.stanford.edu/software/lex-parser.shtml#Download. [本文引用:1]
[31] 陈果, 胡昌平. 科研领域关键词网络的结构特征与启示——基于图情学科的实证研究[J]. 现代图书情报技术, 2014(7-8): 84-91.
Chen Guo, Hu Changping. Research on the Structural Features of Keyword Network of Scientific Research Areas: An Empirical Study of LIS[J]. New Technology of Library and Information Service, 2014(7-8): 84-91. [本文引用:1] [CJCR: 1.073]