结合复杂网络的特征权重改进算法研究

引用本文

杜坤, 刘怀亮, 郭路杰. .结合复杂网络的特征权重改进算法研究[J]. 现代图书情报技术, 2015,31(11): 26-32
Du Kun, Liu Huailiang, Guo Lujie. .Study on the Modified Method of Feature Weighting with Complex Networks. New Technology of Library and Information Service,2015,31(11): 26-32 复制到剪切板

Permissions

《现代图书情报技术》编辑部

结合复杂网络的特征权重改进算法研究

杜坤, 刘怀亮, 郭路杰

西安电子科技大学经济与管理学院西安 710126

杜坤, ORCID: 0000-0002-3603-9498, E-mail: 18192514007@163.com。

基金:*本文系国家自然科学基金项目“基于复杂网络的中文文本语义相似度研究”(项目编号:71373200)的研究成果之一

摘要

目的为了更准确计算特征权重, 以提高文本相似度计算的准确性。方法考虑特征项间的语义关联构造文本复杂网络并进行特征选择, 定义类别相关系数并结合特征选择结果, 提出一种改进的特征权重计算方法, 并进行中文文本分类实验。结果对比实验结果表明, 本文提出的特征权重改进算法较之TFIDF算法能够取得较好的分类效果。【局限】特征选择评估函数中的参数需要人工给定。结论相较于传统的TFIDF算法, 该算法能够更加准确地计算特征权重。

关键词: 复杂网络; 特征权重; 文本分类

中图分类号:TP391 G356

Study on the Modified Method of Feature Weighting with Complex Networks

Du Kun, Liu Huailiang, Guo Lujie

School of Economics & Management, Xidian University, Xi’an 710126, China

Abstract

[Objective] This paper aims to calculate feature weights more accurately for the improvement of the accuracy of text similarity calculation. [Methods] The semantic association among features is considered to structure text complex networks and select features. An improved calculation method of feature weighting is proposed to carry out the Chinese text classification experiment with the definition of category correlation coefficient and the combination of the feature selection results. [Results] Experiment results show that the proposed Chinese text classification method works better in classification than the TFIDF algorithm. [Limitations] The parameters in the feature selection evaluation function need to be given. [Conclusions] Compared with the traditional TFIDF algorithm, the new algorithm is more accurate in the representation of feature weights.

Keyword: Complex; network; Feature; weights; Text; classification

Show Figures

1 引言

大数据时代需要进行有效的文本挖掘, 文本分类是文本挖掘的关键技术之一, 其目的是对文本进行有效的组织与管理, 便于用户准确定位所需信息。文本表示是文本分类领域的基础性问题, 利用向量空间模型进行文本分类时, 需要经过特征选择、特征权重计算及文本相似度的度量等多个步骤。特征权重表示特征项在文本中的重要程度, 权值越大, 特征项越能代表文本的主题, 权重计算的合理性和有效性直接影响到文本相似度的准确性和分类的效果。

2 研究背景

基于VSM的TFIDF权重计算方法被广泛地应用于文本间的相似度计算, 但该方法通过词频TF反映文本内部特征过于简单, 没有考虑特征项间的语义关联, 此外IDF的计算并没有考虑到特征项在类内和类间的分布情况。国内外学者多从IDF方面改进特征权重算法, 如台德艺等^[1]利用集中度系数及分散度参数改进算法, 提出TF-IIDF-DIC权重函数; 苏丹等^[2]定义最少出现文档频率LDF, 用LDF替换IDF, 但这两种方法都使用TF作为文本内部特征表示, 忽略了特征项在文本上下文中的语义作用。还有学者从特征选择角度修正特征词权重, 如赵小华等^[3]将χ ²统计量引入到特征权重计算中, 提出TF-IDF-CHI算法修正各个特征词的权重; 李原^[4]通过引入信息熵IG改进TFIDF算法; Debole等^[5]和陆玉昌等^[6]使用特征选择函数代替IDF因子以提高特征权重计算的准确度。但他们使用的特征选择方法是基于词频信息或词语与类别间关系的统计信息, 没有考虑特征项间的语义相关关系, 并且文献[3, 4, 5, 6]也是利用特征选择弥补IDF的不足, 没有考虑TF的不足之处。

Huang等^[7]、Liu等^[8]分别以词语的句法关系及知网语义相似度为基础构建文本复杂网络实现特征抽取; 赵辉等^[9]利用构建的文本复杂网络进行特征选择。这些方法为本文的特征权重改进提供了新思路。

本文利用维基百科计算词语语义相关度, 构造加权的中文文本复杂网络, 同时使用文献[9]中的节点综合特性评估函数CF计算特征项在文本中的重要度。不同于文献[3, 4, 5, 6], 本文利用特征选择评估函数CF替代TF, 以弥补使用词频表示文本内部特征的不足, 并定义类别相关系数以修正IDF, 使特征项的权重计算方法更合理, 以达到提高文本分类的效果。

3 文本复杂网络图

3.1 词语语义相关度计算

共现频率法^[10]是目前基于语料库的词语相关度计算的主要方法。其基本原理是: 在统计语料中对在同一窗口单位的两个词进行统计, 它们之间的相关度随着它们共现频率的增高而增大。公式如下:

其中, fre(t_i, t_j)表示特征词t_i和t_j在一个窗口单元中共现的频率, fre(t_i)、fre(t_j)则表示特征词t_i和t_j在文本d_k中出现的总频率。

本文以维基百科知识库为数据源, 将文本中的特征词转化为维基百科中的主题概念, 即将特征词t映射为维基百科中存在的主题概念C。当该特征词存在重定向^{[11, 12]}时, 分别以重定向的概念作为它们的主题概念, 考虑到词语-概念匹配有不成功的情况, 此时使用共现频率法确定词语t_i与t_j间的相关度。如果词语-概念匹配成功, 利用概念间的链接结构^[11]和所在的类别体系^[12]分别计算概念距离和类别距离, 将这两个值进行线性组合, 计算概念间的相关度, 从而完成词语相关度的计算。具体计算方法如下:

(1) 链接距离

对于一个概念的主题页面而言, 不仅会在其他页面中被链接, 表现为链入链接, 也有该主题页面中包含的其他概念的链接, 表现为链出链接。Witten等^[13]对这两种链接分别计算相关性后再综合, 提出了基于维基百科链接的概念间语义相关度计算方法(WLM算法)。考虑到实际运算的效率, 本文在计算两个概念间的链接距离时, 仅考虑链入链接距离。对于链入链接距离, WLM算法采用修改了的Google Distance方法, 其公式如下:

其中, A、B是指在维基百科中分别与概念C_i、C_j有相互链接关系的概念集合, W则指维基百科中所有概念解释页面的集合。符号“ | |” 表示集合中的实体数量。

(2) 类别距离

类别距离是通过概念节点在层次结构中的距离反映概念间的相关度。距离越小, 两个概念越相关。在维基百科的分类体系中, 一个分类节点可能包含多个上层和下层分类节点, 因此两节点间的路径可能不唯一。Rada等^[14]认为在两节点的多条路径中, 必然存在一条最短路径, 故两节点间的最短路径越小, 则其距离就越近, 概念间的相关度也就越高。但是在维基百科中, 即使路径长度相同的两个节点, 如果所在层次越高, 表示的概念也越抽象, 节点间的相关度会越小。因此本文采用Wu等^[15]在层次结构中寻找最近公共父节点(Least Common Subsumer, LCS)的方法计算两个概念间的类别距离, 其公式如下:

其中, lcs为概念节点C_i和C_j在层次结构中的最近公共父节点, depth(lcs)为节点lcs在层次结构中的深度, length(C_i, lcs)和length(C_j, lcs)分别为节点C_i、C_j到lcs的最短路径长度。

(3) 相关度计算方法

为了更准确地衡量概念间的相关度, 本文综合考虑链接距离和类别体系中蕴含的概念之间的关系, 对于主题概念C_i和C_j, 它们之间的概念语义距离形式上表现为链接距离D_link和类别距离D_cat的线性组合, 计算方法如下:

D(C_i, C_j)= α D_link(C_i, C_j)+(1-α )D_cat(C_i, C_j) (4)

其中, D(C_i, C_j)表示两个概念间的语义距离, α (0< α < 1)为调节参数。由于概念与其本身的距离为0, 而且概念距离越大, 它们之间的相关关系越不明显。因此, 将概念之间的相关度计算公式定义为:

求得概念间的语义相关度作为对应词语t_i与t_j的相关度, 并把该计算结果作为加权复杂网络中的特征词之间的权重。

基于维基百科的词语语义相关度计算流程如图1所示:

	Figure Option View Download New Window
	图1 词语语义相关度计算流程图

3.2 文本复杂网络构建流程

在对文本进行分词、去停用词等预处理之后, 文本d被表示为特征项的集合T=(t₁, t₂, …, t_m)。为更大限度地保留原文的语义信息和结构信息, 本文将特征项集合表示成复杂网络加权无向图的结构。定义一个三元组的图结构形式, 即G=(N, E, W), 其中N表示网络中节点的集合, E表示网络中连接边的集合, W为对应E中边的权重集合。构建方法主要包括以下步骤:

(1) 定义一个句子为一个窗口共现单元, 将文本的特征项集T=(t₁, t₂, …, t_m)中的特征项映射为图结构中的节点, 得到图的初始节点集N₀=(n₁, n₂, …, n_m)。

(2) 从N₀中任意选取两个节点n_i和n_j, 如果这两个节点对应的特征项T_i和T_j在同一个窗口单元中出现, 则在两个节点间添置一条无向边e_ij, E={e_ij}, 并将n_i和n_j加入到节点集N中。

(3) 计算无向边e_ij的权重w_ij, W={w_ij}。边的权重计算过程即词语的语义相关度计算过程, 边的权重大小表示两个特征项间的语义关联程度。权重越大, 两个特征项间的语义关联越紧密。

经上述步骤, 文本d的原始特征集T=(t₁, t₂, …, t_m)就转化为由节点集合N={n₁, n₂, …, n_k}、连接边集合E={e_ij=(n_i, n_j)|n_i, n_j∈ N}以及权重集合W={w₁₂, w₁₃, …, w_ij}组成的复杂网络图结构G。

4 基于复杂网络的特征项综合指数

4.1 复杂网络节点的统计特性

本文构造的文本复杂网络中, 节点间的连边权值对应的是特征词间的相关程度, 权值越大, 表示两节点间的连接越紧密, 距离越小, 故这种加权方式是一种相似加权。相应地, 本文使用复杂网络节点的统计特性定义如下:

(1) 节点加权度^[16]

节点的度表示该节点与其他节点的连接数目。在加权网中, 与节点度相对应的是节点加权度WD_i, 其表示如下:

其中, w_ij表示节点n_i与其连接节点n_j的边的权值。节点加权度既考虑了节点的近邻数, 又考虑了该节点和近邻之间的权重, 是该节点局域信息的综合体现。

(2) 节点加权聚集系数^[17]

节点的聚集系数是指与该节点相连的近邻节点之间互连的比例。用WC_i表示节点的加权聚集系数:

其中, WK_i为节点n_i邻接节点间边的权重和, 称为节点n_i的加权聚集度, k_i表示节点n_i的度数。加权聚集系数可以反映节点的连接强度和密度。

(3) 节点介数^[18]

节点介数反映节点在网络中的作用与影响力, 即网络中用来衡量任意节点间最短路径通过该节点的比例。节点介数P_i可以定量地表示为:

其中, n_jk表示连接任意节点的最短路径数量, n_jk(i)表示最短路径经过节点n_i的数量。

4.2 文本复杂网络的特征项指数计算

为了综合考量节点在文本中的重要程度, 本文使用文献[9]提出的节点重要度综合计算公式作为文本特征选择的评估函数:

CF_i=β ₁WD_i+β ₂WC_i+β ₃P_i (9)

其中, CF_i为节点i的综合特征指数, 在计算CF_i之前, 需要先对WD_i、WC_i、P_i进行归一化处理, β _i(1≤ i≤ 3)为可调节参数, 代表各个部分的权重, 且β ₁+β ₂+β ₃=1。利用上述公式计算每个节点的综合特征值, 按照特征值CF_i进行排序, 选取CF_i值较大的前m个节点对应的特征词, 可以达到特征降维的效果。

5 结合复杂网络改进特征权重的中文文本分类方法

5.1 TFIDF算法

传统的特征权重计算方法主要考虑文本特征项的频率(Term Frequency, TF)及倒排文档频率(Inverse Document Frequency, IDF)。TF_ik是指某个特征词t_i在文本d_k中出现的频率, TF_ik越大, 表明特征词t_i对文本d_k越重要。为避免文档中大量出现的禁用词对特征权重计算的干扰, 引入倒排文档频率解决这一问题, 它表示该特征词在文档集合中分布情况的量化, 常用的计算方法是log(N/n_k+0.01)。经过归一化处理, 特征词t_i在文本d_k的权重计算公式如下:

其中, TF_ik为词频, N为文档集合中的文档数目, n_k表示出现过该词语的文档数目。

5.2 一种改进的特征权重计算方法

TFIDF方法原理简单, 计算量也不大, 易于被人们接受。但是该方法也不可避免地存在一些缺点:

(1) 文本内部特征通过TF来反映过于简单。事实上, 除词频外, 出现的位置、出现的范围及与其他词的关系都是词的重要特征。而且, 最能表达文本主旨内容的往往不是频率最高的词。

(2) 如果一个特征词在某个类中频繁出现, 而在其他类中却极少出现, 这样的词具有明显的类别区分度, 应被赋予较高权重, 但根据IDF定义, 这样的词很有可能被赋予较低的权重。

特征权重算法对文本分类的精确度有很大影响, 针对上述TFIDF算法的不足之处, 本文从以下两个方面做改进:

(1) 复杂网络特征选择评估函数CF_ik表示特征项T_i在文本d_k中的重要度, 综合考量了特征项的结构信息和语义信息, 比仅考虑特征项在文本中频率的TF_ik更具有代表意义。因此, 令 , 以对CF_ik进行归一化处理, 分母是文本d_k中所有特征项的CF_ik之和, 用CF’ _ik代替TF_ik。

(2) 利用训练集中特征项在类内的分布信息, 若特征项在某一类别中出现次数较多, 在其他类别中很少出现, 则该特征项具有明显的类别区分度, 应提高该特征项的权值。因此, 本文提出类别相关系数γ _i, 以提高频繁出现在某一类中的特征项的权值, 降低出现次数少的特征项的权值, 则 , 其中a为文本的类别数, C_j(T_i)代表类别C_j中含有特征项T_i的文本数, N(T_i)为整个训练集中含有特征项T_i的文本数。γ _i值越大, 说明特征项T_i在类C_j中频繁出现, 分布比较均匀, 应被赋予较大的权重; 反之属于稀有词, 应被赋予较低的权重。

经过上述两种改进, 本文的特征权重计算公式如下:

其中, W_ik表示文本d_k中第i个特征项T_i的权重, CF’ _ik为特征项T_i在文本d_k中的综合特征指数, 可由公式(9)计算得到。N为文本集中总的文本数, n_k为包含特征项T_k的文本数。

5.3 本文算法

通过分词软件进行分词、去除停用词处理后, 将文本表示成复杂网络图, 计算节点重要度并进行特征选择, 利用上述的特征权重计算公式计算特征项权重, 以提高中文文本的分类精度。算法描述如下:

输入: 训练文本集D1和测试文本集D2

输出: 带有类标签的测试文本集D2

过程:

①文本预处理, 对训练文本集D1和测试文本集D2进行分词和词性标注, 保留动词、名词、形容词等实词, 去除感叹词、连词、介词等虚词, 得到初始的文本特征集合。

②根据第3节介绍的方法对训练集D1构建文本复杂网络图, 根据公式(9)计算特征节点的综合指数CF_i, 选取前m个节点对应的特征词作为特征选择的结果, 形成数据词典。

③根据数据词典, 对测试集文本D2进行特征选择, 并使用公式(11)计算训练集和测试集中每篇文档中特征项的权重, 形成特征向量。

④使用夹角余弦法计算D2中的一个文本d与训练文本集D1中的每一个文本的相似度, 将计算得到的相似度降序排列, 选取相似度值排在前面的K篇训练集D1中的文本。

⑤在选取的与待分类文本d最近邻的K篇文本中, 利用以下公式计算文本类别C_j对待分类文本d的权重:

其中, C_j为某一文本类别, KNN(d)表示待分类文本d的K个最近邻的文本, Sim(d, d_i)为余弦相似度计算公式, y(d_i, C_j)表示类别属性函数, 取值如下:

将待分类文本d的类标签标记为权重最大的类别, 返回分类结果C。

⑥对测试文本集D2中的每一个文本重复步骤④和步骤⑤, 得到每篇文本的类别标签。

6 实验

6.1 实验数据及方法

实验数据选取复旦大学中文语料库中的2 400篇文本, 分为农业、经济、政治、体育4个类别, 每个类别600篇文本, 从每个类别随机抽取400篇作为训练集, 其余文本作为测试集。分词软件使用中国科学院计算技术研究所的ICTCLAS软件^[15], 选取哈尔滨工业大学的中文停用词表, 包含767个中文停用词。本文下载2014-12-04版本的维基百科中文数据^①(http://download.wikipedia.com/zhwiki/20141204), 利用JWPL已定义好的Java API接口计算词语相关度。具体的实验过程如下:

第一组实验采用本文的结合复杂网络改进特征权重的中文文本分类算法。第二组实验采用本文提出的基于复杂网络的方法进行特征选择, 使用传统的TFIDF算法计算特征权重。第三组实验采用卡方检验的方法进行特征选择, 使用传统的TFIDF算法计算特征权重。实验公式(4)中的α 取0.7, 公式(9)中β _i(1≤ i≤ 3)采用文献[9]中的取值, 即β ₁取0.4, β ₂取0.3, β ₃取0.3。三组实验均采用KNN分类算法, 其中K取15, 确定特征选择维数为1 000维。为保证实验结果的准确性, 对每组实验重复三次, 每次实验时三组实验的训练集和测试集是相同的, 选取三次分类结果F₁的平均值作为最终结果。

6.2 实验评价方法

采用使用广泛的准确率P(Precision)、召回率R(Recall)和F₁测度值作为文本分类评价指标。准确率P、召回率R公式如下:

a, b, c表示满足一定条件的文档数量, 如表1所示：

表1 分类评价二元表

F₁的公式如下:

6.3 实验结果及分析

三组文本分类实验的每次F₁值如表2所示。每组实验的三次结果的F₁值的平均值如表3所示:

表2 三组实验的每次F₁值(%)比较

表3 F₁值(%)结果对比

将对比结果绘制成折线图, 如图2所示:

	Figure Option View Download New Window
	图2 实验结果F₁值对比

从表3及图2中可以看出, 不管从各个类别还是从平均值来看, 实验一F₁值比实验二和实验三都要高, 这说明使用本文的中文文本分类算法可有效提高文本分类的精度。实验一和实验二相比, 同是使用基于复杂网络的特征选择方法, 使用本文提出的改进特征权重计算公式提高了分类的准确度, 验证了结合复杂网络的特征权重改进算法的有效性和可行性。实验二和实验三相比, 使用复杂网络特征选择的实验二总体上比实验三的分类效果要好, 本文的实验方法虽然和文献[9]构建文本网络的方法不一样, 但也从一定程度上验证了利用复杂网络进行特征选择的有效性。

7 结语

文本相似度计算的准确与否直接影响到文本分类的精度, 而特征权重的精确度直接影响到文本相似度的准确性。本文通过构建文本复杂网络来保留文本结构及词语间的语义相关信息, 利用节点综合特性计算特征项在文本中的综合指数, 使特征选择结果能够体现文本的结构信息及语义信息, 并尝试在传统的TFIDF算法基础上, 引入特征项在文本中的综合特征指数及类别区分度, 改进特征项权重计算方法。中文文本分类实验表明, 该算法能够有效提高分类精度。本文是从文本分类的角度进行特征权重的改进, 类别相关系数必须经过训练文本集的训练产生, 但没有训练集的文本聚类也会用到TFIDF算法, 下一步将研究单独使用CF替代TF对文本聚类的影响。

参考文献

View Option

[1]	台德艺, 王俊. 文本分类特征权重改进算法[J]. 计算机工程, 2010, 36(9): 197-199, 202. (Tai Deyi, Wang Jun. Improved Feature Weighting Algorithm for Text Categorization[J]. Computer Engineering, 2010, 36(9): 197-199, 202. ) [本文引用:1]
[2]	苏丹, 周明全, 王学松, 等. 一种基于最少出现文档频的文本特征提取方法[J]. 计算机工程与应用, 2012, 48(10): 164-166, 178. (Su Dan, Zhou Mingquan, Wang Xuesong, et al. Method Based on Least Document Frequency for Text Feature Extraction[J]. Computer Engineering and Applications, 2012, 48(10): 164-166, 178. ) [本文引用:1]
[3]	赵小华, 马建芬. 文本分类算法中词语权重计算方法的改进[J]. 电脑知识与技术, 2009, 5(36): 10626-10628. (Zhao Xiaohua, Ma Jianfen. Modify the Method of Feature’s Weight in Text Classification[J]. Computer Knowledge and Technology, 2009, 5(36): 10626-10628. ) [本文引用:3]
[4]	李原. 中文文本分类中分词和特征选择方法研究[D]. 长春: 吉林大学, 2011. (Li Yuan. Research on Word Segmentation and Feature Selection of Chinese Text Classification [D]. Changchun: Jilin University, 2011. ) [本文引用:3]
[5]	Debole F, Sebastiani F. Supervised Term Weighting for Automated Text Categorization [C]. In: Proceedings of the 2003 ACM Symposium on Applied Computing, 2003: 784-788. [本文引用:3]
[6]	陆玉昌, 鲁明羽, 李凡, 等. 向量空间法中单词权重函数的分析和构造[J]. 计算机研究与发展, 2002, 39(10): 1205-1210. (Lu Yuchang, Lu Mingyu, Li Fan, et al. Analysis and Construction of Word Weighing Function in VSM[J]. Journal of Computer Research and Development, 2002, 39(10): 1205-1210. ) [本文引用:3]
[7]	Huang C, Tian Y H, Huang T J, et al. Semantic Scoring Based on Small-Word Phenomenon for Feature Selection in Text Mining [C]. In: Proceedings of the 2nd International Conference on Advance Data Mining and Application (ADMA’06). Heidelberg, Berlin: Springer-Verlag, 2006: 636-643. [本文引用:1]
[8]	Liu G, Zhai Z W. Research on Keywords Extraction of Chinese Documents Based on TEXT-NET [C]. In: Proceedings of the 2011 International Conference on Electric Information and Control Engineering. 2011: 6074-6077. [本文引用:1]
[9]	赵辉, 刘怀亮, 范云杰. 复杂网络理论在中文文本特征选择中的应用研究[J]. 现代图书情报技术, 2012(9): 23-28. (Zhao Hui, Liu Huailiang, Fan Yunjie. Study on the Application of Complex Network Theory in Chinese Text Feature Selection[J]. New Technology of Library and Information Service, 2012(9): 23-28. ) [本文引用:4]
[10]	Manning C D, Schutze H. Foundations of Statistical Natural Language Processing [M]. MIT Press, 1999: 111-114. [本文引用:1]
[11]	涂新辉, 张红春, 周琨峰, 等. 中文维基百科的结构化信息抽取及词语相关度计算方法[J]. 中文信息学报, 2012, 26(3): 109-115. (Tu Xinhui, Zhang Hongchun, Zhou Kunfeng, et al. Extracting Structured Information from Chinese Wikipedia and Measuring Relatedness Between Words[J]. Journal of Chinese Information Processing, 2012, 26(3): 109-115. ) [本文引用:2]
[12]	王娟, 曹树金, 姜灵敏, 等. 基于中文维基百科的领域概念相关性研究[J]. 图书情报工作, 2014, 58(23): 136-142. (Wang Juan, Cao Shujin, Jiang Lingmin, et al. Research on Semantic Relatedness of Domain-specific Concepts Based on Chinese Wikipedia[J]. Library and Information Service, 2014, 58(23): 136-142. ) [本文引用:2]
[13]	Witten I H, Milne D N. An Effective, Low-cost Measure of Semantic Relatedness Obtained from Wikipedia Links [C]. In: Proceedings of AAAI Workshop on Wikipedia and Artificial Intelligence: An Evolving Synergy. AAAI Press, 2008: 25-30. [本文引用:1]
[14]	Rada R, Mili H, Bicknell E, et al. Development and Application of a Metric on Semantic Nets[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1989, 19(1): 17-30. [本文引用:1]
[15]	Wu Z B, Palmer M. Verb Semantics and Lexical Selection [C]. In: Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 1994: 133-138. [本文引用:2]
[16]	郭雷, 许晓鸣. 复杂网络[M]. 上海: 上海科技教育出版社, 2006: 28-30. (Guo Lei, Xu Xiaoming. Complex Networks [M]. Shanghai: Shanghai Science and Technology Education Press, 2006: 28-30. ) [本文引用:1]
[17]	赵鹏, 耿焕同, 蔡庆生, 等. 一种基于加权复杂网络特征的K-means聚类算法[J]. 计算机技术与发展, 2007, 17(9): 35-37. (Zhao Peng, Geng Huantong, Cai Qingsheng, et al. A Novel K-means Clustering Algorithm Based on Weighted Complex Networks Feature[J]. Computer Technology and Development, 2007, 17(9): 35-37. ) [本文引用:1]
[18]	中国科学院计算技术研究所. ICTCLAS汉语分词系统[EB/OL]. [2014-07-06]. http: //ictclas. org/ictclas_download. aspx. (Institute of Computing Technology, Chinese Academy of Sciences. ICTCLAS [EB/OL]. [2014-07-06]. http://ictclas.org/ictclas_download.aspx [本文引用:1]

2010

0.0

. 2010, 36(9):197-199, 202 DOI:doi:10.3969/j.issn.1000-3428.2010.09.069

Improved Feature Weighting Algorithm for Text Categorization

文本分类特征权重改进算法

Tai Deyi , Wang Jun.

台德艺, 王俊

TF-IDF as one of feature weighting schemes in Vector Space Model(VSM) is widely used and makes good results in the realm of text categorization. Although traditional algorithms consider about term frequency and inverse document frequency, Term Frequency/Inverse Document Frequency(TF-IDF) is oblivious to the term distribution information among and inside class. A new feature weighting algorithm based on the improved IDF and distribution coefficient is put forward to enhance the feature weighting of high frequency and homogeneous distribution in the same class. Experimental results show that compared with the conventional TF-IDF algorithm, f1 based on TF-IIDF-DIC raises by 6.79%.

TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法，着重考虑了词频与逆文档频等因素，但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重，引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权，提出TF-IIDF-DIC权重函数。实验结果表明，基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。

... 国内外学者多从IDF方面改进特征权重算法, 如台德艺等^[1]利用集中度系数及分散度参数改进算法, 提出TF-IIDF-DIC权重函数 ...

2012

0.0

. 2012, 48(10):164-166, 178 DOI:doi:10.3778/j.issn.1002-8331.2012.10.036

Method Based on Least Document Frequency for Text Feature Extraction

一种基于最少出现文档频的文本特征提取方法

Su Dan , Zhou Mingquan , Wang Xuesong

苏丹, 周明全, 王学松

Conventional methods of text feature extraction are inadequate at distribution quantification, which to a large extent affects the efficiency of classification. Aiming at this problem, a scheme of Least Document Frequency（LDF） is proposed, which can quantify the concentration and dispersion among feature classes through LDF, thus can reflect the characteristics of the distribution more accurately. Through experiments, TF-LDF algorithm can acquire a better result.

传统特征提取改进方法在特征分布信息的量化方面存在不足，很大程度上影响了其分类效能。针对这一问题，提出一种基于最少出现文档频的特征提取改进方法，即TF-LDF算法。该算法用最少出现文档频来量化特征类间集中度与类内离散度，能够更加准确地反映特征分布情况。通过实验结果比较，可以证明TF-LDF算法分类效果更佳。

... 苏丹等^[2]定义最少出现文档频率LDF, 用LDF替换IDF, 但这两种方法都使用TF作为文本内部特征表示, 忽略了特征项在文本上下文中的语义作用 ...

2009

0.0

. 2009, 5(36):10626-10628 DOI:doi:10.3969/j.issn.1009-3044.2009.36.208

Modify the Method of Feature#cod#x02019;s Weight in Text Classification

文本分类算法中词语权重计算方法的改进

Zhao Xiaohua , Ma Jianfen.

赵小华, 马建芬

摘　要：在自动文本分类中,TFIDF公式是常用的词语权重计算公式。该方法简单易行,但仅仅考虑了特征词出现的频率,而忽略了特征词对区分每个类的贡献。针对这个不足,该文提出了TFIDF-CHI,来修正各个特征词的权重,重新调整每个特征词对各个类别的区分度,并用KNN分类器来验证其有效性。实验证明该方法优于原来的TFIDF算法,表明了改进的策略是可行的。

... 还有学者从特征选择角度修正特征词权重, 如赵小华等^[3]将#cod#x003c7 ...

... 但他们使用的特征选择方法是基于词频信息或词语与类别间关系的统计信息, 没有考虑特征项间的语义相关关系, 并且文献[3,4,5,6]也是利用特征选择弥补IDF的不足, 没有考虑TF的不足之处 ...

... 不同于文献[3,4,5,6], 本文利用特征选择评估函数CF替代TF, 以弥补使用词频表示文本内部特征的不足, 并定义类别相关系数以修正IDF, 使特征项的权重计算方法更合理, 以达到提高文本分类的效果 ...

2011

0.0

. 2011, :-

Research on Word Segmentation and Feature Selection of Chinese Text Classification [D].

中文文本分类中分词和特征选择方法研究[D]

Li Yuan.

李原

中文文本分类是指计算机按照某种分类规则构建判别公式和分类算法,将待分类的中文文本分到预先定义好的类别之中。从计算机技术的角度来说,文本自动分类是一个归纳知识并进行应用的过程。 20世纪90年代以来,机器学习方法,如支持向量机、K近邻、朴素贝叶斯等,被广泛应用于文本分类。目前,中文文本分类研究已取得了很多研究成果,但还存在一些不足之处,例如,中文分词中单一使用正向最大匹配算法或逆向最大匹配算法,对歧义词的切分不够准确；特征选择中传统TFIDF权值算法对特征项权重计算不够合理,精度偏低,需进一步优化。本文在已有研究工作的基础上,对中文文本自动分类进行了深入研究,提出了一种基于双向匹配存同消歧的中文分词算法和改进TFIDF权重算法。针对目前预处理中文分词切分歧义问题,结合中文文本的特点,本文提出一种基于双向匹配存同消歧的中文分词算法。该算法对同一字串进行扫描时,先用逆向最大匹配法进行切词,再用正向最大匹配法进行切词,把两次切分结果相比较,相同的切分词段为正确切分字段,进行词语保留；不同的切分词段为歧义字段,进行歧义消解处理。通过对比实验,验证了该算法应用在中文分词中比正向与逆向最大匹配分词算法在分准率、分全率上有3%左右的提高,进而证明了该算法在中文分词中的有效性。特征选择阶段,传统的TFIDF权值算法存在如下不足：一方面没有考虑特征项在类别之间分布情况,导致在类别之间分布均匀,对类别区分度不大的特征项赋予了很高的权值；另一方面,没有考虑特征项在每个类别内部文本中的分布情况,导致在一个类别内部只集中在某几个文本的特征项赋予了很高的权值。针对这些问题,引入信息熵计算特征项分布的不确定性,本文提出改进的TFIDF算法,并通过对比实验,验证了该算法在计算特征项权重方面比传统的TFIDF方法更具有合理性、准确性,从而可以进一步提高中文文本分类的精度和效率。基于上述研究,本文将双向匹配存同消歧分词算法和改进的TFIDF方法集成于LIBSVM算法,实现了一个中文文本分类原型系统。在复旦大学李荣陆博士提供的公共语料集上,通过使用混淆矩阵、性能评价指标、对比效果图等对本文实现的中文文本分类原型系统进行了对比实验,结果表明在中文文本分类查准率、查全率、F1测试值上有5%左右的提高。从而进一步证明,本文提出基于双向匹配存同消歧的中文分词算法和改进TFIDF权重算法可有效提高中文文本分类的性能。本文在中文分词算法和特征项权重计算方法方面的研究结果还可应用于数字图书馆、信息过滤以及文本数据库管理等,具有一定的应用价值。

... 李原^[4]通过引入信息熵IG改进TFIDF算法 ...

2003

0.0

... Debole等^[5]和陆玉昌等^[6]使用特征选择函数代替IDF因子以提高特征权重计算的准确度 ...

2002

0.0

. 2002, 39(10):1205-1210

Analysis and Construction of Word Weighing Function in VSM

向量空间法中单词权重函数的分析和构造

Lu Yuchang , Lu Mingyu , Li Fan

陆玉昌, 鲁明羽, 李凡

文本分类是文本挖掘的基础与核心,是近年来数据挖掘和网络挖掘的一个研究热点,在传统的情报检索、网站索引体系结构的建立和Web信息检索等方面占有重要地位.深入分析了一种简单而常用的经典文本分类模型--向量空间模型(vector space model,VSM)--的实质,找出了其分类精度低的原因,提出了一种利用特征筛选中的评估函数代替IDF函数进行权值调整的方法,并对采用各种不同评估函数进行权值调整的性能进行了理论分析和实验比较,提出了一种构造新的高性能评估函数的新颖方法.

... Debole等^[5]和陆玉昌等^[6]使用特征选择函数代替IDF因子以提高特征权重计算的准确度 ...

2006

0.0

... Huang等^[7]、Liu等^[8]分别以词语的句法关系及知网语义相似度为基础构建文本复杂网络实现特征抽取 ...

2011

0.0

... Huang等^[7]、Liu等^[8]分别以词语的句法关系及知网语义相似度为基础构建文本复杂网络实现特征抽取 ...

0.0

. , 2012(9):23-28

Study on the Application of Complex Network Theory in Chinese Text Feature Selection

复杂网络理论在中文文本特征选择中的应用研究

Zhao Hui , Liu Huailiang , Fan Yunjie.

赵辉, 刘怀亮, 范云杰

This paper proposes a feature selection method based on complex network. The weighted complex network of text is built to represent the semantic relations between words and text structure. The weighted degree, weighted clustering coefficient and betweenness are considered in the characteristics calculation of network nodes, the key words which can reflect the theme of the text are selected by the synthetic characteristics of network nodes. A Chinese text feature selection algorithm based on complex network is proposed and verified. The results of experiments show that the method proposed in this paper can get a better effect on the performance of text classification.

提出一种基于复杂网络的特征选择方法,通过构建文本加权复杂网络来表示词语间的语义关系及结构信息,综合考虑节点加权度、加权聚集系数、节点介数计算节点特性,利用节点综合特性提取反映文本主题的关键词作为文本的特征词。给出基于复杂网络的中文文本特征选择算法,并对其进行实验验证。结果表明,该特征选择方法较传统方法在文本分类性能上有所提高。

... 赵辉等^[9]利用构建的文本复杂网络进行特征选择 ...

... 本文利用维基百科计算词语语义相关度, 构造加权的中文文本复杂网络, 同时使用文献[9]中的节点综合特性评估函数CF计算特征项在文本中的重要度 ...

... 3)采用文献[9]中的取值, 即#cod#x003b2 ...

... 实验二和实验三相比, 使用复杂网络特征选择的实验二总体上比实验三的分类效果要好, 本文的实验方法虽然和文献[9]构建文本网络的方法不一样, 但也从一定程度上验证了利用复杂网络进行特征选择的有效性 ...

1999

0.0

... 1 词语语义相关度计算共现频率法^[10]是目前基于语料库的词语相关度计算的主要方法 ...

2012

0.0

. 2012, 26(3):109-115 DOI:doi:10.3969/j.issn.1003-0077.2012.03.019

Extracting Structured Information from Chinese Wikipedia and Measuring Relatedness Between Words

中文维基百科的结构化信息抽取及词语相关度计算方法

Tu Xinhui , Zhang Hongchun , Zhou Kunfeng

涂新辉, 张红春, 周琨峰

The Wikipedia is the biggest web-based encyclopedia, which is written collaboratively by volunteers around the world. It has many advantages, such as wide knowledge coverage, highly structuredand rapid information update. However, the Wikipedia official website just provides some original data files, and much structured semantic knowledge cant be used directly. Therefore, in this paper, we firstly extract the structured information from these data files; then, we design the object model for the information in Wikipedia, and provide an open API for Wikipedia information; finally, we propose a novel method to compute relatedness between words. Key wordssemantic relatedness; Chinese Wikipedia; structured information

维基百科作为一个以开放和用户协作编辑为特点的Web 2.0知识库系统,具有知识面覆盖度广,结构化程度高,信息更新速度快等优点。然而,维基百科的官方仅提供一些半结构化的数据文件,很多有用的结构化信息和数据,并不能直接地获取和利用。因此,该文首先从这些数据文件中抽取整理出多种结构化信息;然后,对维基百科中的各种信息建立了对象模型,并提供了一套开放的应用程序接口,大大降低了利用维基百科信息的难度;最后,利用维基百科中获取的信息,该文提出了一种基于链接所对应主题页面所属类别的词语语义相关度计算方法。

... 当该特征词存在重定向^[11,12]时, 分别以重定向的概念作为它们的主题概念, 考虑到词语-概念匹配有不成功的情况, 此时使用共现频率法确定词语t_i与t_j间的相关度 ...

... 如果词语-概念匹配成功, 利用概念间的链接结构^[11]和所在的类别体系^[12]分别计算概念距离和类别距离, 将这两个值进行线性组合, 计算概念间的相关度, 从而完成词语相关度的计算 ...

2014

0.0

. 2014, 58(23):136-142 DOI:doi:10.13266/j.issn.0252-3116.2014.23.021

Research on Semantic Relatedness of Domain-specific Concepts Based on Chinese Wikipedia

基于中文维基百科的领域概念相关性研究

Wang Juan , Cao Shujin , Jiang Lingmin

王娟, 曹树金, 姜灵敏

以提高领域概念相关性判断的准确度为研究宗旨,提出综合利用中文维基百科的分类体系结构和概念释义内容进行概念间语义相关度计算的方法。选取中文维基百科分类体系下的图书情报领域的概念为实验对象,将基于分类信息和文本信息的加权算法与单独基于分类信息的语义距离算法和信息量算法,以及基于文本信息的文本重叠算法进行对比分析。实验结果表明:加权算法能取得更好的效果,可为实现面向领域的信息检索、领域本体构建等应用提供重要技术支持。

2008

0.0

... Witten等^[13]对这两种链接分别计算相关性后再综合, 提出了基于维基百科链接的概念间语义相关度计算方法(WLM算法) ...

1989

0.0

... Rada等^[14]认为在两节点的多条路径中, 必然存在一条最短路径, 故两节点间的最短路径越小, 则其距离就越近, 概念间的相关度也就越高 ...

1994

0.0

... 因此本文采用Wu等^[15]在层次结构中寻找最近公共父节点(Least Common Subsumer, LCS)的方法计算两个概念间的类别距离, 其公式如下: ...

... 分词软件使用中国科学院计算技术研究所的ICTCLAS软件^[15], 选取哈尔滨工业大学的中文停用词表, 包含767个中文停用词 ...

2006

0.0

... (1) 节点加权度^[16] ...

2007

0.0

. 2007, 17(9):35-37 DOI:doi:10.3969/j.issn.1673-629X.2007.09.011

A Novel K-means Clustering Algorithm Based on Weighted Complex Networks Feature

一种基于加权复杂网络特征的K-means聚类算法

Zhao Peng , Geng Huantong , Cai Qingsheng

赵鹏, 耿焕同, 蔡庆生

在分析了传统的基于划分的K-means聚类算法的优越性和存在不足的基础上,根据近两年复杂网络研究中部分新的理论成果,提出了复杂网络加权度、加权聚集度与加权聚集系数的定义,并将数据聚类转换为复杂网络上的节点聚类,提出基于加权复杂网络特征的K-means聚类算法(简称WCNFC算法).实验结果表明,该算法根据节点加权复杂网络特征值,能够较好地找到聚类中心,有效地避免了对初始化选值敏感性的问题,从而使得聚类质量大大提高.

... (2) 节点加权聚集系数^[17] ...

2014

0.0

... (3) 节点介数^[18] ...