锐化高斯模板在文本特征项权重调整方法中的应用<sup>*</sup>

引用本文

路永和, 何新宇. 锐化高斯模板在文本特征项权重调整方法中的应用^* . 现代图书情报技术, 2012, 28(12): 39-44
Lu Yonghe, He Xinyu. An Application of Sharpen Gaussian Template in a Text Feature Weight Adjustment Methodology. 现代图书情报技术, 2012, 28(12): 39-44 复制到剪切板

Permissions

锐化高斯模板在文本特征项权重调整方法中的应用^*

路永和, 何新宇

中山大学资讯管理学院广州 510006

基金:*本文系国家高技术研究发展计划(863计划)基金资助项目“农产品全供应链多源信息感知技术与产品开发——感知终端多通讯协议及汇聚节点研制”(项目编号:2012AA101701-03)的研究成果之一;

摘要

阐述二维高斯模板和锐化高斯模板的构建过程及其对图像的锐化处理技术,提出文本特征项权重调整方法的主要思想,并以此为依据,论述基于锐化高斯模板的文本特征项权重调整方法。以搜狗自然语言实验室的文本分类语料库中的新闻文档作为实验对象,采用宏平均F测度值作为分类效果评价标准,采用中心点法和K-最近邻方法(KNN)作为分类器的分类算法进行实验。实验结果表明:在KNN分类法下,基于锐化高斯模板的文本向量模型权重调整方法起到提升分类效果的作用,但对中心点法的影响并不大。

关键词: 文本分类; 锐化高斯模板; 向量空间模型; 文本特征

中图分类号:TP391

An Application of Sharpen Gaussian Template in a Text Feature Weight Adjustment Methodology

Lu Yonghe, He Xinyu

School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China

Fund:

Abstract

This paper introduces Gaussian Template and Sharpen Gaussian Template in computer image processing technology and summarizes main ideas of text feature weight adjustment,then proposes a text feature weight adjustment methodology based on Sharpen Gaussian Template. With corpus of Sogou Lab Data, KNN classifier and Class-center classifier, this methodology is experimented by Macro-averaging F-measures. The experimental result shows that the KNN classifier with this methodology performs better than the traditional method. However,Class-center classifier with this methodology has no significant improvement.

Keyword: Text categorization; Sharpen Gaussian template; Vector space model; Text feature

Show Figures

1 引言

随着信息技术的飞速发展,人类已经进入信息极大丰富的时代,信息数量的迅猛增长使得“信息爆炸”成为人们当前不得不面对的一个现实问题。尽管信息的形式多种多样,但文本信息仍然占有主要地位。文本分类技术作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱的问题,方便用户准确定位所需的信息和分流信息,对于信息的高效管理和有效利用都具有现实的意义。在文本分类技术中,文本一般采用向量空间模型(Vector Space Model, VSM)来表示,文本向量的维度通常达到成千上万维。传统分类方法在进行分类时都会面对两个问题,即过度拟合和过度泛化。本文将图像处理中的高斯模板处理技术应用在文本分类器中,以改善上述两个问题,进一步提高文本分类效果。

2 相关研究

2.1 文本特征项权重

由于计算机无法直接识别无结构化的文本,所以在进行分类之前需要将文本转化为计算机可以操作的形式化结构。根据研究方法分类,目前关于文本表示的研究大致可以分为两类:基于统计的方法,例如布尔模型、概率模型和向量空间模型;基于语言学的方法,这类方法尝试通过语言学中的知识来弥补基于统计方法的不足(忽略文本的语言学特征),但是实验证明这类方法在分类性能上并没有明显的提高,反而复杂性有所增长。统计方法由于具备可理解性好、效率高、效果好等优点,是目前最为流行的文本表示方法,其中的VSM 模型在文本分类中应用非常广泛。

决定文本表示方法后,便可以通过分类器对文本集进行分类。在基于相似度计算的分类方法中(如KNN、类中心、支持向量机、部分集群智能分类法等),判断文本之间相似度的标准一般定义成文本向量之间对实数域的一个映射。在属性值都是标量的情况下,这种映射通常表示为两元素间归一化后的欧氏距离、曼哈顿距离、闵可夫距离、余弦度量等。故文本向量在文本空间内的分布形式对文本向量之间关系的判定有决定性影响。

影响文本向量空间分布的因素主要是特征项权重的计算方式。传统的特征权重计算方法主要有布尔权重、词频权重(Term Frequency, TF)、反文档频率(Inverse Document Frequency, IDF)、结合两者的TF-IDF(Term Frequency- Inverse Document Frequency)权重等。TF-IDF将文档集作为整体来考虑,其中IDF的计算并没有考虑到特征项在类间和类内的分布情况。针对这一缺点,国内外许多学者提出了不同的改进方法。How等^{[ 1]}提出Category Term Descriptor(CTD)算子来解决IDF因子受数据集偏斜影响的问题。Deng等^{[ 2]}提出Category Relevance Factors(CRF)来代替IDF,以体现特征词所在文档所属类与其他类的区分能力。张保富等^{[ 3]}提出的基于类内信息分布熵的权重计算方法,将特征项在类间和类内的分布情况纳入TF-IDF的计算过程中。李原^{[ 4]}同样也将信息熵引入TF-IDF计算公式中,由此计算特征项在语料集中分布的不确定性度量。张瑜等^{[ 5]}的WA-DI-SI特征权重改进算法引入了类间偏斜度(SI)、类内离散度(DI)和权重调整因子(WA)来表达特征项在类间分布的差异性。罗欣等^{[ 6]}根据对文章中出现次数较少的词所含信息量的分析,提出基于词频差异的特征选取,并且在其基础上提出了改进的MTF-IDF权重计算公式,该公式同时考虑了特征项在类间和类内的分布。吕佳^{[ 7]}在TF-IDF中引入特征项在类内出现次数的方差项,以此来体现特征项在类间和类内的分布情况。同样,苏力华等^{[ 8]}认为,对于两个出现相同频率的特征项,在类间分布越不均衡的反而更为重要,故在其改进TF-IDF公式中,引入归一化的类间标准差来体现这种思想。上述各项研究都是围绕特征项在类间或者类内分布开展的,本文提出一种在特征项权重公式计算完成以后,在文档向量空间内根据文档向量之间的相似性对特征项权重实施进一步调整的方法。

2.2 锐化高斯模板

在计算机图像处理领域中,高斯模板是指用高斯函数生成的权值不为零的元素组成的系数矩阵。高斯模板主要作为低通滤波器在图像平滑领域中广泛应用^{[ 9, 10]},利用高斯模板对图像中每个像素进行变换,以减小图像噪声以及降低细节层次,增强图像在不同尺寸下的图像效果。从数学的角度看,对图像应用高斯模板的过程就是图像与正态分布做卷积。在实际应用中,常采用二维高斯模板对图像进行平滑处理。对高斯模板做进一步的处理可得到锐化高斯模板^{[ 11]},具体算法过程如下:

(1)设二维空间中的高斯函数为:

g(x,y)=

(1)

其中,x,y表示二维空间中两个维度上的权值,σ是正态分布标准差。

设生成的系数矩阵为G,高斯模板的平滑半径为r (r²=x²+y², r=3,5,7…),则用高斯函数生成r×r的高斯模板为:

(2)

其中归一化系数为:

α=

(3)

(2)设f(x,y)为原图像(x,y)点的灰度值,以其为中心取一个r×r的窗口,窗口内像素组成的点集以A来表示,设f'(x,y)为经模板处理后的(x,y)点的灰度值输出,有:

f'(x,y)=α􀰐_(x,y)∈Af(x,y)g(x,y)(4)

由f'(x,y)输出重新组合而成的图像即为经高斯模板处理后的图像。从公式(4)可以看出,其生成的权值不为零的元素组成的系数矩阵与原始图像进行卷积。原始像素的值有最大的高斯分布值,所以有最大的权重。相邻像素随着距离原始像素越远,其权重也越小,每个像素的值都是周围相邻像素值的加权平均,最终呈现出来的效果就是图片变“模糊”。

(3)设f(x,y)为原图像(x,y)点的灰度值,f'(x,y)为经高斯模板处理后的图像中(x,y)点的灰度值,设p(x,y)为(x,y)点处原图上的灰度值和处理后图像上的灰度值之差,即:

p(x,y)=f(x,y)-f'(x,y)(5)

又设:

p'(x,y)=f(x,y)+p(x,y)(6)

由于高斯模板本质上是一种低通滤波器,具有平滑函数的作用。图像中物体边缘部分中心像素的灰度值和其周围的像素点的灰度值之差较大,在与模板进行卷积处理时会被平滑(被抑制),因此和其他像素点相比,边缘灰度值变化量较大,公式(5)中p(x,y)输出的正是这种变化量。公式(6)中将这种变化量叠加到原来的灰度值f(x,y)上,增强了原图中边缘部分的灰度,起到了一种“锐化”的边缘增强效果。

实际上,设高斯模板G的归一化系数为α,设矩阵:

(7)

又设系数矩阵:

G'=αA+(αA-αG)(8)

即为锐化高斯模板,将G'和原图像进行卷积可输出边缘增强的图像,等价于公式(5)、公式(6)中的处理效果。

3 基于锐化高斯模板的文本特征项权重调整方法

3.1 基本思想

张爱华等^{[ 12]}认为特征项权重因子应具备以下特点:对所属文档的代表性;区分不同文档的能力;对所属类别的代表性。在其基础上,本文将权重因子的特点归纳为以下两点:

(1)对所属文档的代表性

所选取的权重因子应能够唯一地表示一篇文档。传统TF-IDF权重计算方法中,文档的代表性通常采用词频(TF)表示。

(2)对所属类别的代表性

包括两方面含义:要体现出在某类别下空间上或数量上的分布特征,如传统的TF-IDF权重计算方法;要体现所属类别特点。在许多相关研究中,体现所属类别代表性的因子通常为文本特征选择中的评估函数值,例如某维度的CHI值或IG值。

以往研究中,对特征项权重的改进主要集中在加入一个或多个权重因子,或者对现有的权重因子进行改进以加强其代表性。本文提出一种能够增强权重因子对所属类别代表性的文本向量特征项权重调整方法,该方法主要依据的思想是:在某个文档集中,某个类别是由多个拥有相似属性(如描述相似主题、相似事物或者以相似角度描述事物)的文档子集组成。某子集内的某个文档与该子集内的其他文档之间的相似性比其与不同子集内的文档的相似性高。对于某一个子集,存在一些特征项,其在不同文档间的权重方差比较小;同时也存在另一些特征项,其在不同文档间的权重方差比较大。一般而言,该子集中权重分布差异较大的那些特征项所含的信息量往往比子集中的其他特征项所含的信息量大。强化这些特征项将有利于增强类内文档子集相对于其他类内子集的区分度,从而增强了该特征项在各类别中的区分能力。

3.2 方法构建

基于上述思想,如果将某个子集中权重方差较大的特征项称为该子集的“边缘项”,那么锐化高斯模板图像处理可以类比于对“边缘项”的权值调整。据此本文提出一种基于锐化高斯模板的文本特征项权重调整方法,具体步骤如下:

(1)设一维高斯函数:

g(x)=

(9)

其中x为维度值。设平滑半径为r,可得长度为r的高斯数列,即一维高斯模板:

G_r=[g(0),g(1),…,g(r-1)](10)

其中归一化系数为:

α=

(11)

设长度为r的系数数列如下:

A=[ ,0,…,0](12)

设一维锐化高斯模板为:

=αA+(αA-αG_r)(13)

(2)设类别C_i中一篇文档d_j=(w_j1,w_j2,…,w_jn),调整后的文档特征向量为 =( , ,…, ),m为文档集中的文档总数,其中n为文档特征向量维数。计算文档d_j和文档集中所有其他文档向量之间的相似度:

s_k=sim(d_j,d_k)∈[0,1], 1≤k≤m(14)

将{s_k|1≤k≤m}按递减顺序排序,设s₁≥s₂≥s₃≥…≥s_m,构造由 , ,…, 组成的n×r矩阵:

D_j=(

(15)

,…,

令:

=( , ,…, )^T=α(D_j )(16)

求得:

=( , ,…, )(17)

从上述过程可以看出,该调整方法考虑了特征项在相关文档中的分布。公式(15)中,在r不大的情况下,与文档d_j相似的前r篇文档往往是属于同一个子集。公式(16)中,利用一维的锐化高斯模板调整了特征项的权重。若特征项j在前r个相似文档中权值的差异比较大,那么根据公式(13)和锐化高斯模板处理技术,特征项j的权值将会被加强。

4 实验结果与比较

4.1 实验设计

实验采用搜狗自然语言实验室的文本分类语料库^{[ 13]},选取其中1 800篇新闻文档作为实验对象,包括汽车、财经、IT、健康、体育、旅游、教育、招聘、军事9大类,每类200篇文档,其中100篇作为训练文档,100篇作为测试文档。分词部分为中国科学院计算技术研究所分词库ICTCLAS2012,采用一级标注集标注词性。特征选择方法采用GHI_max。文档表示采用VSM模型,分别在200、400、600、800、1 000、1 200、1 400、1 600、1 800、2 000维度下进行实验。特征权重计算采用传统TF-IDF和两种常见的权重计算方法LOGTF-IDF和LOGTF-IDF-CHI^{[ 12]},具体公式如下所示:

w_TF-IDF=tf_idlog

(18)

w_LOGTF-IDF=log(tf_id+1)log

(19)

w_{LOGTF-IDF-CHI}=log(tf_id+1)log CHI_i(20)

其中,tf_id为特征项i在文档d中出现的次数,D为训练集中的文档总数,df_i为特征项i的逆文档频率,即训练集中出现特征项i的文档数量。

为了消除文本长度对特征权重的影响,对特征权重进行归一化处理,这里采用常用的Cosine归一化,具体公式如下^{[ 14]}:

w_id=

(21)

其中,w_id为文档d的特征项i的权重,N为特征向量的维数。

实验采用中心点法和K-最近邻方法(KNN)作为分类器的分类算法,其中KNN邻居数K=15,设锐化高斯模板半径r=5。相似度计算采用常用的Cosine函数,公式如下^{[ 14]}:

sim(d_i,d_j)=cosα=

(22)

其中,sim(d_i, d_j)表示文档i和j之间的相似度,w_ik表示第i个文档的第k个属性值,n为特征向量的维数。

本文采用宏观F测度值(Macro-averaging F-measure, MF)作为分类效果评价标准。

4.2 文本分类实验结果与分析

在不同维度下,分别应用KNN和中心点分类方法对采用本文方法调整(有调整)和不采用本文方法调整(无调整)进行实验对比,结果如图1至图6所示:

	Figure Option View Download New Window
	图1 KNN分类法下TF-IDF实验结果

	Figure Option View Download New Window
	图2 KNN分类法下LOGTF-IDF实验结果

	Figure Option View Download New Window
	图3 KNN分类法下LOGTF-IDF-CHI实验结果

	Figure Option View Download New Window
	图4 中心点分类法下TF-IDF实验结果

	Figure Option View Download New Window
	图5 中心点分类法下LOGTF-IDF实验结果

	Figure Option View Download New Window
	图6 中心点分类法下LOGTF-IDF-CHI实验结果

(1)KNN分类方法

从实验结果可以看出,在KNN分类法下,基于高斯模板的文本向量模型权重调整方法的确起到了提升分类效果的作用。

(2)中心点法

从实验结果可以看出,本文方法对中心点法的影响不大。中心点法中,中心向量的某一维度上的权值是由该类别中所有其他向量在该维度上的权值的平均值构成的。因为在中心点法中,特征权重方差较大的特征词的权重对中心向量的影响较小,而本文的权重调整方法是针对特征权重方差较大的特征词,故权重调整的效果会被削弱。与之相反,KNN分类方法本质上是一种均权重的投票分类策略,可以明显地体现出本文所提出的权重调整算法的效果。

5 结语

本文介绍了文本分类所涉及的一系列技术,并且受图像处理领域中的高斯模板处理技术启发,提出了基于高斯模板的文本特征项权重调整方法。实验表明,该权重调整方法能有效地提高分类器的性能。与其他特征项权重调整方法相比,本文方法的特点主要在于将图像处理技术运用在文本分类技术中,考虑了特征项在当前文档及其相似文档中的分布,文档特征项权重的计算受其相似文档影响。

但是本文中的基于锐化高斯模板的文本向量模型权重调整方法还有以下两个不足之处:

(1)解释性不强。本文还不能用数学语言来描述实验结果产生的原因,对实验结果的解释还仅仅处在推理和模拟高斯模板处理图像过程的层面上。未来研究应该集中于探究权重调整过程的数学逻辑,从数学层面解释实验结果。

(2)权重调整方法的效果与分类器过度耦合。本文提出的文本向量模型权重调整方法是基于相似度邻域的。实验数据表明,当使用中心点法进行分类时,权重调整方法并没有取得很明显的效果。在目前的各种文本分类器中,权重调整方法可能仅适用于基于邻域投票分类的分类方法。如何令权重调整方法适用于更多分类方法(如支持向量机等)是进一步研究的主要内容。

参考文献

View Option

[1]	How B C, Narayanan K. An Empirical Study of Feature Selection for Text Categorization Based on Term Weightage[C]. In: Proceedings of the 2004 IEEE /WIC/ACM International Conference on Web Intelligence (WI’04). Washington, DC: IEEE Computer Society, 2004: 599-602. [本文引用:1]
[2]	Deng Z H, Tang S W, Yang D Q, et al. A Comparative Study on Feature Weight in Text Categorization[C]. In: Proceedings of the 6th Asia-Pacific Web Conference (APWeb 2004), Hangzhou, China. Springer, 2004: 588-597. [本文引用:1]
[3]	张保富, 施化吉, 马素琴. 基于TF-IDF文本特征加权方法的改进研究[J]. 计算机应用与软件, 2011, 28(2): 17-20. (Zhang Baofu, Shi Huaji, Ma Suqin. An Improved Text Feature Weighting Algorithm Based on TFIDF[J]. Computer Applications and Software, 2011, 28(2): 17-20. ) [本文引用:1] [CJCR: 0.515]
[4]	李原. 中文文本分类中分词和特征选择方法研究[D]. 长春: 吉林大学, 2011. (Li Yuan. Research on Word Segmentation and Feature Selection of Chinese Text Classification [D]. Changchun: Jilin University, 2011. ) [本文引用:1]
[5]	张瑜, 张德贤. 一种改进的特征权重算法[J]. 计算机工程, 2011, 37(5): 210-212. (Zhang Yu, Zhang Dexian. Improved Feature Weight Algorithm[J]. Computer Engineering, 2011, 37(5): 210-212. ) [本文引用:1] [CJCR: 0.492]
[6]	罗欣, 夏德麟, 晏蒲柳. 基于词频差异的特征选取及改进的TF-IDF公式[J]. 计算机应用, 2005, 25(9): 2031-2033. (Luo Xin, Xia Delin, Yan Puliu. Improved Feature Selection Method and TF-IDF Formula Based on Word Frequency Differentia[J]. Journal of Computer Applications, 2005, 25(9): 2031-2033. ) [本文引用:1] [CJCR: 0.646]
[7]	吕佳. 文本分类中基于方差的改进特征提取算法[J]. 计算机工程与设计, 2007, 28(24): 6039-6041. (Lv Jia. Improved Feature Selection Algorithm Based on Variance in Text Categorization[J]. Computer Engineering and Design, 2007, 28(24): 6039-6041. ) [本文引用:1] [CJCR: 0.789]
[8]	苏力华, 朱章华, 白文华. 基于向量空间模型的文本分类特征权重算法研究[J]. 电脑知识与技术, 2010, 6(33): 9327-9329. (Su Lihua, Zhu Zhanghua, Bai Wenhua. Term Weighting Algorithm in Text Categorization Based on VSM[J]. Computer Knowledge and Technology, 2010, 6(33): 9327-9329. ) [本文引用:1] [CJCR: 0.068]
[9]	石美红, 毛江辉, 梁颖, 等. 一种强高斯噪声的图像滤波方法[J]. 计算机应用, 2007, 27(7): 1637-1640. (Shi Meihong, Mao Jianghui, Liang Ying, et al. Method for Filtering Image Contaminated with Strong Gaussian Noises[J]. Journal of Computer Applications, 2007, 27(7): 1637-1640. ) [本文引用:1] [CJCR: 0.646]
[10]	田原嫄. 图像平滑算子对边缘检测精度的影响[J]. 计算机工程与应用, 2009, 45(32): 161-202. (Tian Yuanyuan. Precision of Edge Detection Affected by Smoothing Operator of Image[J]. Computer Engineering and Applications, 2009, 45(32): 161-202. ) [本文引用:1] [CJCR: 0.457]
[11]	图像锐化算法C++实现[EB/OL]. [ 2012-11-25]. 图像锐化算法C++实现[EB/OL]. [2012-11-25]. http://blog.csdn.net/hhygcy/article/details/4330939.(AnImageSharpeningAlgorithmBasedonC++[EB/OL]. [2012-11-25]. http://blog.csdn.net/hhygcy/article/details/4330939 [本文引用:1]
[12]	张爱华, 靖红芳, 王斌, 等. 文本分类中特征权重因子的作用研究[J]. 中文信息学报, 2010, 24(3): 97-104. (Zhang Aihua, Jing Hongfang, Wang Bin, et al. Research on Effects of Term Weighting Factors for Text Categorization[J]. Journal of Chinese Information Processing, 2010, 24(3): 97-104. ) [本文引用:2] [CJCR: 1.13]
[13]	搜狗. 文本分类语料库[EB/OL]. [2012-11-25]. http://www.sogou.com/labs/dl/c.html.(SogouLab.TextClassificationCorpus[EB/OL]. [2012-11-25]. http://www.sogou.com/labs/dl/c.html [本文引用:1]
[14]	Turtle H R, Croft W B. A Comparison of Text Retrieval Models[J]. The Computer Journal, 1992, 35(3): 279-290. (作者E-mail: zsuluyonghe@163. com) [本文引用:2]

2004

0.0

... How等^[1]提出Category Term Descriptor(CTD)算子来解决IDF因子受数据集偏斜影响的问题 ...

2004

0.0

... Deng等^[2]提出Category Relevance Factors(CRF)来代替IDF,以体现特征词所在文档所属类与其他类的区分能力 ...

2011

0.0

0.515

. 2011, 28(2):17-20

An Improved Text Feature Weighting Algorithm Based on TFIDF

针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法.该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重.实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法.

... 张保富等^[3]提出的基于类内信息分布熵的权重计算方法,将特征项在类间和类内的分布情况纳入TF-IDF的计算过程中 ...

2011

0.0

... 李原^[4]同样也将信息熵引入TF-IDF计算公式中,由此计算特征项在语料集中分布的不确定性度量 ...

2011

0.0

0.492

. 2011, 37(5):210-212

Improved Feature Weight Algorithm

(College of Information Science and Engineering, Henan University of Technology, Zhengzhou 450001, China)

Feature weight algorithm has great impact on the classification results. Traditional algorithms don’t consider distribution information among and inside classes. This paper introduces a new improvement ideas of skew information among classes, distribution information inside a class and weight adjustment factor, then puts forward a new term weight algorithm based on WA-DI-SI after in depth analysis of improvements method, and uses SVM and na?ve Bayesian classifier to check its validation. The method is better than others and proves that the improved algorithm is feasible.

特征权重算法对文本分类系统的精确度有很大影响，传统的TFIDF算法未能考虑特征项在类间和类内的分布情况。为此，在对传统算法和相关改进算法进行分析的基础上，引入类间偏斜度、类内离散度和权重调整因子的改进思路，提出一种基于WA-DI-SI的特征权重改进算法，分别采用支持向量机和朴素贝叶斯2种分类算法进行测试。测试结果表明，与其他改进算法相比，该算法能够获得更好的分类效果。

... 张瑜等^[5]的WA-DI-SI特征权重改进算法引入了类间偏斜度(SI)、类内离散度(DI)和权重调整因子(WA)来表达特征项在类间分布的差异性 ...

2005

0.0

0.646

. 2005, 25(9):2031-2033

Improved Feature Selection Method and TF-IDF Formula Based on Word Frequency Differentia

文档向量化的质量对于文本分类的速度和准确度有着很大的影响.对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析.提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度及准确度.

... 罗欣等^[6]根据对文章中出现次数较少的词所含信息量的分析,提出基于词频差异的特征选取,并且在其基础上提出了改进的MTF-IDF权重计算公式,该公式同时考虑了特征项在类间和类内的分布 ...

2007

0.0

0.789

. 2007, 28(24):6039-6041

Improved Feature Selection Algorithm Based on Variance in Text Categorization

特征提取算法TFIDF是文本分类中常用的衡量特征权重的算法,但该算法没有考虑特征词在类间和类内的分布情况,导致算法无法反映特征词在分布比例中量上的差异.为此,引入方差来描述特征词在类间和类内的分布情况,并利用方差来修正TFIDF权重.仿真实验结果表明,同传统TFIDF算法相比,改进TFIDF算法能得到更好的分类结果.

... 吕佳^[7]在TF-IDF中引入特征项在类内出现次数的方差项,以此来体现特征项在类间和类内的分布情况 ...

2010

0.0

0.068

... 同样,苏力华等^[8]认为,对于两个出现相同频率的特征项,在类间分布越不均衡的反而更为重要,故在其改进TF-IDF公式中,引入归一化的类间标准差来体现这种思想 ...

2007

0.0

0.646

. 2007, 27(7):1637-1640

Method for Filtering Image Contaminated with Strong Gaussian Noises

针对图像中高方差的强高斯噪声特点,提出了一种图像噪声联合滤波的新方法.算法将受强高斯噪声污染的图像分为强噪声点集和弱噪声点集两部分,首先通过邻域像素强度值的变化特征,定位强噪声像素点,并采用改进的自适应均值滤波方法滤除,然后基于简化的脉冲耦合神经网络(PCNN)平滑弱噪声点像素.经实验结果验证,与已有的其他滤波方法相比,该算法在较好地滤除噪声的同时,具有良好的图像边缘保护和自适应能力.

... 高斯模板主要作为低通滤波器在图像平滑领域中广泛应用^[9,10],利用高斯模板对图像中每个像素进行变换,以减小图像噪声以及降低细节层次,增强图像在不同尺寸下的图像效果 ...

2009

0.0

0.457

. 2009, 45(32):161-202 DOI:10.3778/j.issn.1002-8331.2009.32.051

Precision of Edge Detection Affected by Smoothing Operator of Image

Institute of Energy Sources and Mechanical Engineering，Northeast Power University，Jilin 132012，China

Capability of smoothing operator of image directly impacts the precision of edge detection and edge orientation finally.So precision of calibration of CCD camera will be effected.Capability of smoothing operator of image and edge detection operator is compared through experiment.Compared with mean filter，medial filter operator protects details of image edges well under the conditions of good capability protected of wiping off noise.Compared with even filter，medial filter operator can save time and improve efficiency.Compared with Canny operator，Sobel operator not only detects edges of objects exactly but also has the capability of resisting noise strongly.On the side of detecting edge of line，Sobel operator has many advantages and it meets the need of application.

图像平滑算子的性能会直接影响到边缘检测的精度，并最终影响到边缘定位的精度，从而影响CCD摄像机的标定精度，所以通过实验对图像平滑算子和边缘检测算子进行了性能比较，可以看出中值滤波算子在保持良好的去噪性能基础上，与均值滤波相比能够很好地保持图像的边缘等细节，与图像间平均滤波相比能够节约时间、提高效率。与Canny算子相比，Sobel算子不但能够准确地检测出目标的边缘，而且具有很强的抗噪性，在检测直线边缘方面具有很强的优势，更加适合应用的需要。

2012

0.0

... 对高斯模板做进一步的处理可得到锐化高斯模板^[11],具体算法过程如下: ...

2010

0.0

1.13

. 2010, 24(3):97-104

Research on Effects of Term Weighting Factors for Text Categorization

在传统的基于向量空间的文本分类中,特征权重计算与特征选择过程完全割裂,特征选择函数的得分能反映特征的重要性,却未被纳入权重表示,造成特征表示不精确并影响分类性能.一些改进方法使用特征选择函数等修改TFIDF模型,提高了分类性能,但没有探究各权重因子如何影响分类的性能.该文以词频、逆文档频率及特征选择函数分别作为衡量特征的文档代表性、文档区分性及类别区分性的因子,通过实验测试了它们对分类性能的影响,得到文档代表性因子能使分类效果峰值最高但抵抗噪音特征能力差、文档区分性因子具有抗噪能力但性能不稳定、而类别区分性因子抗噪能力最强且性能最稳定的结论.最后给出权重表示的四点构造原则,并通过实验验证了其对分类性能的优化效果. Abstract： In traditional vector space based text categorization models, term weighting and feature selection are absolutely isolated. Although feature selection functions give a score to each term, the score is seldom taken into account while weighting terms. This paper adopts term frequency, inverse document frequency and feature selection functions as the indication of the features' ability in representing a document, distinguishing different documents and distinguishing different categories respectively. The experimental results show that TF can raise the peak of the performance but it is sensitive to noisy features; IDF is tough to noise and but unstable; the feature selection function has strong moise-tolarent ability with stability. Finally, four criteria are proposed to combine the above factors to establish optimal weighting schemes and are further verified by experiments.

... 1 基本思想张爱华等^[12]认为特征项权重因子应具备以下特点:对所属文档的代表性 ...

... 特征权重计算采用传统TF-IDF和两种常见的权重计算方法LOGTF-IDF和LOGTF-IDF-CHI^[12],具体公式如下所示: ...

2012

0.0

... 1 实验设计实验采用搜狗自然语言实验室的文本分类语料库^[13],选取其中1 800篇新闻文档作为实验对象,包括汽车、财经、IT、健康、体育、旅游、教育、招聘、军事9大类,每类200篇文档,其中100篇作为训练文档,100篇作为测试文档 ...

1992

0.0

... 为了消除文本长度对特征权重的影响,对特征权重进行归一化处理,这里采用常用的Cosine归一化,具体公式如下^[14]: ...

... 相似度计算采用常用的Cosine函数,公式如下^[14]: ...