基于知网语义相似度的中文文本分类研究

引用本文

刘怀亮, 杜坤, 秦春秀. 基于知网语义相似度的中文文本分类研究. 31(2): 39-45
Liu Huailiang, Du Kun, Qin Chunxiu. Research on Chinese Text Categorization Based on Semantic Similarity of HowNet. New Technology of Library and Information Service, 31(2): 39-45 复制到剪切板

Permissions

《现代图书情报技术》编辑部

基于知网语义相似度的中文文本分类研究

刘怀亮, 杜坤, 秦春秀

西安电子科技大学经济与管理学院西安 710126

杜坤, ORCID: 0000-0002-3603-9498, E-mail:18192514007@163.com。

作者贡献声明：

杜坤, 刘怀亮: 提出研究思路, 设计研究方案;

杜坤: 进行实验验证;

杜坤, 秦春秀: 论文起草;

秦春秀: 论文最终版修订。

基金:本文系国家自然科学基金项目“基于复杂网络的中文文本语义相似度研究”(项目编号:71373200)的研究成果之一

摘要

【目的】准确计算中文文本间的相似度, 以提升文本分类的精度。【方法】利用TF-IDF算法计算特征词项权值, 并借助知网分析词项间的语义关系, 提出一种基于知网语义相似度的文本相似度加权算法, 并对该算法进行中文文本分类实验。【结果】实验结果表明, 该方法较传统的文本相似度计算方法在文本分类性能上有所提高。【局限】 该算法的时间复杂度较高, 文本分类的处理速度有待提高。【结论】该方法考虑特征项间的语义关系, 能够有效提升中文文本的分类精度。

关键词: 文本分类; 语义相似度; 知网

中图分类号:G353.1

Research on Chinese Text Categorization Based on Semantic Similarity of HowNet

Liu Huailiang, Du Kun, Qin Chunxiu

School of Economics & Management, Xidian University, Xi’an 710126, China

Abstract

[Objective] This is an algorithm for improving the classification precision of Chinese text classification, which can calculate the similarity between Chinese texts more accurately.[Methods] With the TF-IDF algorithm calculating item weight and HowNet analyzing the semantic relationships between lexical items, this paper proposes a text similarity weighting algorithm based on HowNet semantics similarity, and makes an experiment on its Chinese text classification.[Results] The experiment resualts show that the proposed method can improve the text categorization performance comparing with the traditional ones.[Limitations] This algorithm is quite high in its time complexity, and its speed of text classification needs to be improved.[Conclusions] It is proved to be an effective algorithm for enhancing the classification accuracy of Chinese text by analyzing the semantic relationships between feature items.

Keyword: Text classification; Semantic similarity; HowNet

Show Figures

1 引言

随着计算机及手机的普及和网络的迅速发展, 互联网上的文本信息正在以指数级的速度增长。中国互联网络信息中心(CNNIC)于2014年7月发布的第34次《中国互联网发展状况统计报告》^[1]中显示, 截至2014年6月, 中国网站数量为320万, 网民规模达到6.32亿, 较2013年底增加了1 442万。面对网上海量半结构化和非结构化的文本信息, 如何快速有效地进行分类组织管理, 为用户提供有用信息变得非常重要。

作为一种有监督的学习, 文本分类是文本挖掘的关键技术之一, 其目的是对文本进行有效的组织与管理, 便于用户准确定位所需信息。在自动化文本分类过程中, 文本相似度计算是进行文本分类的关键环节。文本相似度是表示两个或多个文本之间匹配程度的一个度量参数, 相似度越大, 说明文本相似程度越高, 反之文本相似程度越低。传统的文本处理大部分是根据词频和逆向文档频率将文本表示成向量空间模型(Vector Space Model, VSM), 实践证明这种模型确实简单高效并且得到了广泛应用, 但这种模型表示缺乏对语义的理解, 忽略了词与词之间的语义信息, 丢失了很多重要的语义信息。

为此, 许多学者将知网引入到向量空间模型中, 使用知网的知识库计算文本中词语的相似度, 刘青磊等^[2]通过统计义原集合间的共性和个性计算句子间的相似度, 但只是把词语的直接义原看成一个大的集合, 没有全面考虑义原关系; 唐歆瑜等^[3]通过计算特征词间的语义相似度进行特征降维以提升文本分类的准确率, 但没有进行词义的消歧; 江敏等^[4]考虑文本的感情色彩, 对词语进行极性识别, 提高词语相似度的准确性; 朱征宇等^[5]利用知网中义原之间的线性关系, 结合二部图最大权匹配进行概念相似度的计算, 这些利用知网提高词语相似度的思想为文本相似度的计算提供了新的思路。此外, 也有学者利用知网义原和概念的相似度实现文本相似度的计算, 如肖志军等^[6]和白秋产等^[7]分别利用知网将文本表示为义原空间向量和概念空间向量, 但只是把词语用知网中的义原或概念表示, 没有考虑词语在文本中所占的比重。

本文将基于知网的语义相似度计算引入到中文文本分类中, 运用一种基于词语消歧的知网语义相似度计算方法, 提出加权的文本相似度计算方法。与文献^{[6, 7]}不同, 本文综合考虑了特征词项在文本中所占的比重, 对文本相似度进行加权处理, 提出新的文本相似度计算公式, 以提升文本分类的精度。

2 相关理论基础

2.1 向量空间模型

向量空间模型是由Salton等^[8]在20世纪60年代提出的, 最早成功应用于信息检索领域, 后来又在文本分类领域得到了广泛的应用。在向量空间模型中, 每一篇文档都视为N维空间中的一个向量, 每个向量由其特征项及其权值表示, 例如一篇文档d, 它可以表示成(t₁, t₂, t₃, …, t_n), 其中每一个t_i(i=1, 2, 3, …, n)代表一个词条即特征项。对于每一个t_i, 根据其在文档中的重要程度赋予一定的权值W_i, 这样可把(t₁, t₂, t₃, …, t_n)看成是具有N维坐标系的坐标轴, 而(W₁, W₂, W₃, …, W_n)视为这n维坐标轴中的坐标值^[9]。特征词的权值计算主要采用TF-IDF方法, 这样对于任一个包含n个特征词的文档d可以表示成二元组的形式, 即d=((t₁, W₁), (t₂, W₂), (t₃, W₃), …, (t_n, W_n))。

通过对文档集合中的每一个特征项进行TF-IDF计算, 得到每一篇文本的N维特征项的权值。为了使模型具备可计算性, VSM假设词与词之间是不相关的, 以保证特征项之间的正交性, 通过计算两个文本向量之间的距离远近表示两个文本之间的相似程度。文本间的距离表示比较常用且效果较好的方法是余弦相似度, 如公式(1)^[10]所示:

(1)

其中a、b表示文本向量, n为特征项个数, w_ai、w_bi为同一个特征项T_i分别在两个文本中的权重, 如果某一文本中无该特征, 则此特征项在该文本中的权重为0。本文中的特征项权值采用TF-IDF算法并经过归一化处理, 取值范围在[0, 1]之间, 故任意两个文本的余弦相似度取值范围为[0, 1], 两个向量越靠近, 相似度数值越接近1, 越分开越接近0, 余弦相似度不考虑向量的绝对长度, 着重从方向上考虑它们之间的关系^[10]。

向量空间模型假设特征项之间是正交的, 忽略了特征项之间的语义相似性和相关性, 从而导致两个相似文本的计算距离大于其实际的相似距离, 这就降低了文本分类精度。同时, 文本中的词汇数量是巨大的, 以每一个词汇作为一个维度, 容易产生维度灾难。

2.2 知网语义相似度计算

知网 ^①(① http://www.keenage.com.

)是我国著名机器翻译专家董振东和董强历经10多年创建的一个知识系统。它是一个以汉语和英语的词语所代表的概念为描述对象, 以揭示概念与概念所具有的属性之间的关系为基本内容的常识知识库。知网有两个主要的概念: “ 概念” 与“ 义原” 。“ 概念” 是对词汇语义的一种描述。每一个词可以表达为几个概念。“ 概念” 是用一种“ 知识表示语言” 来描述的, 这种“ 知识表示语言” 所用的“ 词汇” 叫做“ 义原” 。“ 义原” 是用于描述一个“ 概念” 的最小意义单位^[11]。

知网使用了2 600个义原, 分为10个类别, 根据属性把义原分为三组: “ 基本义原” 用于描述单个概念的语义特征, “ 语法义原” 描述词语语法特征, “ 关系义原” 描述概念和概念间关系。知网描述了义原之间的8种关系, 在这8种关系中最重要的是上下位关系, 基本义原通过上下位关系组织成一个树状义原层次体系, 这是语义相似度计算的基础^[11]。

考虑到文本中的虚词(如代词等)在文本分类时的影响较小, 故在文本预处理中需去掉虚词, 只保留实词。实词之间的词语语义相似度计算是本文着重考虑的问题, 知网中实词概念主要是由第一基本义原描述式、其他基本义原描述式、关系义原描述式、关系符号描述式4个描述式进行表达, 基于此, 刘群等^[11]提出实词概念之间的相似度计算公式, 如公式(2)所示:

(2)

其中, β _i(1≤ i≤ 4)是可调节的参数, 且有: β ₁+β ₂+β ₃+β ₄=1, β ₁≥ β ₂≥ β ₃≥ β ₄, 反映了Sim₁到Sim₄对于总体相似度所起到的作用依次递减。由于第一基本义原描述式反映了一个概念的最主要特征, 所以应将其权值定义得比较大, 一般在0.5以上。考虑到如果Sim₁非常小而Sim₃或Sim₄比较大, 将出现整体相似度仍然比较大的不合理现象, 因此刘群等^[11]修改公式(2)为公式(3):

(3)

词语W₁、W₂相似度表示为各个概念的相似度的最大值。

(4)

这种算法没有考虑到词语在上下文中的具体含义, 只是简单地选择词语的概念相似度中最大的作为词语相似度结果, 这就影响到歧义词相似度计算的准确性。

3 基于知网语义相似度的中文文本分类方法

如果两个文本相似词语越多且相似词语在文本中的权值越高, 则这两个文本相似程度越高。基于上述观点, 根据刘群等^[11]提出的词语相似度计算方法, 同时为保证歧义词相似度计算的准确性, 引用文献^[12]的词语歧义消除方法, 在此基础上, 提出一种加权文本相似度计算方法以提高文本分类的精度。

3.1 基于词语消歧的知网语义相似度计算

为确保词语语义相似度计算的准确性, 需要对有歧义的词语进行歧义消除, 确定该词语在文本中的准确义项。具体的消歧方法如下:

对待分析的文本进行分词和词性标注, 去掉句子中的虚词、保留实词, 保留词性为名词、动词、形容词等。对于某个存在歧义的词语, 如果歧义词语在该标注的词性下只有一个概念, 则该词语可以直接消歧。如果歧义词语在该标注的词性下有多个概念解释, 则根据句法分析得到与该词语所有关联的实词。

通过依存句法分析提取出歧义词W所在句子中与其相关联的实词(W₁, W₂, …, W_m), 设这m个实词分别有R₁, R₂, …, R_m个义项即概念, 每个R_i分解成K_1i, K_2i, …, K_ji等j个义原(j≤ 6), 对歧义词所对应的n个义项进行同样的处理, 定义每个义原的初始权重为Weight(K_ji)=1。

判断歧义词的每个义原与关联词语的某个义原是否存在知网规定的8种义原关系或者为相同义原。如果存在以上关系, 则歧义词的相应义原权重加1, 最后计算该义原所在义项的权重Wt(R_i)。如公式(5)^[12]所示:

(5)

其中, , 取K (K为歧义词所有义项中权重最大的项)所在的义项为最终歧义词语的消歧结果。在此情况下, 可以根据上下文确定歧义词在本句中的义项, 基于此义项利用公式(3)进行词语相似度计算。词汇语义消歧的流程如图1所示:

	Figure Option View Download New Window
	图 1 词汇语义消歧流程

确定词汇的义项后, 每个词汇的义项具有唯一性, 利用刘群等^[11]提出的词汇语义相似度计算方法即公式(3)计算词语间的语义相似度, 确定词语之间的相似程度。

3.2 基于词语消歧语义相似度的加权文本相似度算法

向量空间模型假设特征项和特征项之间是正交的, 这种假设是为了方便向量之间的余弦相似度计算而考虑的, 这种方法在提出之初确实方便了文本的相似度计算并且实际的应用效果也很不错, 但随着对文本分类精确度要求的提高, 假设特征项之间正交而不考虑特征项之间的语义情况已不能满足人们对文本分类的精度要求。

为此, 本文提出一种加权的文本相似度计算方法。在基于词语消歧知网语义相似度计算的基础上, 定义一个相似度阈值, 大于这个阈值即认为这两个词语具有相似性。如果两个文本所具有的相似词语越多, 而且相似词语在文本中的权值越高, 则这两个文本的相似程度就越高。本文采用余弦相似度作为基本的文本相似度, 并在此基础上赋予权值wf, 如公式(6)所示。

(6)

根据文本向量中满足相似度阈值条件的特征项的权值在整篇文本中的权值总和中所占的比例进行加权, 具体的加权因子wf如公式(7)所示:

(7)

(8)

在公式(6)和公式(7)中, V_i, V_j表示向量空间模型中的两个文本向量, V_i=((t_i1, W_i1), (t_i2, W_i2), …, (t_im, W_im)), V_j=((t_j1, W_j1), (t_j2, W_j2), …, (t_jn, W_jn)), Sim(V_i, V_j)表示两个文本向量的余弦相似度, 由于Sim(V_i, V_j)的值在0和1之间, 故wf一定大于0。公式(8)中, W_ik表示V_i文本向量中特征词项t_ik的TF-IDF权值, W_jl表示V_j文本向量中特征词项t_jl的TF-IDF权值。如果文本向量V_i中的特征项t_ik属于集合A_i, 则把t_ik的权值求和并除以所有词项的权值总和, 同理处理文本向量V_j。公式(8)主要表示文档向量中所有满足相似度阈值的特征词项权值在所有词项的权值总和中所占的百分比。

集合A _i, A_j的表示意义如下: 如果V_i中的特征词项t_ik和V_j中的特征词项t_jl之间的语义相似度超过用户设定的阈值μ , 则把特征词t_ik加入到集合A_i中, 以同样的方法对V_j中的所有特征词进行计算, 形成集合A_j。A_i, A _j可定义成如下形式:

特征词项之间的语义相似度的计算要先根据知网确定词语义项, 消除词语歧义, 再利用知网根据公式(3)和公式(4)进行运算。

3.3 基于知网语义相似度的中文文本分类算法

在词汇排歧的基础上, 利用上述知网的词语语义相似度计算方法, 确定两个文本之间的文本相似度加权系数, 以提高中文文本的分类精度。算法描述如下:

输入: 训练文本集D1和测试文本集D2。

输出: 带有类标签的测试文本集D2。

过程:

(1) 文本预处理, 对训练文本集D1和测试文本集D2进行分词和词性标注, 保留动词、名词、形容词等实词, 去除感叹词、连词、介词等虚词, 得到初始的文本特征集合。

(2) 利用知网语义词典的义原义项关系, 排除词汇语义歧义, 确定词汇语义义项。

(3) 对训练集中每类文本进行词频统计, 去除词频小于5的词语, 为了达到降维的目的, 使用CHI特征选择方法, 计算每类文本下词语的CHI值并按照降序排序, 分别取每一类CHI值排序在前500的词, 形成数据词典。

(4) 根据数据词典, 计算训练集和测试集中每篇文档中词的TF-IDF值, 形成特征向量, 每篇文档保存为HashMap键值对的形式, 其中词语为键, 对应的TF-IDF权值为值。

(5) 按照公式(7)、公式(8)计算两个文本间的相似度加权系数, 利用公式(6)计算D2中的一个文本d与训练文本集D1中的每一个文本的相似度。将计算得到的相似度值降序排列, 选取值排在前面的K篇训练集D1中的文本, 根据这K篇文本的类别对测试集文本进行分类。

(6) 在选取的与待分类文本d最近邻的K篇文本中, 利用以下公式^[13]计算文本类别C _j对待分类文本d的权重:

(9)

其中, C_j为某一文本类别, KNN(d)表示待分类文本d的K个最近邻的文本, TextSim(d, d_i)为本文改进的文本相似度计算公式(6), y(d_i, C_j)表示类别属性函数, 取值如下:

即如果训练文本d_i属于类别C_j, 则y(d_i, C_j)=1, 如果d_i不属于类别C_j, 则y(d_i, C_j)=0。将待分类文本d的类标签标记为权重最大的类别中, 返回分类结果C。

(7) 对测试文本集D2中的每一个文本重复步骤(4)和步骤(5), 得到每篇文本的类别标签。

4 实验

4.1 实验数据及方法

实验数据采用从新浪、搜狐网站上爬取的6 000篇新闻文稿, 分为财经、体育、汽车、娱乐、科技、教育6个类别(其中财经、体育、汽车来自搜狐网站, 娱乐、科技、教育来自新浪网站), 每个类别1 000篇文本, 从6 000篇文本中每个类别选取800篇文本共计4 800篇作为训练集, 其余的1 200篇文本(每个类别200篇)作为测试集。选用中国科学院计算技术研究所的ICTCLAS^[14]进行分词, 选取哈尔滨工业大学中文停用词表^[15], 包含767个中文停用词, 采用KNN分类器, 经过反复测验, K取15时实验效果最佳, 使用CHI特征选择方法进行特征降维, 特征项权值计算采用TF-IDF算法, 词汇相似度阈值定为0.8。

对比实验中, 第一组实验采用传统的文本相似度计算方法即不考虑语义的文本相似度计算公式进行文本分类; 第二组实验采用本文所述的基于知网语义相似度加权的文本相似度计算方法。

4.2 实验评价指标

文本分类评价指标采用使用广泛的准确率(Precision, P)、召回率(Recall, R)和F_b测度值。准确率P、召回率R公式如下:

其中a、b、c表示满足一定条件的文档数量, 如表1所示:

表1 分类评价二元表

的公式如下:

其中β 是一个调整准确率和召回率重要程度的参数, 即当β =1时, 准确率和召回率同等重要; 当β < 1时, 召回率比准确率重要; 当β > 1时, 准确率比召回率重要^[16]。本文认为准确率和召回率同等重要, 故采用F1值衡量中文文本分类精度。

4.3 实验结果与分析

传统的文本分类和基于知网语义相似度的文本分类的实验结果比较如表2所示, 其中F1值对比如图2所示:

表2 实验结果比较

	Figure Option View Download New Window
	图2 F1值对比

本文中测试集和训练集的比例是1:4, F1值大多处于80%左右, 而个别的像汽车、体育等类别其专业术语较多, 具有较高的区分度, F1值达到90%以上。在表2中, F1值无论是在各个类别上还是在平均值上都有所提高。这主要是因为在计算文本相似度时充分考虑了词与词之间的语义关系, 从而提高了文本相似度计算的准确性, 体现在最终分类的结果上就表现为分类精度的提高。由图2 可以看出, 对于传统分类方法分类精度相对较低的类别, 例如财经、娱乐、科技、教育等类别, 使用本文提出的方法其分类精度能得到改善, 而像体育、汽车等类别, 其分类精度的改善虽不是很明显但亦有所提升, 这主要是因为其使用传统方法的分类精度已经很高, 达到90%以上。

5 结语

互联网时代, 中文信息海量增长, 而文本相似度是文本信息处理的基础和关键, 其计算的准确度直接影响文本处理的结果。本文提出一种基于知网语义相似度的文本相似度计算方法, 在传统计算的基础上, 考虑了特征项间的语义关系。通过中文文本分类实验表明, 这种方法能够有效提高分类的精度, 为文本相似度的计算提供了一种新思路。但由于加入了语义相似度计算, 导致文本分类的处理速度不是很快, 接下来会进一步探索降低文本分类时间复杂度的问题。

参考文献

View Option

[1]	中国互联网络信息中心. 第34次中国互联网络发展状况统计报告[EB/OL]. [2014-07-21]. http: //www. cnnic. net. cn. China Internet Network Information Center. The 34th Statistical Report on Internet Development in China [EB/OL]. [2014-07-21]. http://www.cnnic.net.cn. [本文引用:1]
[2]	刘青磊, 顾小丰. 基于《知网》的词语相似度算法研究[J]. 中文信息学报, 2011, 24(6): 31-36. Liu Qinglei, Gu Xiaofeng. Study on HowNet-based Word Similarity Algorithm[J]. Journal of Chinese Information Processing, 2011, 24(6): 31-36. [本文引用:1] [CJCR: 1.13]
[3]	唐歆瑜, 乐文忠, 李志成, 等. 基于知网语义相似度计算的特征降维方法研究[J]. 科学技术与工程, 2006, 6(21): 3442-3446. Tang Xinyu, Le Wenzhong, Li Zhicheng, et al. The Research on Reduced Feature Dimension Based on Hownet Similarity Computing[J]. Science Technology and Engineering, 2006, 6(21): 3442-3446. [本文引用:1] [CJCR: 0.2471]
[4]	江敏, 肖诗斌, 王弘蔚, 等. 一种改进的基于《知网》的词语语义相似度计算[J]. 2008, 22(5): 84-89. Jiang Min, Xiao Shibin, Wang Hongwei, et al. An Improved Word Similarity Computing Method Based on HowNet[J]. Journal of Chinese Information Processing, 2008, 22(5): 84-89. [本文引用:1] [CJCR: 1.13]
[5]	朱征宇, 孙俊华. 改进的基于《知网》的词汇语义相似度计算[J]. 计算机应用, 2013, 33(8): 2276-2279, 2288. Zhu Zhengyu, Sun Junhua. Improved Vocabulary Semantic Similarity Calculation Based on HowNet[J]. Journal of Computer Applications, 2013, 33(8): 2276-2279, 2288. [本文引用:1] [CJCR: 0.646]
[6]	肖志军, 冯广丽. 基于《知网》义原空间的文本相似度计算[J]. 科学技术与工程, 2013, 13(29): 8651-8656. Xiao Zhijun, Feng Guangli. Text Similarity Computing Based on HowNet Sememe Space[J]. Science Technology and Engineering, 2013, 13(29): 8651-8656. [本文引用:2] [CJCR: 0.2471]
[7]	白秋产, 金春霞, 周海岩. 概念向量文本聚类算法[J]. 计算机工程与应用, 2011, 47(35): 155-157, 209. Bai Qiuchan, Jin Chunxia, Zhou Haiyan. Text Clustering Algorithm Based on Concept Vector[J]. Computer Engineering and Applications, 2011, 47(35): 155-157, 209. [本文引用:2] [CJCR: 0.457]
[8]	Salton G, Yang C S. On the Specification of Term Value in Automatic Indexing[J]. Journal of Documentation, 1973, 29(4): 351-372. [本文引用:1]
[9]	Satlon G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing[J]. Communications of ACM, 1975, 18(11): 613-620. [本文引用:1] [JCR: 2.511]
[10]	Salton G, McGill M J. Introduction to Modern Information Retrieval[M]. New York: McGraw-Hill Inc, 1986. [本文引用:2]
[11]	刘群, 李素建. 基于知网的词汇语义相似度计算[C]. 见: 第三届汉语词汇语义学研讨会, 2002: 59-76. Liu Qun, Li Sujian. Vocabulary Semantic Similarity Calculation Based on HowNet [C]. In: Proceedings of Chinese Lexical Semantic Workshop 2002. 2002: 59-76. [本文引用:6]
[12]	孙继明, 李舟军, 文健. 基于《知网》的汉语词语词义消歧方法[J]. 计算机与信息技术, 2007(3): 18-20. Sun Jiming, Li Zhoujun, Wen Jian. Method of Chinese Word Sense Disambiguation Based on Hownet[J]. Computer and Information Technology, 2007(3): 18-20. [本文引用:2] [CJCR: 0.2007]
[13]	Tan P, Steinbach M, Kumar V. 数据挖掘导论[M]. 北京: 人民邮电出版社, 2011. Tan P, Steinbach M, Kumar V. Introduction to Data Mining [M]. Beijing: Posts & Telecom Press, 2011. [本文引用:1]
[14]	中国科学院计算技术研究所. ICTCLAS汉语分词系统[EB/OL]. [2014-07-06]. http: //ictclas. org/ictclas_download. aspx. Institute of Computing Technology, Chinese Academy of Sciences. ICTCLAS [EB/OL]. [2014-07-06]. http://ictclas.org/ictclas_download.aspx. [本文引用:1]
[15]	哈工大社会计算与信息检索研究中心. 《同义词词林》扩展版[EB/OL]. [2014-07-10]. http: //ir. hit. edu. cn/. HIT-SCIR. Tongyicicilin [EB/OL]. [2014-07-10]. http://ir.hit.edu.cn/. [本文引用:1]
[16]	刘怀亮, 张志国, 马志辉, 等. 基于KNN的中文文本分类反馈学习研究[J]. 图书情报工作, 2008, 52(10): 101-104. Liu Huailiang, Zhang Zhiguo, Ma Zhihui, et al. A Feedback Learning Study of Chinese Text Categorization Based on KNN[J]. Library and Information Service, 2008, 52(10): 101-104. [本文引用:1] [CJCR: 1.193]

2014

0.0

... 中国互联网络信息中心(CNNIC)于2014年7月发布的第34次《中国互联网发展状况统计报告》^[1]中显示, 截至2014年6月, 中国网站数量为320万, 网民规模达到6 ...

2011

0.0

1.13

... 为此, 许多学者将知网引入到向量空间模型中, 使用知网的知识库计算文本中词语的相似度, 刘青磊等^[2]通过统计义原集合间的共性和个性计算句子间的相似度, 但只是把词语的直接义原看成一个大的集合, 没有全面考虑义原关系 ...

2006

0.0

0.2471

. 2006, 6(21):3442-3446

The Research on Reduced Feature Dimension Based on Hownet Similarity Computing

Aimed to solve high dimension in text classification, a new reduced feature dimension measure is provided combining with Hownet semantic dictionary. The semantic similarity among feature glossary is firstly analysised, then the semantic similar features into subclusters is put, which make the primary feature set classified into several subclusters. Finally it condenses the subclusters to reduce feature dimension in text comparison. The experimental results show that the new method can get better performance in text classification.

针对文本分类处理中的高维度问题,结合知网语义词典,提出了一种新的特征降维处理方法.通过计算特征词汇之间的语义相似度,将原有特征集分成若干特征词集;同一词集内的特征词语义彼此间相似;而不同词集的特征词彼此间相似度比较小.将同一特征词集内的词汇权重相加,从而突出同义词以及近义词对文本分类的贡献,并可以大大降低文本比较的特征维数.实验结果表明,利用该方法在文本分类中得到了较好的分类准确率和分类性能.

... 唐歆瑜等^[3]通过计算特征词间的语义相似度进行特征降维以提升文本分类的准确率, 但没有进行词义的消歧 ...

2008

0.0

1.13

. 2008, 22(5):84-89

An Improved Word Similarity Computing Method Based on HowNet

中科院刘群的基于的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一.在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与"贼眉鼠眼"的相似度为0.814 815,与"优雅"的相似度为0.788 360,"深红"与"粉红"的相似度仅为0.074 074,这将不利于进行词语的极性识别.基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用义原间的反义、对义关系和义原的定义信息来计算词语的相似度.在词语极性识别实验中,得到了较好的实验结果:P值为99.07%,R值为99.11%.

... 江敏等^[4]考虑文本的感情色彩, 对词语进行极性识别, 提高词语相似度的准确性 ...

2013

0.0

0.646

. 2013, 33(8):2276-2279, 2288

Improved Vocabulary Semantic Similarity Calculation Based on HowNet

1. Chongqing Key Laboratory of Software Engineering, Chongqing 400044, China 2. College of Computer Science, Chongqing University, Chongqing 400044, China

The present HowNet-based vocabulary semantic similarity calculation method fails to give due attention to the linear feature of conceptual description in knowledge database mark-up language. To resolve this shortcoming, an improved vocabulary semantic similarity calculation method was proposed. Firstly, fully considering the linear relationship between the sememes in the conceptual description formula, a position-related weight distribution strategy was proposed. Then concept similarity was calculated by combining the strategy above with bigraph maximum weight matching. The experimental results show that, compared with the contrast method, the F-measure of text clustering using improved method increases by 5% on average, thus verifying the rationality and validity of the improved method.

针对当前基于《知网》的词汇语义相似度计算方法没有充分考虑知识库描述语言对概念描述的线性特征的情况，提出一种改进的词汇语义相似度计算方法。首先，充分考虑概念描述式中各义原之间的线性关系，提出一种位置相关的权重分配策略;然后，将所提出的策略结合二部图最大权匹配进行概念相似度计算。实验结果表明，采用改进方法得到的聚类结果F值较对比方法平均提高了5%，从而验证了改进方法的合理性和有效性。

... 朱征宇等^[5]利用知网中义原之间的线性关系, 结合二部图最大权匹配进行概念相似度的计算, 这些利用知网提高词语相似度的思想为文本相似度的计算提供了新的思路 ...

2013

0.0

0.2471

... 此外, 也有学者利用知网义原和概念的相似度实现文本相似度的计算, 如肖志军等^[6]和白秋产等^[7]分别利用知网将文本表示为义原空间向量和概念空间向量, 但只是把词语用知网中的义原或概念表示, 没有考虑词语在文本中所占的比重 ...

... 与文献^[6,7]不同, 本文综合考虑了特征词项在文本中所占的比重, 对文本相似度进行加权处理, 提出新的文本相似度计算公式, 以提升文本分类的精度 ...

2011

0.0

0.457

. 2011, 47(35):155-157, 209

Text Clustering Algorithm Based on Concept Vector

1.Faculty of Electronic and Electrical Engineering，Huaiyin Institute of Technology，Huai’an，Jiangsu 223003，China 2.Faculty of Computer Engineering，Huaiyin Institute of Technology，Huai’an，Jiangsu 223003，China

The text clustering algorithm based on traditional keyword does not take into account the semantic relation between key words，and then causes the concept of the text vector is not accurate enough.The paper proposes the text clustering algorithm based on concept vector.The algorithm adopts HowNet properties and the density of semantic field and the weight of meaning in concept tree to select the appropriate meaning of the original concepts as keywords，the text vector would be transformed from keyword vector to concept vector.It not only adds the texts semantic，but also reduces vector dimensions.It is used to realize text clustering to increase the efforts clustering.Experimental results show that the algorithm improves the accuracy and recall of text clustering.

为了解决基于传统关键词的文本聚类算法没有考虑特征关键词之间的相关性，而导致文本向量概念表达不够准确，提出基于概念向量的文本聚类算法TCBCV（Text Clustering Based on Concept Vector），采用HowNet的概念属性，并利用语义场密度和义原在概念树的权值选取合适的义原作为关键词的概念，实现关键词到概念的映射，不仅增加了文本之间的语义关系，而且降低了向量维度，将其应用于文本聚类，能够提高文本聚类效果。实验结果表明，该算法在文本聚类的准确率和召回率上都得到了较大的提高。

1973

0.0

... 1 向量空间模型向量空间模型是由Salton等^[8]在20世纪60年代提出的, 最早成功应用于信息检索领域, 后来又在文本分类领域得到了广泛的应用 ...

1975

2.511

0.0

... 对于每一个t_i, 根据其在文档中的重要程度赋予一定的权值W_i, 这样可把(t₁, t₂, t₃, …, t_n)看成是具有N维坐标系的坐标轴, 而(W₁, W₂, W₃, …, W_n)视为这n维坐标轴中的坐标值^[9] ...

1986

0.0

... 文本间的距离表示比较常用且效果较好的方法是余弦相似度, 如公式(1)^[10]所示: ...

... 本文中的特征项权值采用TF-IDF算法并经过归一化处理, 取值范围在[0,1]之间, 故任意两个文本的余弦相似度取值范围为[0,1], 两个向量越靠近, 相似度数值越接近1, 越分开越接近0, 余弦相似度不考虑向量的绝对长度, 着重从方向上考虑它们之间的关系^[10] ...

2002

0.0

... 的最小意义单位^[11] ...

... 知网描述了义原之间的8种关系, 在这8种关系中最重要的是上下位关系, 基本义原通过上下位关系组织成一个树状义原层次体系, 这是语义相似度计算的基础^[11] ...

... 实词之间的词语语义相似度计算是本文着重考虑的问题, 知网中实词概念主要是由第一基本义原描述式、其他基本义原描述式、关系义原描述式、关系符号描述式4个描述式进行表达, 基于此, 刘群等^[11]提出实词概念之间的相似度计算公式, 如公式(2)所示: ...

... 考虑到如果Sim₁非常小而Sim₃或Sim₄比较大, 将出现整体相似度仍然比较大的不合理现象, 因此刘群等^[11]修改公式(2)为公式(3): ...

... 基于上述观点, 根据刘群等^[11]提出的词语相似度计算方法, 同时为保证歧义词相似度计算的准确性, 引用文献^[12]的词语歧义消除方法, 在此基础上, 提出一种加权文本相似度计算方法以提高文本分类的精度 ...

... 确定词汇的义项后, 每个词汇的义项具有唯一性, 利用刘群等^[11]提出的词汇语义相似度计算方法即公式(3)计算词语间的语义相似度, 确定词语之间的相似程度 ...

2007

0.0

0.2007

... 如公式(5)^[12]所示: ...

2011

0.0

... (6) 在选取的与待分类文本d最近邻的K篇文本中, 利用以下公式^[13]计算文本类别C _j对待分类文本d的权重: ...

2014

0.0

... 选用中国科学院计算技术研究所的ICTCLAS^[14]进行分词, 选取哈尔滨工业大学中文停用词表^[15], 包含767个中文停用词, 采用KNN分类器, 经过反复测验, K取15时实验效果最佳, 使用CHI特征选择方法进行特征降维, 特征项权值计算采用TF-IDF算法, 词汇相似度阈值定为0 ...

2014

0.0

2008

0.0

1.193

. 2008, 52(10):101-104

A Feedback Learning Study of Chinese Text Categorization Based on KNN

Based on KNN classification algorithm and the principle of feedback learning, after the analysis of chinese text categorization process, the model of Chinese text Categorization based on feedback learning is proposed. Through experiment, feedback on performance of the chinese text categorization of the impact is studied. The experimental results show that the feedback learning is a effective solution on the real-time change information and can greatly improve the performance of KNN categorization.

本文依据KNN分类算法和反馈学习的思想，在分析中文文本分类过程的基础上，给出了基于反馈学习的中文文本分类模型和基于KNN的中文文本分类反馈学习过程。通过实验研究了反馈学习对中文文本分类模型性能的影响。结果表明，反馈学习是实时变化信息的一种有效的学习方法，它对训练不充分的文本分类器具有很大的改善作用。

... 1时, 准确率比召回率重要^[16] ...