文本分类中基于类别数据分布特性的噪声处理方法
李湘东1,2, 巴志超1, 黄莉3
1武汉大学信息管理学院 武汉 430072
2武汉大学信息资源研究中心 武汉 430072
3武汉大学图书馆 武汉 430072
通讯作者:黄莉:E-mail:huangcomplete@gmail.com

作者贡献声明:

李湘东:提出命题和研究思路, 论文定稿;

巴志超:采集和分析数据, 完成实验以及起草、撰写论文;

黄莉:设计研究方案及分析实验结果。

摘要

【目的】为减少语料库中训练样本构建时因噪声样本对分类性能的影响, 提出一种基于训练样本中类别数据分布特性的文本分类噪声处理方法。【方法】通过定义训练样本中各类别的聚类密度来表征类别下文档间的相似程度, 并对文档对相似度分布进行正态归一化处理; 采用近似置信区间估计以及统计相结合的方法获取含有噪声样本的文档对; 基于分布的相对熵和类别聚类密度实现对噪声样本识别的正确性验证。【结果】利用该方法在公开及自建语料库中进行测试, 与噪声样本处理前相比, 分类性能平均提高1.21%至4.83%。【局限】样本丰富度有待进一步扩展, 在多领域、多类型数据环境下对该噪声处理方法进行更全面的实验。【结论】实验结果表明该方法是有效、可行的, 能够有效挖掘训练样本中的噪声样本, 且可一次处理批量检测, 不必事先判断各个噪声样本后再进行检测。

关键词: 训练样本; 相似度分布; 文本分类; 聚类密度; 噪声处理
中图分类号:TP391
A Method for Eliminating Noise in Text Classification Based on Category Distribution Characteristics
Li Xiangdong1,2, Ba Zhichao1, Huang Li3
1School of Information Management, Wuhan University, Wuhan 430072, China
2Center for the Studies of Information Resources, Wuhan University, Wuhan 430072, China
3Wuhan University Library, Wuhan 430072, China
Abstract

[Objective] In order to reduce the impact of the noisy samples on the classification performances during the construction of the training samples, this paper proposes a process method of noise based on the distribution characteristics of category data in training samples.[Methods] The method represents the degree of similarity among the documents in one category by defining Category Cluster Density, and then it conducts a normal unitary processing on the similarity distribution. Afterwards, combined with the method of statistics, the paper adopts the method of approximate confidence interval estimation to get pairs of documents that contain noisy samples. Based on the relative entropy of distribution and Category Cluster Density, the paper realizes the verification of correctness of the noisy documents recognition.[Results] The classification performances on the specialized and self-built corpus is higher than before by 1.21% to 4.83% respectively.[Limitations] The paper will expand the richness of samples and test the samples in various fields and multi-type data environments.[Conclusions] The method is feasible and it could effectively detect the noisy documents. Meanwhile, it could realize panel testing on large amount of samples at one time.

Keyword: Training samples; Distribution of similarity; Text classification; Cluster density; Noises processing
1 引言

文本分类是指在给定的分类体系下, 根据文本的内容自动判定到相应预定义类别的过程[1], 是人工智能领域的核心研究内容之一。在采用机器学习的方法进行文本分类时, 需要分类器通过事先类别标注完毕的训练样本学习分类的知识并形成特征空间, 从中自动挖掘出能够有效分类的规则, 然后将此规则用于对测试样本的分类。因此, 训练样本和分类算法一样, 是形成文本自动分类系统的基础和关键, 其质量的好坏直接影响分类器的训练结果和识别性能。

为验证算法的有效性, 通常也需要使用一定的类目构成、准备相应的文本作为分类材料,并在由此所组成的试验环境中进行分类试验。而在对分类材料进行标注或获取的过程中, 难免会引入噪声, 如样本内容与所标记的类别不符、样本属性缺失等[2]。这些噪声样本会使训练样本中类别概念模糊, 其提供的分类先验知识不足, 导致分类器构建的分类决策不明确, 从而对测试样本所属类别进行误判, 影响最终的分类性能。因此, 本文从语料库中训练样本的类别数据分布特性出发, 通过计算样本的类别聚类密度这一属性特征, 获取不同类别下的文档对间相似度分布; 采用对数正态化变换进行归一化处理, 以获取噪声样本所服从的正态概率分布; 采用近似置信区间估计和噪声样本度量方法, 实现对噪声文本的有效挖掘和裁剪, 从而提高文本分类器的分类性能。

2 相关工作

目前, 研究训练样本集合中噪声样本对分类性能的影响已有相当数量的成果[3, 4, 5, 6, 7, 8]。文献[3]通过实验验证了含有噪声样本的数据会对分类结果产生不良影响, 并提出一种通过降低召回率来保证分类结果准确率的方法。但该方法只得到待分类数据中部分数据的分类结果, 并未提出针对剩余待分类数据进行处理的方法。文献[4]提出一种针对粗分类文档中噪声数据的修正算法NNRA, 该算法通过构建文档关联网络模型, 把类别标记错误的文档重新归到正确的类别中, 以获得精分类的训练数据, 从而提高分类器的分类性能。但该算法计算复杂度较高, 算法效率较低。文献[[2]]提出一种基于特征类别属性分析的文本分类噪声裁剪算法ECN, 该算法通过分析文本关键特征蕴含的类别指示信息, 主动预测待测分类文本可能归属的类别。然而采用该类别裁剪算法仍会造成一定的误判, 导致分类不准确。文献[6]提出一种基于概率主题模型的噪声处理方法, 通过计算每个样本的类别熵, 对噪声样本进行过滤, 并采用主题模型进行数据平滑, 减少噪声样本对分类性能的影响。但该方法分类结果受模型迭代次数的影响, 且迭代次数无法较准确地确定。另外, 该方法由于需要进行主题模型的抽取, 计算量较大, 效率较低。文献[7]通过采用特征选择算法OCFS去除在文本中不能表达类别信息或表示信息较弱的特征, 以达到减少噪声样本或属性对分类算法的影响。但该方法无法彻底删除数据集中所有噪声, 而且会把一些正常样本当作噪声误删。

在信息检索领域, 另一部分研究者[2, 9, 10, 11, 12]从对训练样本噪声敏感度出发, 探究不同分类算法针对不同数据集的抗噪性。如文献[2]通过实验验证对不同数据集上的噪声敏感度与训练数据的某些特性有关, 得出训练集文档对的分布是影响噪声敏感度的根本原因。文献[9]描述RankSVM、SVMMVP等算法在部分数据集上有较好的抗噪性, 且随着噪声水平的增加性能变化不大, 而在其他数据集上即使噪声水平很小性能也有很大程度下降。文献[10]采用两阶段优化策略对任何线性排序模型进行非凸优化, 从而使得学习到的模型对噪音不敏感。采用恰当的文档选择策略可以提高训练集的质量[13]。综上所述, 本文提出通过计算训练样本类别聚类密度获取文档对属性的概率分布这一特征, 并通过研究该特征获取训练样本中的噪声样本, 以提高分类器的分类性能。

3 基于类别数据分布特性的噪声处理方法

由于噪声样本的内容与所标记的类别概念信息不符以及噪声属性缺失等特点, 使得这类样本代表其所在类别的程度较弱, 与其他样本之间的相似度较低。这些样本的存在模糊了类别的概念, 使得其类别概念信息不明确。基于以上两点, 本文首先计算训练样本的类别聚类密度揭示样本中类别概念信息, 然后通过类别概念信息反映该类别下文档之间的相似程度, 同时用该指标来评测噪声样本对类别信息以及分类性能的影响。

3.1 类别的聚类密度

训练集样本由不同类别构成, 而类别的信息则由其所标注的文本完全决定, 即文本的内容完全决定类别的概念。因此, 可以采用类别的聚类密度来衡量类别下文档特征在表示该类别时的适用程度[14]。其基本思想是:如果文档集合能够更好地表达类别的信息, 那么该类别概念应该更加清晰, 在该类别下对应的文档之间应该更加相似, 类别对应文档集合的平均相似度应该更高。因此, 对于某一类别的聚类密度, 本文采用该类别的文档对间的平均相似度表示, 计算公式如下:

(1)

其中, 表示语料H下类别z的聚类密度, N表示该类别下的文档数, 表示类别z中第i个文档向量, 表示文档向量 和文档向量 的余弦相似度, 具体计算方法如下所示[15]:

(2)

其中, 对于每个语料库H, 用类别集合 表示, l表示语料库H中类别数。类别 中的文档用向量 表示, wit表示特征词t在文档di的权重, 其通过标准的TF-IDF[16]公式获得:

(3)

其中, tf(t, di)表示特征词t在文档di中的词频, df(t)表示特征词t的逆向文档频率, V为总特征项数, N为总文档数。

本文用类别的聚类密度反映语料中预先设定的分类类别概念的明确程度。如果一个语料中各类别的聚类密度越高, 说明该语料各类别概念越明确, 类别中的文档集合越能代表该类别的信息, 其分类效果越好。另外, 一个类别下噪声样本数量越少, 其所有文档对间的平均相似度越高, 类别概念越清晰明确。

3.2 文档对相似度分布

在获取样本类别聚类密度的同时, 可获得该类别下文档对间的相似度分布。通过公式(1)可以看出, 聚类密度实质是文档对间的平均相似度。由于不同类别下样本内容特征不同, 聚类密度值分布的参数也不同, 在比较不同类别的聚类密度以及噪声样本处理前后的聚类密度变化情况时, 无法直接采用聚类密度值进行比较, 因此需要对文档对平均相似度的分布进行归一化处理。根据研究发现, 通过估计分布的均值和方差, 不同类别下文档对相似度的分布可以统一归一化为对数正态分布, 如图1所示(训练样本200篇)。只有在正态归一化处理后, 不同类别的聚类密度才具有可比性[14]

图1 不同类别下文档对相似度分布

另外, 本文通过正态分布的偏度和峰度检验法[17]来检验文档对相似度分布是否属于正态分布。偏度系数是表征分布形态与平均值偏离的程度, 作为分布不对称的测度; 峰度系数是表征分布形态图形顶峰的凸平度, 当两者都为零时, 变量变为理想正态分布。其中, 偏度系数g1和峰度系数g2计算公式如下:

(4)

(5)

其中, Xi表示文档对相似度值, 表示所有文档对平均相似度值, S为均方差, n为文档对数。

(6)

(7)

在获得两个系数后给定显著性水平α 值(本文取α =0.05), 进一步确定对应的Uα 值。若|g1|< U且|g2|< U, 则表示接受正态性假设, 可认定在α =0.05的显著水平下, 该类别下文档对的相似度分布近似服从正态分布。

3.3 噪声样本的度量与获取

在通过正态化变换确定文档对相似度服从正态分布后, 需要获取包含噪声样本的文档对, 并对噪声样本进行裁剪, 以减少其对分类性能的影响。本文先计算所服从概率分布的置信区间, 根据正态分布的特性[18], 对给定的置信水平1-α , 有:

(8)

即:

(9)

可得μ 的置信水平为1- α 的置信区间为:

通过查表求得 的值, 进而确定置信区间。另外, α 取值越大, 噪声样本数据的错误检测概率越小, 把正确数据混入异常数据的概率也同样增大, 因此取0.95为宜。通过计算所服从概率分布的置信区间获得单侧置信下限左侧的文档对, 这些文档对之间的相似度值出现频数较小且相似度值也较小。根据噪声样本的特性, 其代表所在类别的程度较弱, 与其他文档之间的相似度较小, 因此噪声样本主要分布在区间 中。在获得该区间的文档对后, 用每个文档出现的文档对数对占总文档对数的比例来确定噪声样本, 如公式(10)所示。设定阈值ε , 当该比例大于ε 值时, 则认定该文档为噪声样本。

(10)

其中, pi表示第i个文档占总文档对数的比例, mi表示第i文档出现的文档对数。

3.4 基于相对熵和类别聚类密度的噪声识别

通过上述方法获得噪声样本后, 需要对噪声样本的识别进行正确性检验, 进一步验证挖掘的有效性。本文提出通过采用Kullback-Leibler散度即相对熵指标来度量原始的含有噪声样本的文档对分布(记为f(x))与不含噪声样本的文档对分布(记为f ° (x))间的差异, 如公式(11)所示[19]。利用Kullback-Leibler的定义, 可以对这种差异从数量上进行比较。

(11)

其中, n° 表示不含噪声样本的文档对数(n° < n), 为保证两个分布能够进行差异度量, 从f(x)选择n° 个文档对使两个分布文档对数相同。相对熵指标是用来度量相同事件空间下两个概率分布的差异情况, 当两个概率分布完全相同时, 即f(x)=f ° (x), 其相对熵值为0。若计算得到的相对熵值越大, 说明噪声样本裁剪前后两个概率分布差异越大, 噪声样本对相似度分布的影响越大, 基于该方法对噪声识别的有效性越高。

另外, 同时采用噪声样本裁剪前后类别的聚类密度变化情况, 来反映噪声样本识别的有效性。一个类别下噪声样本数量越少, 其对应的该类别的聚类密度应该越高, 类别概念越清晰, 分类效果越好。若在噪声样本识别时, 将正确标注的样本错误地识别为噪声样本时, 会使得该类别的聚类密度降低。

4 实验结果及分析
4.1 实验设置

为验证本文方法在不同领域、不同类型数据上的有效性, 实验数据采用搜狗实验室语料库(Sogou Labs)、复旦大学自然语言处理实验室基准语料库以及自建语料库进行分类实验。其中自建语料库主要包括自建图书类型的文献以及自建期刊类型的文献, 由笔者取自某大学图书馆的馆藏目录OPAC和选自中国知网的电子期刊数据库, 分别选取分类在《中图法》体系下体育、计算机技术和军事三个类别中的部分图书的书目信息和部分期刊文献作为实验材料。

由于本研究需确保分类过程中各环节透明化, 以减少中间过程的不可控因素, 因而选取支持向量机(Support Vector Machine, SVM)[20]算法构造分类器, 选取信息增益方法进行特征选择。

自动分类研究中对分类性能的评价通常采用分准率、分全率以及综合指标F1值来描述, 在对分类性能进行评价时, 存在微平均(Micro-average)和宏平均(Macro-average)[21]两个不同的测度方法。本文选择通用的宏平均F1(Macro-average F1)评价分类性能。

4.2 基于语料数据分布特性的噪声处理

针对搜狗、复旦大学两种公开语料库, 选取其中6个类别进行实验, 主要包括计算机、体育、经济、军事等类别信息。针对自建图书、期刊语料库, 选取计算机、体育、军事三个类别进行实验。每个类别都随机选取400篇文档作为训练样本, 200篇作为测试样本, 以排除类别不均衡因素对分类性能的影响, 且保证训练样本与测试样本之间没有重复文本。首先计算搜狗、复旦大学两种语料库各类别的聚类密度, 然后对各类别聚类密度进行归一化处理获取样本所服从的正态分布, 最后按样本所占比例获取噪声样本。如对于搜狗语料库中的“ 计算机” 类别, 通过公式(4)、公式(5)计算出分布的偏度、峰度的值分别为-0.26、0.45, 根据SPSS描述统计分析结果, 该分布通过正态性检验。计算得到均值为-3.44, 均方差为1.16, 并根据公式(8)计算均值的95%置信区间为[-3.49, -3.32]。设定阈值ε =0.50, 则在区间[-8, -3.49]上, 计算得到噪声样本数为17, 针对搜狗、复旦大学两种公开语料, 计算各类别的噪声样本数以及各类别的聚类密度如表1所示:

表1 搜狗、复旦语料库各类别噪声样本分布情况

通过表1可以看出, 这两种公开语料库各类别中均含有一定的噪声样本, 且通过计算看出复旦大学语料库的聚类密度要高于搜狗语料库的聚类密度。

在获得噪声样本后进行裁剪, 然后计算裁剪后文档对所服从分布的相对熵以及类别的聚类密度, 以检验噪声识别的有效性, 如图2所示:

图2 搜狗、复旦语料库噪声处理后相对熵及聚类密度变化

通过计算噪声样本裁剪前后相对熵以及类别聚类密度变化发现, 噪声样本的删除对每个类别的文档相似度分布都有较大的影响, 其中类别“ 计算机” 、“ 体育” 、“ 经济” 相对熵值较高, 说明噪声样本处理使得两个概率分布差异较大。另外, 噪声样本的裁剪也使得各个类别的聚类密度都有所增大。限于篇幅, 本文只列出搜狗语料库噪声样本处理前后聚类密度的变化情况。图2说明该方法能够有效挖掘噪声样本, 使语料中各个类别的概念信息更加清晰、明确, 从而更有利于文本分类器的分类。

为进一步验证该方法的有效性, 计算搜狗、复旦语料噪声处理前后各类别上的分类准确率, 如图3所示:

图3 搜狗、复旦语料噪声处理前后分类准确率比较

图3可以看出, 通过删除噪声样本, 使得搜狗、复旦语料库各类别的分类准确率都得到提高, 搜狗语料库各类别分类准确率平均提高3.37%, 复旦语料库各类别分类准确率平均提高4.83%。噪声样本的裁剪使得类别的概念信息变得清晰明确, 从而使得分类器的分类性能得到提高, 验证了该方法的有效性。

另外, 为验证本文方法在不同领域、不同类型数据上的有效性, 针对图书、期刊自建语料采用该方法进行噪声样本识别, 分类效果如图4所示:

图4 图书、期刊自建语料噪声处理前后比较

通过图4可以看出, 搜狗、复旦语料库的分类效果均高于图书和期刊自建语料库, 这在一定程度上说明机器学习分类算法在应用到专门语料库时, 往往会显示出较高的分类正确率, 而一旦应用到现实世界的文本分类时, 这些系统的有效性就远远低于专门语料库中证明的结果。原因是搜狗、复旦语料取自专门的语料库, 各个样本的类别属性相对比较准确, 使其训练样本的三个类别间的界定较为清晰。而图书和期刊类型文献的实验材料是笔者直接取自于馆藏目录或电子期刊数据库资源, 对各篇文本的类别属性没有经过特别的考证。然而采用该方法删除噪声样本后, 采用SVM分类器进行分类时, 其类别“ 体育” 、“ 计算机” 、“ 军事” 的分类准确率也有所提高。

5 结语

训练样本和分类算法一样, 是形成文本自动分类系统的基础和关键, 研究以数据特性驱动的分类学习方法对实际应用具有重要的意义。本文提出一种基于训练样本类别聚类密度的文本分类噪声处理方法, 通过研究该特征属性获取训练样本中的噪声样本, 以达到提高分类器分类性能的目的。通过在真实语料中的实验, 验证了该方法的有效性。该方法可以正确地识别噪声样本, 且可一次处理批量检测, 不必先判断各个噪声样本后再进行检测。今后的研究工作中, 将在依据数据特性驱动的噪声识别方法的基础上, 提出更多衡量语料类别信息的指标以提高识别噪声样本的准确性, 以及提出更多的挖掘评测方法来对噪声识别方法进行科学评价, 从而对这种方法进行可行性的改进。

参考文献
[1] 程传鹏. 中文网页分类的研究与实现[J]. 中原工学院学报, 2007, 18(1): 61-64.
Cheng Chuanpeng. The Study and Implementation of Chinese Web Page Classification[J]. Journal of Zhongyuan Institute of Technology, 2007, 18(1): 61-64. [本文引用:1] [CJCR: 0.2092]
[2] 牛树梓, 程学旗, 郭嘉丰. 排序学习中数据噪音敏感度分析[J]. 中文信息学报, 2012, 26(5): 53-58, 128.
Niu Shuzi, Cheng Xueqi, Guo Jiafeng. Noise Sensitivity in Learning to Rank[J]. Journal of Chinese Information Processing, 2012, 26(5): 53-58, 128. [本文引用:4] [CJCR: 1.13]
[3] Vinciarelli A. Noisy Text Categorization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(12): 1882-1895. [本文引用:2] [JCR: 4.795]
[4] 宣照国, 党延忠. 文本分类中粗分类数据噪声修正的网络算法[J]. 情报学报, 2008, 27(5): 670-676.
Xuan Zhaoguo, Dang Yanzhong. Network-based Noise Revision Algorithm in Text Categorization[J]. Journal of the China Society for Scientific and Technical Information, 2008, 27(5): 670-676. [本文引用:2] [CJCR: 1.1348]
[5] 王强, 关毅, 王晓龙. 基于特征类别属性分析的文本分类器分类噪声裁剪方法[J]. 自动化学报, 2007, 33(8): 809-816.
Wang Qiang, Guan Yi, Wang Xiaolong. A Method for Eliminating Class Noise in Text Categorization Based on Feature Class Attribute[J]. Acta Automatica Sinica, 2007, 33(8): 809-816. [本文引用:2] [CJCR: 0.572]
[6] 林洋港, 陈恩红. 文本分类中基于概率主题模型的噪声处理方法[J]. 计算机工程与科学, 2010, 32(7): 89-92, 119.
Lin Yanggang, Chen Enhong. A Probabilistic Topic Model Based Noise Processing Method for Text Categorization[J]. Computer Engineering & Science, 2010, 32(7): 89-92, 119. [本文引用:2]
[7] Yan J, Liu N, Zhang B, et al. OCFS: Optimal Orthogonal Centroid Feature Selection for Text Categorization [C]. In: Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’05). 2005: 122-129. [本文引用:2]
[8] Li R L, Hu Y F. Nosice Reduction to Text Categorization Based on Density for KNN [C]. In: Proceedings of the 2nd International Conference on Machine Learning and Cybernetics, Xi’an, China. IEEE, 2003: 3119-3124. [本文引用:1]
[9] Xu J, Chen C, Xu G, et al. Improving Quality of Training Data for Learning to Rank Using Click-through Data [C]. In: Proceedings of the 3rd ACM International Conference on Web Search and Data Mining. New York: ACM, 2010: 171-180. [本文引用:2]
[10] Carvalho V R, Elsas J L, Cohen W W, et a1. Suppressing Outliers in Pairwise Preference Rankings[C]. In: Proceedings of the 17th ACM Conference on Information and Knowledge Management (CIKM’08). New York: ACM, 2008: 1487-1488. [本文引用:2]
[11] Nettleton D F, Orriols-Puig A, Fornells A. A Study of the Effect of Different Types of Noise on the Precision of Supervised Learning Techniques[J]. Artificial Intelligence Review, 2010, 33(4): 275-306. [本文引用:1] [JCR: 1.565]
[12] Tsivtsivadze E, Cseke B, Heskes T. Kernel Principal Component Ranking: Robust Ranking on Noisy Data[C]. In: Proceedings of European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML PKDD). 2009: 101-113. [本文引用:1]
[13] Aslam J A, Kanoulas E, Pavlu V, et al. Document Selection Methodologies for Efficient and Effective Learningto-rank [C]. In: Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’09). New York: ACM, 2009: 468-475. [本文引用:1]
[14] Si X, Sun M. Exploring the Concept Levels of Social Tags in Chinese Blogs [C]. In: Proceedings of the 11th Chinese Lexical Semantics Workshop, Suzhou, China. 2010. [本文引用:2]
[15] 宋玲, 马军, 连莉, . 文档相似度综合计算研究[J]. 计算机工程与应用, 2006, 42(30): 160-163.
Song Ling, Ma Jun, Lian Li, et al. The Study on the Comprehensive Computation of the Documents Similarity[J]. Computer Engineering and Applications, 2006, 42(30): 160-163. [本文引用:1] [CJCR: 0.457]
[16] 薛晓飞, 张永奎, 任晓东. 基于新闻要素的新事件检测方法研究[J]. 计算机应用, 2008, 28(11): 2975-2977.
Xue Xiaofei, Zhang Yongkui, Ren Xiaodong. Method Research of New Event Detection Based on News Element[J]. Journal of Computer Applications, 2008, 28(11): 2975-2977. [本文引用:1] [CJCR: 0.646]
[17] 吴慧. 海南省降水量的正态分布特征及正态化变换[J]. 广东气象, 2005, 27(2): 12-13.
Wu Hui. Normal Distribution Characteristics and Variation of Precipitation in Hainan Province[J]. Journal of Guangdong Meteorology, 2005, 27(2): 12-13. [本文引用:1]
[18] 王文博. 统计学原理、方法及应用 [M]. 第2版. 西安: 西安交通大学出版社, 2010: 94.
Wang Wenbo. Principle, Method and Application of Statistics [M]. The 2nd Edition. Xi’an: Xi’an Jiaotong University Press, 2010: 94. [本文引用:1]
[19] Kullback S, Leibler R A. On Information and Sufficiency[J]. Annals of Mathematical Statistics, 1951, 22(1): 79-86. [本文引用:1] [JCR: 0.736]
[20] Vapnik V. The Nature of Statistical Learning Theory[M]. New York: Springer-Verlag, 1999. [本文引用:1]
[21] Hull D A. Improving Text Retrieval for the Routing Problem Using Latent Semantic Indexing [C]. In: Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: Springer-Verlag, 1994: 282-291. [本文引用:1]