针对训练集分布偏斜问题的数字资源文本分类方法
李湘东1,2, 何海红1, 曹环1, 黄莉3
1武汉大学信息管理学院 武汉 430072
2武汉大学信息资源研究中心 武汉 430072
3武汉大学图书馆 武汉 430072
通讯作者: 黄莉 E-mail:huangcomplete@gmail.com

作者贡献声明:

李湘东: 提出命题及研究思路, 最终版本修订;

何海红: 数据采集、实验及论文的撰写;

曹环: 设计研究方案、数据分析及论文的起草;

黄莉: 数据分析及最终版本修订。

摘要

【目的】调整训练集分布的不均衡性, 以提高科学分类体系下数字资源文本的分类性能。【方法】提出基于粒划分和LDA相结合的新方法B-LDA, 首先根据划分准则对训练集进行分割, 实现粒度空间的转换, 然后采用概率主题模型(LDA)对文本建模, 利用类全局语义信息生成新文本, 从而使训练集达到分布均衡。【结果】仿真实验结果表明: 随着特征项数的变化, 在不同偏斜程度训练集上F1值有2.7%至9.9%不等的提升。【局限】由于语料库规模的限制, 构造训练集进行实验时, 只涉及部分偏斜情况; 此外, 实验随机选取的两个类别的可分性会对新方法的分类性能造成影响。【结论】该方法可有效提高以图书书目信息、期刊题录信息、网页等数字资源为文本内容的分布偏斜训练集的分类性能。

关键词: 分布偏斜; 粒划分; 概率主题模型; 文本分类; 数字资源
中图分类号:TP391
An Algorithm of Digital Resources Text Categorization for Training Sets Skewed Distribution
Li Xiangdong1,2, He Haihong1, Cao Huan1, Huang Li3
1School of Information Management, Wuhan University, Wuhan 430072, China
2Center for the Studies of Information Resources, Wuhan University, Wuhan 430072, China
3Wuhan University Library, Wuhan 430072, China
Abstract

[Objective] To improve digital resources text categorization in hierarchical structure by adjusting skewed distribution in training sets. [Methods] This paper proposes a new method named B-LDA to improve text categorization by integrating granule partitions with LDA. The new method firstly divides rare classes based on granular partition criteria to realize transferring the granularity space of training set, then modeles important texts based on probabilistic topic models, and generates new texts by using global semantic information represented by probabilistic topic models, until the distribution of different categories becomes more balanced. [Results] The results show that with the changing of the number of characters, the F1-Value for different imbalanced level training sets has been improved between 2.7% and 9.9%. [Limitations] This paper involves only part of imbalance condition, when constructs training set for experiments because of the limitation of corpus scale. In addition, the overlap degree of the two categories selected randomly will affect the classification performance of the new method. [Conclusions] The new method can achieve better performance under imbalance data sets which composed by the text information of the bibliography of books, the title of journals and Web pages.

Keyword: Skewed distribution; Granule partitions; Probabilistic topic models; Text categorization; Digital resources
1 引 言

基于机器学习的自动分类技术作为数字资源组织的基础技术, 为数字图书馆的发展提供了有效的技术支撑[ 1], 然而, 在《杜威十进分类法》、《中国图书馆分类法》(简称《中图法》)等科学分类体系下的数字图书馆馆藏文献显现出的层次及类别数目繁多、类别关系复杂、分布偏斜和类别稀疏等特征[ 2, 3], 严重影响了面向数字图书馆海量信息处理需求的自动分类性能。因此, 如何解决这些问题, 将分散于各个领域的图书、期刊、网页等数字资源文本有效地分类组织是信息资源管理领域的难题。

在文本分类领域, 针对上述问题相关研究分别提出一些解决方法[ 3, 4, 5, 6], 其中, 王军[ 3]根据分类体系上书目数据的密度和类的分布提出层次体系结构的重构和剪枝算法; 肖雪等[ 4]针对类别数目繁多问题, 提出新的基于向量空间模型的二重特征选择方法FDS以及层次分类算法HTC; 何琳等[ 5]针对稀有类别的问题, 提出结合《中图法》上下位类的含义, 将稀有类别合并到上位类或单独组成一个类别以达到分布均衡; 张启蕊等[ 6]从构建训练集的角度, 提出对原始训练集以类为单位进行重新组合的类别均衡法, 上述方法针对特定问题均取得一定的效果。

本文主要针对数字图书馆数字资源文本自动分类过程中, 训练集中存在的分布偏斜问题, 提出一种基于粒划分和概率主题模型(LDA)相结合的新处理方法B-LDA。该方法通过对训练集划分, 从不同层次上进行问题的求解, 有利于减少问题求解的复杂性; 仅对分类贡献大的边界样本过抽样, 有利于提高少数类样本的识别能力; 对噪声样本的预处理, 以及保留内部样本, 能够最大程度保持原有信息的完整性; 此外, 新方法采用由概率主题模型表示的语义信息对文本属性的训练集在全局范围内合成新文本, 基于全局过抽样, 能够有效继承原始样本的分布特性, 考虑语义信息, 以提高新生成训练文本的全面准确性, 具有更强的类代表能力。在实验中, 采用以网页和图书、期刊为文本内容的数字资源语料库, 构造多种不同偏斜程度的训练集进行实验, 验证了新方法的有效性。

2 研究现状

随着数字信息技术的发展和网络环境的形成, 对数字图书馆丰富的馆藏资源进行分类组织为用户提供超越时空的服务成为研究热点[ 7]。基于机器学习的文本分类技术为数字资源文本的组织提供了基础技术支撑, 但同时也面临着数字资源文本分布偏斜、类别稀疏、多层分类等问题。

近年来, 国内外研究者开始注重从数据复杂度领域分析训练集对分类性能的影响[ 8], 相关研究通过仿真实验发现, 训练集分布偏斜是导致分类性能下降的决定性因素[ 9, 10, 11]。分布偏斜问题, 也称为不平衡问题或非均衡问题, 其中包含较多文本数的类称为多数类, 文本数较少的类称为少数类。从产生的来源看, 根据信息资源分布的特点,分布偏斜问题是由于某些数据存在相对概率小、数据特征难以捕捉等原因引起的[ 12]; 从本质上看, 分布偏斜问题是一个相对问题, 与概念复杂度、训练集规模、类不均衡程度有关[ 11], 且稀有类别中的小析取项是关键因素, 而小析取项降低分类器性能的主要原因与分类器的偏见、属性噪声、属性缺失、类别噪声、类别规模等有关[ 13]

由于训练集分布偏斜问题广泛存在于入侵检测[ 14]、医疗诊断、金融欺诈识别、从卫星雷达图像检测石油泄漏、信息检索和过滤等领域, 分布偏斜问题对分类性能的影响研究在机器学习和数据挖掘方面引起越来越多的关注。在分布偏斜问题中, 错分少数类的代价远远高于错分多数类[ 14], 而传统分类算法倾向于多数类而忽略少数类, 因此, 如何提高少数类的分类性能已经成为研究热点。

针对训练集分布偏斜问题, 已提出许多解决方法, 大致分为两类: 基于数据层面和基于算法层面[ 14]。基于数据层面的方法, 通过采用各种方法调整训练集的分布即重构训练集, 再进行分类学习; 基于算法层面的方法则是针对不同分布的训练集, 提出新的算法或改进现有算法。由于提出或改进的分类器往往只能针对特定的训练集, 适用性、灵活性比较小, 与对训练集进行操作比较, 分类器的改进需要花费较大的成本[ 15]。本文以训练集重构为突破点。

训练集重构方法中针对随机过抽样和欠抽样分别存在过度拟合和删除有效信息等问题, 提出许多改进的方法, 如SMOTE[ 16], B-SMOTE[ 17], SMOTE+Tomek[ 18]等, 但上述方法仅在局部范围内线性插值, 不能很好地反映样本的分布, 且只能合成数值属性的训练集, 对文本属性的训练集则存在较大的局限性。文献[19]提出通过使用由概率主题模型表示的类全局语义信息来生成稀有类别新文本的方法, 考虑文本的语义信息, 对提高少数类的分类性能效果显著。然而, 该方法对所有样本公平对待, 而事实上, 边界样本相对于内部样本对分类有着更重要的作用[ 17]。张清华等[ 20]提出将一个对象划分为一系列不同的信息粒, 在不同粒度层次上进行问题求解。郭虎生等[ 21]根据该粒度计算思想对多数类进行粒划分并从中获取信息粒, 通过信息粒来寻找局部支持向量。尽管该方法对分布偏斜的训练集有一定的效果, 然而寻找局部支持向量的过程中, 丢失信息过多, 且仅是针对数值属性的训练集基于向量空间模型来进行分类, 没有考虑文本集合及其语义信息。此外, 在真实的文本分类应用中, 训练集一般都不可避免地含有干扰分类性能的噪声[ 22], 而简单删除噪声样本, 很可能导致正常样本误删而丢失有效信息[ 8]。因此, 在重构训练集之前, 需要对噪声文本加以识别并做适当处理。

基于此, 本文提出将训练文本集合中至关重要的语义信息以及训练集合的样本种类结合起来解决分布偏斜问题。新方法在对训练集中的类别噪声进行预处理、以弱化噪声对训练集的影响之后; 首先根据粒度划分的思想对预处理后的训练集进行有效分割, 实现其粒度空间的转换; 其次基于概率主题模型(LDA)对其中核心文本进行文本建模, 以利用LDA模型表示的类全局语义信息生成新文本, 直到训练集类别分布均衡; 最后在新训练集上进行有效学习以构造分类器进而分类。

3 B-LDA算法的原理
3.1 粒划分

“信息粒化”这一概念最早由模糊数学创始人Zedeh[ 23]于1979年首次提出, 以元素属于给定概念隶属程度作为粒度, 用来解决现实世界中信息的不连续性问题。信息粒化的过程就是在给定粒化准则下将一类对象划分为一系列不同的信息粒, 其中每一个粒是由不可分辨关系、相似性或者泛函性聚集而成的对象的集合或抽象, 其基本思想是在不同的粒度层次上进行问题求解[ 19]

在文本分类领域, 大规模训练集的人工标注过程中, 不可避免地存在类标注错误的情况, 即错误标签[ 21], 简单删除会造成信息丢失, 若识别类别噪声样本后, 通过修改类标记将其归入正确的类别, 则可将噪声变为有价值的信息。结合上述分析可知, 训练集中的类别噪声, 不同位置的样本贡献度的不同, 这些子问题都将对分类性能产生影响。为降低问题求解的复杂度, 本文根据粒划分的思想对训练集进行粒划分, 利用K-近邻规则识别噪声样本, 并完成修改类标记; 利用相似度方法或距离方法作为划分准则, 把预处理后的训练集划分为边界样本和内部样本, 在不同的粒度下解决问题。

具体地, 设少数类为类A, 包含x个样本, 多数类为类 B, 包含y个样本, 其中

(1) 若样本M的K个近邻点的类标记均和样本M不同, 则M为噪声样本;

(2) 若样本M离类中心向量ei的距离小于阈值 , 则认为M是内部样本;

(3) 若样本M离类中心向量ei的距离大于阈值 , 则认为M是边界样本。

3.2 概率主题模型(LDA)

LDA模型[ 24]是由David M.Blei等在2003年提出的一种文本生成概率模型, 是一个三层贝叶斯模型, 该模型通过将高维的文本集合映射到低维的潜在语义空间, 认为文档是主题的混合分布, 而主题又是一组词的多项式概率分布。对于LDA模型, 为了获取文本的主题概率分布, 本文采用Gibbs抽样估计词汇对于主题的后验概率 。Gibbs抽样算法的具体细节见文献[ 25]。经过足够多次迭代, 可以得到每个单词的z估计, 通过以下公式估算 , 的后验值:

其中, 表示词汇w被分配给主题j的频数, 表示分配给主题j的所有词数; 表示文本d中分配给主题j的词数, 表示文本 d中所有被分配了主题的词数。

在LDA模型中主题数量T要预先给定, 本文选择作为语言模型中标准的评判准则困惑度计算[ 26]来确定最优主题数, 困惑度越低, 说明模型的泛化能力越强。在LDA模型中, 每个文本都有自己独立的主题分布, 而在文本分类中, 本文假设同一类别的文本具有相同的主题分布, 即由某个概率主题模型生成的新文本一定还是属于这个模型对应的类别[ 20]。因此, 只要能够从训练文本集中抽取出每个类别对应的概率主题模型, 通过这些模型就能够重新生成整个文本集合。LDA概率主题模型生成文本的过程如下[ 24]:

(1) 对于每个主题j, 根据Dirichlet分布 得到该主题上面的一个单词多项式分布向量 ;

(2) 根据泊松分布 得到文本的单词数目 ;

(3) 根据Dirichlet分布 得到该文本的一个主题分布概率向量 ;

(4) 对于该文本N个单词中的每一个单词 :

①从 的多项式分布 随机选择一个主题 j;

②从主题 j的多项式条件概率分布 选择一个单词作为

3.3 算法B-LDA的设计及其框架

本文将上述粒划分原理和基于语义的LDA原理结合起来, 提出解决训练集分布偏斜的新方法B-LDA。新方法可以通过模拟图形图1来理解, 其中A类为少数类, 由雪花表示, B类为多数类, 由黑点表示, 图1(a)显示的训练集的原始分布, 首先利用近邻规则识别出噪声样本, A类和B类的类别噪声样本分别由圆点和雪花表示, 对待分类文本X, 其原本是属于A类, 但由于A类样本稀疏, 当K=10时, X的近邻中, A类4个, B类6个, 根据KNN的分类原理, X被错误分到B类, 此即为小类被错分的实例之一; 如图1(b)显示, 噪声样本预处理后的分布, 且根据距离原则划分少数类边界样本和内部样本, 由环形线条作分割线, 分别为内部样本和边界样本; 图1(c)为利用LDA模型对边界样本过抽样后的训练集分布情况, 可以清晰看出仅对边界样本进行基于LDA的过抽样, 且没有删除任何有效信息, 最终达到类分布均衡。

图1 新方法模拟图

本文把边界样本从训练集中剥离出来后、从语义的角度研究其对分类的重要性, 将训练文本集合中至关重要的语义信息以及训练集合的样本种类结合起来解决分布偏斜问题。基于粒划分和概率主题模型相结合的分类方法B-LDA的主要步骤如下:

(1) 使用中国科学院计算技术研究所ICTCLAS分词法[ 27]对原始训练集进行分词处理, 并使用统一的停用词表对分词结果文件进行过滤处理, 利用向量空间模型表示文本, 采用信息增益的特征提取方法进行一定维度的特征提取, 并利用计算权重后, 训练集中的样本用维向量表示为;

(2) 对训练集中的每个样本, 利用K-近邻规则, 识别类别噪声样本, 并修改的类标记将其归入正确的类别; 利用相似度方法或距离方法作为划分准则, 分割少数类训练集, 输出基于粒划分后的边界样本和内部样本;

(3) 利用概率主题模型对边界样本建模, 利用Gibbs抽样算法和困惑度计算获得最优参数和最优主题数, 并得到文档-主题分布, 主题-词分布;

(4) 导入得到LDA模型, 计算单类文本集合中文档的平均长度; 从文档-主题分布的多项式分布中, 按概率随机选择一个主题; 从主题上的单词分布的多项式条件概率分布中, 按概率选择一个单词作为文档的一个新词; 直到文档长度为;

(5) 重复步骤(4)直到训练集类别分布均衡;

(6) 在新训练集上构造分类器, 进行分类。

实现过程的具体框架流程如图2所示:

图2 新方法的框架图

4 实验设计
4.1 实验材料与阈值设置

为了验证本文方法对数字图书馆数字资源文本自动分类的有效性, 采用两种分别以网页和图书、期刊为内容的数字资源文本语料库——复旦大学中文语料库[ 28]和搜狗语料库[ 29]构造多种不同偏斜程度的训练集进行实验。复旦大学的中文语料库是由复旦大学自然语言处理实验室提供的基准语料库, 数据原材料是图书和期刊两种类型的文献, 包含20个主题类别, 分为训练集和测试集两部分, 两部分的文档数量基本相等; 搜狗语料库由搜狗实验室提供, 来源于搜狐等多个新闻网站近20个频道保存的大量经过编辑手工整理与分类的新闻网页语料及与之对应的分类信息。实验材料的偏斜程度以变异系数(CV)表示, 变异系数表示训练集中类分布的离散程度, 变异系数越大, 偏斜程度越高。实验使用的训练集的具体分布如表1所示。本实验以两类分类对新方法进行解释说明, 因为多类分类问题可以转换为一组两类分类问题进行解决[ 8]

表1 训练集的分布情况

实验使用团队研发的自动文本分类的软件系统TextCategorizeTool3.2及 LDA主题提取与识别系统GibbsLDA1.0, 它融合了多种分类算法、特征项选择方法等, 且能够客观地提取文本集的隐含主题, 以确保高效地完成实验任务。在实验中采用ICTCLAS分词系统进行分词, 特征选择方法为信息增益(IG), 训练集的特征维数为100-5 000, 间隔为500。其中, 在噪声样本的识别过程中K的取值为10, 样本划分过程中阈值 的大小设定为: 原则上使取得的边界样本为总样本数的 , 利用困惑度确定最优主题数 , 参数

4.2 评价指标

本文考虑到不平衡分类问题的特殊性及复杂性, 采用TP Rate、宏/微F-measure指标来衡量分类器的分类性能。公式(2)主要用于衡量少数类的分类效果, TP Rate越大越好, 公式(3)采用查准率和查全率的综合指标F1值作为评价指标, 只有查准率和查全率都高才能确保较高的F1值, 所以F1是不平衡训练集分类问题中有效的评价准则。相关符号见表2中混淆矩阵。

表2 混淆矩阵
5 实验结果和分析
5.1 主题数T的选择

主题数目是影响分类性能的一个重要参数, 分别对搜狗语料和复旦语料进行主题建模时, 采用困惑度确定LDA最优主题数目, 其中S_1和F_1的最优主题数分别为10、40, 困惑度随主题数变化的具体情况如图3图4所示:

图3 S_1时困惑度随主题数的变化情况

图4 F_1时困惑度随主题数的变化情况

5.2 实验结果

表3为搜狗和复旦实验材料在不同的变异系数时, 本文提出的方法(B-LDA)同传统KNN方法基于F-measure的分类结果比较。可以看出, 随着特征项数的变化, F值在经B-LDA处理后的不同偏斜程度的训练集上均有较大幅度的提高, 如特征项数为5 000时, 训练集S_1的宏平均F1值从0.918上升到0.967。此外, 新方法在原始训练集CV值较低时的分类效果绝大多数情况下优于CV值较高时的结果。例如, 特征项数在3 500-5 000之间时, 无论是搜狗语料还是复旦语料, CV值较低的分类性能普遍好于CV值较高的训练集, 原始训练集偏斜程度越小, 分类效果越好。同时, 当少数类的文本数及偏斜程度CV相同时, 复旦语料的分类性能相对而言高于搜狗语料, 如S_2与F_1的CV值均为1.1, 随着特征项数的增加, F_1的F1值远大于S_2, 当特征项数为1 500时, S_2的Micro F1值为0.94, 而F_1的Micro F1值为0.97。分析原始文本后发现, 复旦材料的文本长度要远大于搜狗语料, 实验语料文本长度的增加, 更有利于新方法分类性能的提高。

表3 不同特征项数下Pure KNN与B-LDA的宏/微F1值比较

为了测试新方法的有效性, 本文通过实验对比研究几种不同的训练集重构方法, 分别为: 随机过抽样方法、LDA方法以及本文B-LDA方法, 其中以Pure KNN为基准方法, 随机过采样方法即为简单复制少数类文本以使两类训练集分布均衡, LDA方法对整个少数类利用概率主题模型生成新文本。为了比较研究的完整性, 采用F1值和TP Rate两种评价方法, 其中, TP Rate用于反映少数类的分类效果, F1值用于反映整个训练集的分类效果。结果如图5图6所示。

图5 F_1, F_2, F_3在4种方法下F1值和TPR值变化情况

图6 S_1, S_2, S_3在4种方法下F1值和TPR值变化情况

通过分析发现, 随着特征项数的变化, 所有的3种过采样方法, 均有效提高了小类别的F1值和TP Rate, 其中, 对于图5中F_1、F_2, 图6中S_1、S_2, 可以较清晰地看出B-LDA方法的分类效果远好于其他方法, 虽局部存在交叉现象, 但不影响整体趋势, 说明本文方法对于不同偏斜程度的训练集是有效的。然而同时也发现对于图5F_3, 图6S_3, 虽然B-LDA方法的分类效果稍高于其他方法, 但并不明显, 分析其原因发现, 源于初始少数类的文本数过少, 其中F_3只有20个文本, 在训练集划分后, 其边界样本仅有10个, 无法有效反映其整个类别特征的空间分布, 进而存在一定的局限性, 但相对于其他方法, 仍有一定幅度的提高。总之, 实验结果表明, 新方法可有效提高数字图书馆数字资源自动分类过程中文本分布偏斜时的分类性能, 且效果明显优于其他对比方法。

6 结 论

本文针对科学分类体系下数字资源自动分类中所存在的训练集文本分布偏斜问题, 提出基于粒划分和概率主题模型(LDA)相结合的处理方法, 从不同粒度层次上进行问题的求解, 利用基于概率主题模型表示的全局语义信息合成新文本, 在分布均衡且样本充足的训练集上训练分类器, 可有效提高分类性能, 从而提出了处理训练集分布偏斜问题的新途径。本文提出的处理方法对于解决广泛存在于领域内或领域间分布偏斜问题、短文本问题及语义空间的扩展, 均具有一定的实际意义。

参考文献
[1] 魏大威, 刘金哲, 薛尧予. 以数字图书馆推广工程为抓手, 构建覆盖全国的数字图书馆服务体系[J]. 国家图书馆学刊, 2012, 21(5): 14-19.
(Wei Dawei, Liu Jinzhe, Xue Yaoyu. Using the Digital Library Promotion Project as a Driver, Construct a Country-Wide Digital Library Service Architecture[J]. Journal of the National Library of China, 2012, 21(5): 14-19. ) [本文引用:1] [CJCR: 1.3497]
[2] 王军. 数字图书馆的知识组织系统: 从理论到实践[M]. 北京: 北京大学出版社, 2008.
(Wang Jun. The Knowledge Organization System in Digital Library——From Theory to Practice[M]. Beijing: Peking University Press, 2008. ) [本文引用:1]
[3] Wang J. An Extensive Study on Automated Dewey Decimal Classification[J]. Journal of the American Society for Information Science & Technology, 2009, 60(11): 2269-2286. [本文引用:3]
[4] 肖雪, 何中市. 基于向量空间模型的中文文本层次分类方法研究[J]. 计算机应用, 2006, 26(5): 1125-1126, 1133.
(Xiao Xue, He Zhongshi. Hierarchical Categorization Methods of Chinese Text Based on Vector Space Model[J]. Computer Applications, 2006, 26(5): 1125-1126, 1133. ) [本文引用:2] [CJCR: 0.1916]
[5] 何琳, 侯汉清, 白振田, . 基于标引经验和机器学习相结合的多层自动分类[J]. 情报学报, 2006, 25(6): 725-729.
(He Lin, Hou Hanqing, Bai Zhentian, et al. Automatic Multi- Layer Classification Method Based on Integration of Machine Learning and Indexing Experience[J]. Journal of the China Society for Scientific and Technical Information, 2006, 25(6): 725-729. ) [本文引用:2] [CJCR: 1.1348]
[6] 张启蕊, 张凌, 董守斌, . 训练集类别分布对文本分类的影响[J]. 清华大学学报: 自然科学版, 2005, 45(S1): 1802-1805.
(Zhang Qirui, Zhang Ling, Dong Shoubin, et al. Effects of Category Distribution in a Training Set on Text Categorization[J]. Journal of Tsinghua University: Science and Technology, 2005, 45(S1): 1802-1805. ) [本文引用:2] [CJCR: 0.517]
[7] 肖希明, 郑燃. 国外图书馆、档案馆和博物馆数字资源整合研究进展[J]. 中国图书馆学报, 2012, 38(3): 26-39.
(Xiao Ximing, Zheng Ran. Research Progress on Digital Resources Convergence of Libraries, Archives and Museums in Foreign Countries[J]. Journal of Library Science in China, 2012, 38(3): 26-39. ) [本文引用:1] [CJCR: 2.697]
[8] 林琛, 李弼程, 周杰. 基于信息粒度的交叠类文本分类方法[J]. 情报学报, 2011, 30(4): 339-346.
(Lin Chen, Li Bicheng, Zhou Jie. A Text Categorization Method for Overlapping Classes Based on Information Granularity[J]. Journal of the China Society for Scientific and Technical Information, 2011, 30(4): 339-346. ) [本文引用:3] [CJCR: 1.1348]
[9] García V, Alejo R, Sánchez J S, et al. Combined Effects of Class Imbalance and Class Overlap on Instance-Based Classification [A] // Intelligent Data Engineering and Automated Learning-IDEAL 2006 [M]. Berlin, Heidelberg: Springer, 2006: 371-378. [本文引用:1]
[10] Orriols A, Bernadó-Mansilla E. The Class Imbalance Problem in Learning Classifier Systems: A Preliminary Study [C]. In: Proceedings of the 2005 Workshops on Genetic and Evolutionary Computation. ACM, 2005: 74-78. [本文引用:1]
[11] Japkowicz N, Stephen S. The Class Imbalance Problem: A Systematic Study[J]. Intelligent Data Analysis, 2002, 6(5): 429-449. [本文引用:2] [JCR: 0.472]
[12] 夏战国, 夏士雄, 蔡世玉, . 类不均衡的半监督高斯过程分类算法[J]. 通信学报, 2013, 34(5): 42-51.
(Xia Zhanguo, Xia Shixiong, Cai Shiyu, et al. Semi-Supervised Gaussian Process Classification Algorithm Addressing the Class Imbalance[J]. Journal on Communications, 2013, 34(5): 42-51. ) [本文引用:1] [CJCR: 0.595]
[13] Jo T, Japkowicz N. Class Imbalances Versus Small Disjuncts[J]. ACM SIGKDD Explorations Newsletter, 2004, 6(1): 40-49. [本文引用:1]
[14] 江颉, 王卓芳, Gong Rongsheng, . 不平衡数据分类方法及其在入侵检测中的应用研究[J]. 计算机科学, 2013, 40(4): 131-135.
(Jiang Jie, Wang Zhuofang, Gong Rongsheng, et al. Imbalanced Data Classification and Its Application Research for Intrusion Detection[J]. Computer Science, 2013, 40(4): 131-135. ) [本文引用:3] [CJCR: 0.61]
[15] Estabrooks A, Jo T, Japkowicz N. A Multiple Resampling Method for Learning from Imbalanced Data Sets[J]. Computational Intelligence, 2004, 20(1): 18-36. [本文引用:1] [JCR: 1.0]
[16] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic Minority Over-Sampling Technique[J]. Journal of Artificial Intelligence Research, 2002, 16: 321-357. [本文引用:1] [JCR: 1.056]
[17] Han H, Wang W Y, Mao B H. Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning, [C]. In: Proceedings of International Conference on intelligent Computing (ICIC 2005), Hefei, China. Berlin, Heidelberg: Springer2005: 878-887. [本文引用:2]
[18] Batista G E, Prati R C, Monard M C. A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data[J]. ACM SIGKDD Explorations Newsletter, 2004, 6(1): 20-29. [本文引用:1]
[19] Chen E, Lin Y, Xiong H, et al. Exploiting Probabilistic Topic Models to Improve Text Categorization Under Class Imbalance[J]. Information Processing & Management, 2011, 47(2): 202-214. [本文引用:1] [JCR: 0.488]
[20] 张清华, 王国胤, 胡军, . 多粒度知识获取与不确定性度量[M]. 北京: 科学出版社, 2013.
(Zhang Qinghua, Wang Guoyin, Hu Jun, et al. Multi-Granularity Knowledge Acquisition and Measure of Uncertainty[M]. Beijing: Science Press, 2013. ) [本文引用:2]
[21] 郭虎升, 亓慧, 王文剑. 处理非平衡数据的粒度SVM学习算法[J]. 计算机工程, 2010, 36(2): 181-183.
(Guo Husheng, Qi Hui, Wang Wenjian. Granular SVM Learning Algorithm for Processing Imbalanced Data[J]. Computer Engineering, 2010, 36(2): 181-183. ) [本文引用:2] [CJCR: 0.492]
[22] 林洋港, 陈恩红. 文本分类中基于概率主题模型的噪声处理方法[J]. 计算机工程与科学, 2010, 32(7): 89-92, 119.
(Lin Yanggang , Chen Enhong . A Probabilistic Topic Model Based Noise Processing Method for Text Classification[J]. Computer Engineering and Science, 2010, 32(7): 89-92, 119. ) [本文引用:1] [CJCR: 0.3798]
[23] Zadeh L A. Fuzzy Sets and Information Granularity [A] // Advances in Fuzzy Set Theory and Applications[M]. Amsterdam: North-Holland Publishing Co. ,1979: 3-18. [本文引用:1]
[24] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. The Journal of Machine Learning Research, 2003, 3: 993-1022. [本文引用:2]
[25] Heinrich G. Parameter Estimation for Text analysis [R]. Germany: Fraunhofer IGD, 2005. [本文引用:1]
[26] Cao J, Xia T, Li J, et al. A Density-based Method for Adaptive LDA Model Selection[J]. Neurocomputing, 2009, 72(7-9): 1775-1781. [本文引用:1] [JCR: 1.634]
[27] 张华平. ICTCLAS汉语分词系统[EB/OL]. [2014-01-01]. http: //ictclas. nlpir. org/.
(Zhang Huaping . ICTCLAS Chinese Word Segmentation System [EB/OL]. [2014-01-01]. http://ictclas.nlpir.org/ [本文引用:1]
[28] 李荣陆. 复旦大学中文分类语料库[DB/OL]. [2014-01-01]. http: //www. datatang. com/data/43318.
(Li Ronglu . Chinese Categorization Corpus from Fudan University [DB/OL]. [2014-01-01]. http://www.datatang.com/data/43318. [本文引用:1]
[29] 搜狗实验室. 文本分类语料库[DB/OL]. [2013-08-22]. http: //www. sogou. com/labs/dl/t. html.
(Sogou Labs. Text Categorization Corpus [DB/OL]. [2013-08-22]. http://www.sogou.com/labs/dl/t.html [本文引用:1]