利用类别引导词的投诉文本分类*
胡菊香1, 吕学强1, 刘克会2,3
1北京信息科技大学网络文化与数字传播北京市重点实验室北京 100101
2北京理工大学管理与经济学院北京100081
3北京城市系统工程研究中心北京 100035
胡菊香, ORCID: 0000-0003-1439-121X, E-mail: xiangxiang.891002@163.com。
摘要
目的

针对投诉事件文本具有信息量大、非结构化、规律性不强等特点, 当前城市投诉信息管理亟需寻找一种高效的分类方法, 提高管理人员的工作效率。

方法

分析投诉事件特点进而对其进行文本预处理; 借助句法分析器、同义词林, 并通过文档贡献度过滤引导词; 采用TF-IDF计算引导词权重系数, 并以VSM表示, 最后通过SVM对处理后的投诉事件文本进行分类。

结果

在多个类别投诉事件测试文本中, 该方法查准率和查全率平均值达到82.1%和82.3%。【局限】投诉事件文本的稀疏性在一定程度上影响分类结果。

结论

实验证明该方法在投诉事件文本分类中是有效的、可行的, 能够提高投诉文本分类效果。

关键词: 投诉事件文本分类引导词
中图分类号:
Complaint Text Classification Based on Guiding Words
Hu Juxiang1, Lv Xueqiang1, Liu Kehui2,3
1Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information
Science and Technology University, Beijing 100101, China

2School of Management and Economics, Beijing Institute of Technology, Beijing 100081, China)
3Beijing Research Center of Urban System Engineering, Beijing 100035, China
Abstract

[Objective] For complaint text has the characteristics of informative, unstructured, weak regularity etc., the current information management of city complaint needs an efficient classification method to improve the efficiency of the management staff.[Methods]Analyze the characteristics of complaints and go for text preprocessing; Then use the parser, synonyms forest, and through the contribution of the document to filter guide word; At last, calculate the guide word weighting coefficients with TF-IDF, use VSM model to represent guide words and use SVM model to classify the complaint text. [Results]In multiple categories of complaint text, the average precision of the method is up to 82.1% and the average recall is up to 82.3%. [Limitations]Thesparsity of complaint text affects the classification results to a certain extent.[Conclusions]The experiment results show that the method is effective and feasible in the text classification of complaints, and it can improve categorization effect of thecomplaint text.

Keyword: Complaint; textText; classificationGuiding; words
1引言

随着大数据时代的到来, 人类社会逐渐步入信息化, 城市的信息化发展是城市发展的必然趋势。为了帮助改善城市的管理, 居民通过互联网反映市政市容相关的问题, 因此导致近年来居民的投诉事件文本呈现指数增长。分析居民投诉事件文本, 其内容具有分析困难、信息量大、非结构化、规律性不强等特征, 使得投诉点多、难聚焦, 投诉信息管理者无法对投诉事件文本进行人工统一归类集中分析, 工作繁琐且效率低下。为了快速获取居民对市政市容的投诉内容及反映的问题, 本文利用每个类别的引导词构建的引导词词库、引导词词库加工, 最终将构建好的引导词词库作为投诉事件文本分类的特征, 对投诉事件文本进行分类。通过文本分类可以快速归类投诉事件文本并发现投诉文本反映的主要内容, 避免了逐条阅读带来的工作效率低下的问题。

2 相关研究

目前的分类方法中, 基于统计学习的方法为主流方法。比较著名的文本分类方法有Bayes算法[1]、KNN(K-Nearest Neighbors)算法[2]、支持向量机(SupportVector Machine, SVM)[3]等。

2009年, 何国辉等[4]提出基于机器学习的文本分类, 介绍了SVM等一系列机器学习的文本分类方法, 但未将该系列方法进一步实验验证。2010年, 王鹏等[5]提出中文文本分类中利用依存关系的实验研究方法, 该方法抽取具有依存关系的词对, 并利用这些词对作为特征进行实验。但仅抽取具有依存关系的词对作为分类特征难免出现特征稀疏、分类精度较低等现象。2012年, 韩永峰等[6]提出基于领域特征词的突发事件层次分类方法, 该方法将领域特征词自动提取算法用于特征选择, 并采用改进的SVM构建分类器, 但层次文本分类方法存在“ 阻滞” 问题, 使得准确率偏低。2013年, 夏海峰等[7]提出基于文本挖掘的投诉热点智能分类, 根据机器学习相关知识对手机通话、短信等投诉内容进行模型训练, 并智能分类, 但训练出的模型不能够全面概括所有投诉热点。2013年, Yoon等[8]运用两个可扩展算法对关联文本进行分类, 其中一个算法用来存储规则, 另一个算法是提高相关规则的匹配速度, 生成相应的分类器对文本分类, 但规则具有一定的局限性。2014年, Chi等[9]提出基于本体库的文本分类研究, 该方法应用本体匹配现有语料中的文本, 并对其进行分类, 但构建本体库工作量大, 效率偏低。2015年, Javed等[10]提出基于两级马尔科夫的特征选择算法的文本分类方法, 在大量的特性代表词汇基础上选择特征, 但该方法有一定的局限性。

针对现有方法的不足, 笔者将统计学方法和机器学习方法相结合, 提出了利用类别引导词的投诉事件文本分类方法。综合采用类别领域词频比较、词与词之间的关系识别、同义词识别等方法构建类别引导词词库, 利用机器学习进行文本分类。与前人研究相比较, 该方法以词之间的依赖关系作为支撑, 利用词之间的依存关系获得初步引导词; 对引导词进行同义词识别, 获得较全面的引导词, 从而提高了投诉事件文本的查准率和查全率, 改善了文本分类的性能。

3基于引导词的投诉事件文本分类

通过对投诉事件文本分析发现: 投诉事件大多数包括事件的投诉地点、投诉原因、投诉状况等因素的描述。投诉事件文本有以下特点:

(1) 投诉事件文本属于短文本, 一般不超过200字符, 这使得相比于长文本, 短文本特征词较少, 而且也容易引起分类信号弱、噪音数据多等问题。

(2) 重要的内容首次出现的位置通常在标题中。例如: “ 标题: 投诉健翔桥南里小区供暖问题” 中的供暖为较重要的词语。

(3) 投诉事件内容经常跟随地名出现。例如: “ 海淀区丰户营街道B206号商店门口井盖丢失” 中的投诉事件内容为: 井盖丢失。

(4) 表述同种含义的投诉事件有多种表达形式, 即存在同义或者近义语句。例如“ 暖气温度低” 和“ 暖气热度不够” , 其中温度和热度为同义词。

通过投诉事件文本分析, 将分类的整体流程划分为三个阶段: 引导词词库构建、引导词加工、基于引导词分类, 如图1所示:

图1 投诉事件文本分类流程

3.1引导词词库构建

(1)引导词的定义

根据投诉事件文本的特点, 本文利用构建引导词的方法缓解投诉事件文本的特征词少、概念信号弱等数据稀疏问题。引导词含有动词或者动词词组, 类似于触发词与主题词, 却由于包含触发词与主题词以外的其他内容, 又相异于这两类词语。类别引导词是指每个类别的投诉事件文本中提取出来的引导词。由多个类别的投诉事件文本的引导词构成引导词词库。类别引导词的构成方式多种多样:

①类别引导词由类别名本身构成。例如: “ 供暖” 、“ 摆摊” 和“ 交通” 等本身构成类别引导词;

②类别引导词由类别名和其他词或者词组复合而成, 它要求在词义、词形上做严格的规范化处理。例如: 类别引导词“ 天然气供暖” 由分词之后的“ 天然气” 词组名和“ 供暖” 类别名复合而成;

③类别引导词由该类别的描述词或词语构成。例如: “ 龙锦苑东五区六单元101号暖气不热” 中的“ 不热” 是对供暖类别的描述;

④类别引导词由句子中具有主谓宾或动宾等关系的词语构成。例如: “ 北京市朝阳区安翔里小区物业出现供暖问题” 分析句子之后为“ 物业出现供暖问题” , 其中“ 物业” 与“ 出现” 是主谓关系, “ 出现” 和“ 问题” 是动宾关系, “ 供暖” 和“ 问题” 是依赖关系, 提取主干之后为“ 物业出现供暖问题” , 从简化的句子中提取类别引导词。

(2)构建引导词词库

投诉事件文本内容是典型的非结构化或半结构化的文本数据, 因此在构建词库中需对其进行文本预处理。构建引导词词库步骤如下:

①对获得的投诉事件文本数据按照4︰1分为训练文本数据和测试文本数据, 对训练文本数据和测试文本数据进行数据格式处理, 由XML格式转换为TXT格式, 并去掉相关的XML标签。

②对测试文本数据进行人工分类, 并作为最终的测试语料。

③对投诉事件文本进行预处理, 提取其中的“ 标题” 、“ 投诉内容” 相关内容; 去除停用词和噪音词。停用词是指语气助词、副词、介词、连接词等, 通常自身并无明确的意义, 只有将其放在一个完整的句子中才起作用, 例如“ 的” 、“ 在” 等。噪音词是指对类别没有任何贡献的词或者词组, 例如“ 标题: 投诉昌平区供暖补贴问题” , 其中“ 标题” 词为噪音词。

④对提取的文本进行词法分析, 利用ICTCLAS[11]将投诉事件文本切分成词序列。

⑤对切成词序列的文本, 利用哈尔滨工业大学句法分析器[12]分析每个句子中词或者词语之间的依赖关系, 得到在句子中充当主谓宾、动宾、定中等成分的词语形成初始类别引导词的词汇列表, 去掉重复词汇, 加入初始词库。

⑥利用哈尔滨工业大学同义词林[12]对初始词库统计同义词, 然后将投诉事件文本中的同义词用一个象征词代表, 建立相应类别的同义词表。例如: 在同义词林中“ Dn01B01= 温度温热度” 为同义词行列。

⑦去掉重复词汇, 构建类别引导词词库。

3.2引导词加工

(1)引导词的贡献度

在文本分类中, 通常会选择大量的特征参与分类学习, 但是往往大部分特征是冗余、无关的, 并且会影响分类效果。本文中的初始引导词词库和通常的特征一样, 含有冗余的和无关的引导词, 因此采用引导词选择算法[13]对引导词进行筛选。本文采用贡献度函数进行引导词选择, 将引导词作为特征进行文本分类。

贡献度函数是指某个引导词出现的文本占总文本的比例。如果该引导词的C值低于设定的阈值, 则认为该引导词是零贡献词, 零贡献词只含有少量或者不含投诉文本信息, 对分类没有任何作用, 将这样的词去掉, 可以提高分类效果。贡献度函数可以表示为:

C(t)=nN(1)

其中, C(t)表示贡献度, n表示包含引导词t的文档数目, N表示文档集的总数。通过贡献度函数得到对投诉文本分类具有贡献的引导词, 以进一步筛选引导词词库中的引导词。

(2) 引导词的权重系数

通过上述步骤之后过滤出用来分类的引导词。由于本文实验采用SVM进行分类, 因此分类之前需要计算引导词的权重系数[14]衡量该引导词对该文本的贡献程度, 采用TF-IDF计算引导词的权重系数。TF-IDF[15](Term Frequency-Inverse Document Frequency)是一种在信息检索和信息挖掘领域常用的加权技术, 被广泛应用于文本分类中特征权重计算, 其主要思想是如果某个词或短语在一个类别中出现的频率较高, 即TF值较高, 并且在其他类别中很少出现, 则认为此词或者短语具有很好的类别区别能力, 适合用来分类。其经典计算公式为:

wtd=tftd×idft=tftd×log(Nnt+0.5)(2)

其中, wtd是引导词t在文本中的权重系数; tftd是引导词t出现在文本d中的次数; N为训练集总文本数; nt为所有文本中出现t的文本个数。由于经典的计算公式没有考虑集合中文本长度的问题, 在此基础上利用文本长度对其进行规范化[16]。公式为:

wtd=tftd×log(Nnt+0.5)td[tftd×log(Nnt+0.5)](3)

(3)引导词的表示

由于分词后的投诉事件文本是使用自然语言描述且计算机难以理解的文本, 因此需要通过特征表示方法将中文分词后的投诉事件文本转换为计算机可以识别的形式。

目前文本表示通常采用向量空间模型(Vector Space Model, VSM)[17]。在文本向量空间模型中涉及的一些基本概念如下:

①文档: 通常是文章中具有一定规模的片段, 如句子、句群、段落、段落组直至整篇文章。

②项/特征项: 特征项是VSM中最小的不可分的语言单元, 可以是字、词、词组或短语等。本文将引导词作为特征项来完成文本分类。一个投诉文档内容被看成是它含有的引导词所组成的集合, 表示如下:

Document=Dt1, t2, t3, , tn, 1kn(4)

③项的权重: 对于含有n引导词的投诉文档 D(t1, t2, , tn), 每一引导词tk都依据一定的原则被赋予一个权重wk, 表示其在文档中的贡献度。

因此, 文档D表示为 D=((t1, w1), (t2, w2), (tn, wn)), 其中 t1, t2, t3表示文本的引导词; w1, w2, w3, , wn表示每个引导词对应的权重系数。权重越大, 表示该引导词包含的文本类别信息越多; 反之, 该引导词包含的文本类别信息越少。

引导词表示形式如下: 在投诉事件文本中的“ 供暖补贴” 类别中, 选取n个引导词分别为“ t1: 供暖/vn 费/n 补贴/n、 t2: 取暖/v、 t3: 采暖/vn、…” , 引导词在文中的重要程度用“ w1w2w3…” 表示, 形式为: D=((t1, w1), (t2, w2), , (tn, wn)), 其中 t1, t2, t3分别为上例中的三个引导词。

3.3引导词分类

经过以上步骤, 最终得到投诉事件文本的向量空间模型表示, 采用支持向量机算法对投诉事件文本进行分类[3, 18], 此算法是由Vapnik[19]提出的一种基于统计学习理论和结构风险最小化原则的机器学习方法。利用此算法对投诉事件短文本数据集进行训练和测试。

4实验结果与分析
4.1实验描述

从北京市市政市容管理委员会网站抓取1 500条城市管理投诉信息, 通过文本预处理、去除文档的HTML标签、解析标签内容、利用ICTCLAS分词工具[11]对文本数据进行分词等步骤获得投诉事件文本数据语料。实验整体结构分为训练模块和分类模块。在训练模块中, 分析训练文本, 通过构建类别引导词的步骤进而构建类别引导词词库; 对引导词词库进一步加工并提取特征, 利用TF-IDF对特征进行加权并用向量空间模型(VSM)进行特征表示; 利用支持向量机(SVM)训练算法生成文本分类器。按照处理训练文本的方式, 将测试文本构建引导词词库、提取特征向量、特征向量加权, 并用向量空间模型表示, 然后用训练得到的模型对测试文本进行分类。

实验采用查全率和查准率两个评价指标对投诉文本分类效果进行评价, 用量化的方法衡量分类器对投诉事件文本的分类能力。

查准率 Precisioni[20]是指正确分到类别Ci的文本数与所有分到该类别的文本数的比值。公式为:

Precisioni=aa+b(5)

其中, a表示实际属于某类别的文本并且被正确分到该类别的文本数, b表示实际不属于某类别的文本但是被错误分到该类别的文本数。

查全率 Recalli[20]是指正确分到类别Ci的文本数与所有应该分到该类别的文本数的比值。公式为:

Recalli=aa+c(6)

其中, c表示实际属于某类别的文本但是没有被分到该类别的文本数。

4.2实验语料

根据所得的投诉事件文本数据, 从中抽取标题、投诉事件内容作为实验数据。对获得的投诉事件文本进行处理, 去除非投诉事件之后, 剩余1 500条投诉事件文本, 按照4:1分为训练集和测试集, 训练集共1 200条, 测试集为300条。投诉事件文本语料示例如表1所示, 投诉事件文本数据各个类别分布情况如表2所示。

表1 投诉事件文本语料示例
表2 据各类别分布
4.3 实验结果与分析

根据本文投诉事件文本分类模型, 针对每个类别, 取出训练文本, 通过SVM学习得到分类模板, 通过模板对测试文本进行实验结果测试。表3是基于词频和引导词的两种方法的实验结果。基于词频是通过统计每个类别投诉事件文本的词频, 并对词频从高到低进行排序, 选取前20的词作为文本分类的特征向量, 通过SVM分类器得到投诉事件文本分类结果。基于引导词是构建引导词词库, 提取贡献引导词并计算其贡献系数, 然后通过SVM分类器得到投诉事件文本分类结果。实验结果如表3所示:

表3 实验结果

本文方法在300条测试语料上进行实验, 其中正确识别类别数目248条, 平均查准率和查全率为82.1%和82.3%。

从实验的整体效果来看, 基于引导词的投诉事件文本分类实验的查全率和查准率均有提升, 其主要原因是本文方法引进了句法分析、同义词识别进行文本分类的特征扩展。由表3可知, 查全率较高的是燃气供热类、停车收费类、噪音扰民类、违规建筑类, 分别是94.12%和96.08%、96.67%和96.67%、86.96%和91.30%、75.00%和75.00%。从两种实验结果分析来看, 由于燃气供热类、停车收费类、噪音扰民类的投诉事件文本比较规律, 统计词频之后对分类结果影响较大的词基本上是高频词, 因此在表3中两种实验显示的结果都比较高。对于剩余的6个类别, 基于引导词的投诉事件文本实验结果较基于词频统计实验结果百分比高。在构建类别引导词词库的过程中, 通过哈尔滨工业大学句法分析器得到句子中主谓宾、动宾或定中等关系的词语, 分别对引导词查找相关的同义词, 使得词库更具有结构化, 缓解了投诉事件短文本特征词少、概念信号弱等问题, 因此整体的查全率较高。

两种实验方法中, 广告投放类别中的投诉事件文本毫无规律性且词语之间的依赖性较小, 更加显示出短文本的特征词少、概念信号弱等问题, 所以提取出的特征中噪音词比较多, 影响整体分类结果。因此, 两种实验中广告投放类的查全率和查准率都比较低, 但是, 基于引导词的投诉事件文本分类的实验结果仍然较基于词频的投诉事件文本分类结果百分比高, 本文的方法能够缓解短文本的数据稀疏问题。例如: 广告投放投诉事件文本经过处理之后的句子“ 请问/v 路旁/s报刊/n 宣传栏/n 不知/v原因/n取消/v” 通过哈尔滨工业大学句法分析器[12]后得到的结果如图2所示:

图2可知, 句子切分成词语之后, 词语之间的依赖关系比较紧密, 关系成分复杂, 噪音词多, 导致分类的查全率和查准率较低。在两个实验中, 结果变化较明显的还有设施管道类和占用公共资源类, 同样说明加入引导词提取之后, 能更好地利用句子的词语间依赖关系来丰富词库内容。

从两方面进行实验分析:

(1) 实验结果分析: 本文方法的查准率较高, 因为基于词频的投诉事件文本分类的实验方法提取的词语非结构化, 本文方法中词语更具有紧密的联系;

(2) 实验结果映射分析: 通过投诉事件分类处理模型, 投诉信息管理者可以快速归类并发现投诉文本反映的主要内容, 避免了逐条阅读带来的工作效率低下的问题, 例如政府信息分类目录: 环境政治类、燃气供热类、市容环卫类、夜景广告类, 通过本文实验, 将实验结果中的10个小类依次归为大类, 减少了管理者的阅读量。

5结语

通过网络爬虫获得北京市市政市容管理委员会投诉事件, 以此作为实验语料, 根据引导词定义构建引导词词库, 通过计算引导词的贡献度、计算引导词权重系数、VSM向量表示, 对投诉事件文本分类方法进行实验。实验表明, 利用引导词的投诉事件文本分类查全率和查准率较高, 为投诉事件文本分析提供了一个有效的方法, 使得文本数据较为规范、结构化。未来工作是进一步完善引导词词库, 提高分类算法结果, 从而使得非结构化文本进一步规范。

参考文献
[1] 杨柳, 殷钊, 滕建斌, . 改进贝叶斯分类的智能短信分类方法[J]. 计算机科学, 2014, 41(10): 31-35.
(Yang Liu, Yin Zhao, Teng Jianbin, et al. Intelligent SMS Classification Method Based on Improved Bayes Classification Algorithm[J]. Computer Science, 2014, 41(10): 31-35. ) [本文引用:1] [CJCR: 0.945]
[2] 苑迪文. 基于 KNN 的专利文本分类算法研究[D]. 焦作: 河南理工大学, 2012.
(Yuan Diwen. Research of Patent Text Classification Algorithm Based on KNN[D]. Jiaozuo: Henan Polytechnic University, 2012. ) [本文引用:1]
[3] Basu A, Walters C, Shepherd M. Support Vector Machines for Text Categorization [C]. In: Proceedings of the 36th Annual Hawaii International Conference on System Sciences. IEEE, 2003. [本文引用:2]
[4] 何国辉, 吴礼发. 基于机器学习的文本分类技术的研究[J]. 计算机与现代化, 2009, 8(8): 4-6.
(He Guohui, Wu Lifa. Research on Text Categorization Based on Machine[J]. Computer and Modernization, 2009, 8(8): 4-6. ) [本文引用:1] [CJCR: 0.408]
[5] 王鹏, 樊兴华. 中文文本分类中利用依存关系的实验研究[J]. 计算机工程与应用, 2010, 46(3): 131-133.
(Wang Peng, Fan Xinghua. Study on Chinese Text Classification Based on Dependency Relation[J]. Computer Engineering and Applications, 2010, 46(3): 131-133. ) [本文引用:1] [CJCR: 0.557]
[6] 韩永峰, 郭志刚, 陈翰, . 基于领域特征词的突发事件层次分类方法[J]. 信息工程大学学报, 2012, 13(5): 593-600.
(Han Yongfeng, Guo Zhigang, Chen Han, et al. Hierarchical Text Classification of Emergency Events Based on Domain Features[J]. Journal of Information Engineering University, 2012, 13(5): 593-600. ) [本文引用:1] [CJCR: 0.235]
[7] 夏海峰, 陈军华. 基于文本挖掘的投诉热点智能分类[J]. 上海师范大学学报: 自然科学版, 2013, 42(5): 470-475.
(Xia Haifeng, Chen Junhua. Hot Complaint Intelligent Classification Based on Text Mining[J]. Journal of Shanghai Normal University: Natural Sciences, 2013, 42(5): 470-475. ) [本文引用:1] [CJCR: 0.279]
[8] Yoon Y, Lee G G. Two Scalable Algorithms for Associative Text Classification[J]. Information Processing & Management, 2013, 49(2): 484-496. [本文引用:1]
[9] Chi N, Lin K, Hsieh S. Using Ontology-based Text Classification to Assist Job Hazard Analysis[J]. Advanced Engineering Informatics, 2014, 28(4): 381-394. [本文引用:1] [JCR: 2.068]
[10] Javed K, Maruf S, Babri H A. A Two-stage Markov Blanket Based Feature Selection Algorithm for Text Classification[J]. Neurocomputing, 2015, 157: 91-104. [本文引用:1] [JCR: 2.005]
[11] ICTCLAS [EB/OL]. [2014-07-28]. http://ictclas.nlpir.org/. [本文引用:2]
[12] 语言云(语言技术平台云LTP-Cloud)[EB/OL]. [2014-09-20]. http: //www. ltp-cloud. com/.
( LTP-Cloud[EB/OL]. [2014-09-20]. http://www.ltp-cloud.com/ [本文引用:3]
[13] 李太白. 短文本分类中特征选择算法的研究[D]. 重庆: 重庆师范大学, 2013.
(Li Taibai. Research of Feature Selection Algorithm in Short Text Classification[D]. Chongqing: Chongqing Normal University, 2013. ) [本文引用:1] [CJCR: 0.709]
[14] 汪廷华, 田盛丰, 黄厚宽. 特征加权支持向量机[J]. 电子与信息学报, 2009, 31(3): 514-518.
(Wang Tinghua, Tian Shengfeng, Huang Houkuan. Feature Weighted Support Vector Machine[J]. Journal of Electronics & Information Technology, 2009, 31(3): 514-518. ) [本文引用:1]
[15] 施聪莺, 徐朝军, 杨晓江. TFIDF 算法研究综述[J]. 计算机应用, 2009, 29(6): 167-170.
(Shi Congying, Xu Chaojun, Yang Xiaojiang. Study of TFIDF Algorithm[J]. Journal of Computer Applications, 2009, 29(6): 167-170. ) [本文引用:1] [CJCR: 0.886]
[16] 高金勇, 徐朝军, 冯奕竸. 基于迭代的TFIDF在短文本分类中的应用[J]. 情报理论与实践, 2011, 34(6): 120-122.
(Gao Jinyong, Xu Chaojun, Feng Yijing. Application of the Iteration-based TFIDF in Short Text Classification[J]. Information Studies: Theory & Application, 2011, 34(6): 120-122. ) [本文引用:1]
[17] 宗成庆. 统计自然语言处理[M]. 北京: 清华大学出版社, 2008.
(Zong Chengqing. Statistical Natural Language Processing [M]. Beijing: Tsinghua University Press, 2008. ) [本文引用:1]
[18] 苏金树, 张博锋, 徐昕. 基于机器学习的文本分类技术研究进展[J]. 软件学报, 2006, 17(9): 1848-1859.
(Su Jinshu, Zhang Bofeng, Xu Xin. Advance in Machine Learning Based Text Categorization[J]. Journal of Software, 2006, 17(9): 1848-1859. ) [本文引用:1] [CJCR: 2.18]
[19] Vapnik V. The Nature of Statistical Learning Theory[M]. New York: Springer-Verlag, 1995. [本文引用:1]
[20] 张启蕊, 董守斌, 张凌. 文本分类的性能评估指标[J]. 广西师范大学学报: 自然科学版, 2007, 25(2): 119-122.
(Zhang Qirui, Dong Shoubin, Zhang Ling. Performance Evaluation in Text Classification[J]. Journal of Guangxi Normal University: Natural Science Edition, 2007, 25(2): 119-122. ) [本文引用:2] [CJCR: 0.373]