文本分类相似度模型和概率模型的实现与比较*

doi:10.11925/infotech.1003-3513.2006.04.13

现代图书情报技术

2006, Vol. 1

Issue (4): 53-55 https://doi.org/10.11925/infotech.1003-3513.2006.04.13

网络资源与建设

本期目录 | 过刊浏览 | 高级检索

文本分类相似度模型和概率模型的实现与比较*

刘华

（暨南大学华文学院广州 510610）

Implementation and Comparison of Similarity and Probabilistic Mode in Text Categorization

Liu Hua

(College of Chinese Language and Culture of Jinan University, Guangzhou 510610, China)

摘要
参考文献
相关文章
Metrics

全文:
输出: BibTeX | EndNote (RIS)

摘要

设计并建立一个基于向量空间模型和简单贝叶斯的文本分类系统，系统引入小类校正和兼类判断的算法，完成层级多标签的分类。进行基于向量空间模型和简单贝叶斯分类效果的对比，实验证明，在约3万篇测试集上（共15个大类，244个小类），基于向量空间模型的大类分类高25.2个百分点，层级小类分类高26.3个百分点。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章
	刘华

关键词 ：文本分类, 向量空间模型, 简单贝叶斯

Abstract：

This paper has implemented a text categorization system based on Vector Space Model(VSM) and Naive-Bayes(NB). When estimating the category, the authors enhance the veracity of parent-category by emendation of subcategory, and judge whether document has multi-classification and multi-label by estimating the similar difference of classifier’s final values. The experiment proves that VSM is better than NB in text representation: MicroF1 increases of 25.2 percent of parent-category, and MicroF1 increases of 26.3 percent of sub-category.

Key words： Text categorization Vector space model Naive-Bayes

收稿日期: 2006-01-12 出版日期: 2006-04-25

TP391

基金资助:

*本文系教育部“国家语言资源监测”项目（项目编号：L2004-01-01-04）的研究成果之一。

通讯作者: 刘华 E-mail: liuhua0461@sina.com

作者简介: 刘华

引用本文:

刘华 . 文本分类相似度模型和概率模型的实现与比较*[J]. 现代图书情报技术, 2006, 1(4): 53-55.
Liu Hua . Implementation and Comparison of Similarity and Probabilistic Mode in Text Categorization. New Technology of Library and Information Service, 2006, 1(4): 53-55.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2006.04.13 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2006/V1/I4/53

1Fabrizio Sebastiani. Machine learning in automated text categorization.ACM Computing Surveys，2002，34(1)：1-47
2Y. Yang. An evaluation of statistical approaches to text categorization. Journal of Information Retrieval，1999，1(1/2): 67-88
3庞剑锋等.基于向量空间模型的文本自动分类系统的研究与实现.计算机应用研究, 2001,18(9):23-26
4陈克利.基于大规模真实文本的平衡语料分析与文本分类方法.Advances in Computation of Oriental Languages.北京:清华大学出版社,2003. 540-545
5施彤年，卢忠良.多类多标签汉语文本自动分类的研究.情报学报，2003，22（3）：306-309
6张宇，刘挺，文勖.基于改进贝叶斯模型的问题分类.中文信息学报，2005，19（2）：100-105

[1]	陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2]	周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3]	余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究^*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[4]	王艳, 王胡燕, 余本功. 基于多特征融合的中文文本分类研究^*[J]. 数据分析与知识发现, 2021, 5(10): 1-14.
[5]	唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 ^*[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[6]	王思迪,胡广伟,杨巳煜,施云. 基于文本分类的政府网站信箱自动转递方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 51-59.
[7]	徐月梅,刘韫文,蔡连侨. 基于深度融合特征的政务微博转发规模预测模型^*[J]. 数据分析与知识发现, 2020, 4(2/3): 18-28.
[8]	徐彤彤,孙华志,马春梅,姜丽芬,刘逸琛. 基于双向长效注意力特征表达的少样本文本分类模型研究^*[J]. 数据分析与知识发现, 2020, 4(10): 113-123.
[9]	余本功,曹雨蒙,陈杨楠,杨颖. 基于nLD-SVM-RF的短文本分类研究*[J]. 数据分析与知识发现, 2020, 4(1): 111-120.
[10]	聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 ^*[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[11]	邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 ^*[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
[12]	秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 ^*[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[13]	陈果,许天祥. 基于主动学习的科技论文句子功能识别研究 ^*[J]. 数据分析与知识发现, 2019, 3(8): 53-61.
[14]	余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类^*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
[15]	谭章禄,王兆刚,胡翰. 一种基于χ²统计的特征分类选择方法研究^*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.

Viewed

Full text

Abstract

Cited

Shared

Discussed