文本分类C#实现*

doi:10.11925/infotech.1003-3513.2007.03.09

现代图书情报技术

2007, Vol. 2

Issue (3): 43-45 https://doi.org/10.11925/infotech.1003-3513.2007.03.09

知识组织与知识管理

本期目录 | 过刊浏览 | 高级检索

文本分类C#实现*

刘华

（暨南大学华文学院/海外华语研究中心广州 510610）

A Text Categorization System with C#

Liu Hua

(College of Chinese Language and Culture/ Center for Overseas Huayu Research,Jinan University, Guangzhou 510610, China)

摘要
参考文献
相关文章
Metrics

全文: PDF (419 KB)
输出: BibTeX | EndNote (RIS)

摘要

设计并实现一个基于向量空间模型和简单贝叶斯的文本分类系统，系统采用层级多标签的分类策略。详细介绍词语切分统计、终分类器值计算、层级小类校正和兼类判断四个子系统模块。基于向量空间模型分类的第一级大类和层级小类的微平均分别为89.7%和77.8%，简单贝叶斯分别为67.6%和66.5%。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章
	刘华

关键词 ：文本分类, 向量空间模型, 简单贝叶斯

Abstract：

Based on Vector Space Model(VSM) and Nave-Bayes(NB), completed a multilayer and multi-classification text categorization system. Introduce detailedly four modules: words’ segmentation and frequency statistics, calculating between classifications’ and document, emendating the veracity of parent-class by emendation of subclass, judging whether document has multi-classification and multi-label. Text representation based on Vector Space Model has 89.7% MicroF1 of parent- category, 77.8% of sub- category; text representation based on Nave-Bayes has 67.6% MicroF1 of parent- category, 66.5% of sub- category.

Key words： Text categorization Vector space model Na&ive-Bayes

收稿日期: 2007-01-27 出版日期: 2007-03-25

TP93

基金资助:

* 本文系教育部“国家语言资源监测”项目（项目编号：L2004-01-01-04）的研究成果之一。

通讯作者: 刘华 E-mail: liuhua0461@sina.com

作者简介: 刘华

引用本文:

刘华 . 文本分类C#实现*[J]. 现代图书情报技术, 2007, 2(3): 43-45.
Liu Hua . A Text Categorization System with C#. New Technology of Library and Information Service, 2007, 2(3): 43-45.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.03.09 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I3/43

1Fabrizio Sebastiani. Machine Learning in Automated Text Categorization.ACM Computing Surveys，2002，34(1)：1-47
2骆昌日,张新华,何婷婷,骆世广.基于DCM的中文文本分类.计算机工程与应用, 2006,42(34)：157-159
3陈克利.基于大规模真实文本的平衡语料分析与文本分类方法.Advances in Computation of Oriental Languages.北京:清华大学出版社,2003. 540-545
4施彤年，卢忠良.多类多标签汉语文本自动分类的研究.情报学报，2003，22（3）：306-309
5罗远胜，王明文，曾雪强.基于核方法的潜在语义文本分类模型.清华大学学报（自然科学版），2005，45(9)：1853-1856

[1]	陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2]	周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3]	余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究^*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[4]	王艳, 王胡燕, 余本功. 基于多特征融合的中文文本分类研究^*[J]. 数据分析与知识发现, 2021, 5(10): 1-14.
[5]	唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 ^*[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[6]	王思迪,胡广伟,杨巳煜,施云. 基于文本分类的政府网站信箱自动转递方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 51-59.
[7]	徐月梅,刘韫文,蔡连侨. 基于深度融合特征的政务微博转发规模预测模型^*[J]. 数据分析与知识发现, 2020, 4(2/3): 18-28.
[8]	徐彤彤,孙华志,马春梅,姜丽芬,刘逸琛. 基于双向长效注意力特征表达的少样本文本分类模型研究^*[J]. 数据分析与知识发现, 2020, 4(10): 113-123.
[9]	余本功,曹雨蒙,陈杨楠,杨颖. 基于nLD-SVM-RF的短文本分类研究*[J]. 数据分析与知识发现, 2020, 4(1): 111-120.
[10]	聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 ^*[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[11]	邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 ^*[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
[12]	秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 ^*[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[13]	陈果,许天祥. 基于主动学习的科技论文句子功能识别研究 ^*[J]. 数据分析与知识发现, 2019, 3(8): 53-61.
[14]	余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类^*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
[15]	谭章禄,王兆刚,胡翰. 一种基于χ²统计的特征分类选择方法研究^*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.

Viewed

Full text

Abstract

Cited

Shared

Discussed