Please wait a minute...
Advanced Search
现代图书情报技术  2007, Vol. 2 Issue (3): 43-45     https://doi.org/10.11925/infotech.1003-3513.2007.03.09
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
文本分类C#实现*
刘华
(暨南大学华文学院/海外华语研究中心 广州 510610)
A Text Categorization System with C#
Liu Hua
(College of Chinese Language and Culture/ Center for Overseas Huayu Research,Jinan University, Guangzhou 510610, China)
全文: PDF (419 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

设计并实现一个基于向量空间模型和简单贝叶斯的文本分类系统,系统采用层级多标签的分类策略。详细介绍词语切分统计、终分类器值计算、层级小类校正和兼类判断四个子系统模块。基于向量空间模型分类的第一级大类和层级小类的微平均分别为89.7%和77.8%,简单贝叶斯分别为67.6%和66.5%。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
刘华
关键词 文本分类向量空间模型简单贝叶斯    
Abstract

Based on Vector Space Model(VSM) and Nave-Bayes(NB), completed a multilayer and multi-classification text categorization system. Introduce detailedly four modules: words’ segmentation and frequency statistics, calculating between classifications’ and document, emendating the veracity of parent-class by emendation of subclass, judging whether document has multi-classification and multi-label. Text representation based on Vector Space Model has 89.7% MicroF1 of parent- category, 77.8% of sub- category; text representation based on Nave-Bayes has 67.6% MicroF1 of parent- category, 66.5% of sub- category.

Key wordsText categorization    Vector space model    Na&ive-Bayes
收稿日期: 2007-01-27      出版日期: 2007-03-25
: 

TP93

 
基金资助:

* 本文系教育部“国家语言资源监测”项目(项目编号:L2004-01-01-04)的研究成果之一。

通讯作者: 刘华      E-mail: liuhua0461@sina.com
作者简介: 刘华
引用本文:   
刘华 . 文本分类C#实现*[J]. 现代图书情报技术, 2007, 2(3): 43-45.
Liu Hua . A Text Categorization System with C#. New Technology of Library and Information Service, 2007, 2(3): 43-45.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.03.09      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I3/43

1Fabrizio Sebastiani. Machine Learning in Automated Text Categorization.ACM Computing Surveys,2002,34(1):1-47
2骆昌日,张新华,何婷婷,骆世广.基于DCM的中文文本分类.计算机工程与应用, 2006,42(34):157-159
3陈克利.基于大规模真实文本的平衡语料分析与文本分类方法.Advances in Computation of Oriental Languages.北京:清华大学出版社,2003. 540-545
4施彤年,卢忠良.多类多标签汉语文本自动分类的研究.情报学报,2003,22(3):306-309
5罗远胜,王明文,曾雪强.基于核方法的潜在语义文本分类模型.清华大学学报(自然科学版),2005,45(9):1853-1856

[1] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[4] 王艳, 王胡燕, 余本功. 基于多特征融合的中文文本分类研究*[J]. 数据分析与知识发现, 2021, 5(10): 1-14.
[5] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[6] 王思迪,胡广伟,杨巳煜,施云. 基于文本分类的政府网站信箱自动转递方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 51-59.
[7] 徐月梅,刘韫文,蔡连侨. 基于深度融合特征的政务微博转发规模预测模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 18-28.
[8] 徐彤彤,孙华志,马春梅,姜丽芬,刘逸琛. 基于双向长效注意力特征表达的少样本文本分类模型研究*[J]. 数据分析与知识发现, 2020, 4(10): 113-123.
[9] 余本功,曹雨蒙,陈杨楠,杨颖. 基于nLD-SVM-RF的短文本分类研究*[J]. 数据分析与知识发现, 2020, 4(1): 111-120.
[10] 聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 *[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[11] 邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
[12] 秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 *[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[13] 陈果,许天祥. 基于主动学习的科技论文句子功能识别研究 *[J]. 数据分析与知识发现, 2019, 3(8): 53-61.
[14] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
[15] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn