Please wait a minute...
Advanced Search
现代图书情报技术  2005, Vol. 21 Issue (5): 46-49     https://doi.org/10.11925/infotech.1003-3513.2005.05.11
  信息检索技术 本期目录 | 过刊浏览 | 高级检索 |
文本自动分类的测评研究进展
谭金波 李艺 杨晓江
(南京师范大学教育技术系 南京 210097)
Development of Text Automatic Categorization Measurement Research.
Tan Jinbo   Li Yi   Yang Xiaojiang
(Department of Educational Technology, Nanjing Normal University, Nanjing 210097, China)
全文: PDF (0 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

分类是文本挖掘的基础和核心,是近年来数据挖掘和网络挖掘的一个研究热点。本文从定性和定量两个方面,介绍国内外文本分类研究现状,分析影响文本分类的重要因素,希望通过对文本分类系统和算法的评测总结发现研究中存在的共同问题,为文本自动分类的优化、改进提供理论和事实依据。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 自动分类测评特征选择    
Abstract

Text categorization is the foundation and core of text-mining, which has been a research focus of data-mining and Internet-mining in recent years. This article introduces domestic and foreign research situation on text categorization from the view of the nature and quantity. It analyzes the important factors affecting text categorization, and hope to find the common problem by evaluating summary of text categorization system and arithmetic. The goal of the article is to provide theory and fact for the optimization and improvement of text automatic categorization.

Key wordsAutomatic categorization    Evaluate    Feature selection
收稿日期: 2004-12-03      出版日期: 2005-05-25
ZTFLH: 

G354.4

 
通讯作者: 谭金波     E-mail: yttjb@163.com
作者简介: 谭金波,李艺,杨晓江
引用本文:   
谭金波,李艺,杨晓江. 文本自动分类的测评研究进展[J]. 现代图书情报技术, 2005, 21(5): 46-49.
Tan Jinbo,Li Yi,Yang Xiaojiang. Development of Text Automatic Categorization Measurement Research.. New Technology of Library and Information Service, 2005, 21(5): 46-49.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2005.05.11      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2005/V21/I5/46

1Text retrieval conference. http://trec.nist.gov (Accessed Sep. 20,2004)
2庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现.计算机应用研究,2001(9):23-26
3李小明.北大中文网页自动分类竞赛规则.2003(3)
4黄勇.一个基于具有自学习机制的概念网络的搜索引擎的研究与核心算法的实现.中南工业大学硕士论文,2001(5)
5Yang Y, Pedersen J O. A comparative study on feature selection in text categorization. 1997.http://citeseer.ist.psu.edu/yang97comparative.html. (Accessed Sep. 10,2004)
6程军.基于统计的文本分类技术研究.中国科学院博士论文,2003(5)
7陆玉昌,鲁明羽,李凡等.向量空间法中单词权重函数的分析和构造.计算机研究与发展,2002(10):1205-1210
8张东礼,汪东升,郑纬民.基于VSM 的中文文本分类系统的设计与实现.清华大学学报(自然科学版),2003(9):1288-1291
9黄萱菁,吴立德,石崎洋之等.独立于语种的文本分类方法.中文信息学报,2000(6):1-7
10Franca Debole,Fabrizio Sebastiani. Supervised Term Weighting for Automated Text Categorization. 2003.http://citeseer.ist.psu.edu/
Automated Text Categorization. 2003.http://citeseer.ist.psu.edu/572661.html (Accessed Sep. 10,2004)
11鲁松,李晓黎,白硕等.文档中词语权重计算方法的改进.中文信息学报,2000(6):8-20
12景丽萍,黄厚宽,石洪波.用于文本挖掘的特征选择方法TFIDF及其改进.广西师范大学学报(自然科学版),2003(3):142-145
13Yiming Yang, Xin Liu. A re-examination of text categorization methods. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval,1999:42-49
14黄萱菁.大规模中文文本的检索、分类与摘要研究.复旦大学博士论文,1998(5)
15李蓉,叶世伟,史忠植.SVM-KNN分类器——一种提高SVM分类精度的新方法.电子学报,2002(5):745-748

[1] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[2] 梁家铭,赵洁,Jianlong Zhou,董振宁. 用户隐式行为挖掘在抗信誉共谋中的应用研究*[J]. 数据分析与知识发现, 2019, 3(5): 125-138.
[3] 温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[4] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
[5] 李湘东, 高凡, 李悠海. 共通语义空间下的跨文献类型文本自动分类研究*[J]. 数据分析与知识发现, 2018, 2(9): 66-73.
[6] 温廷新, 李洋子, 孙静霜. 基于改进的果蝇优化算法的文本特征选择优化模型[J]. 数据分析与知识发现, 2018, 2(5): 59-69.
[7] 操玮, 李灿, 贺婷婷, 朱卫东. 基于集成学习的中国P2P网络借贷信用风险预警模型的对比研究*[J]. 数据分析与知识发现, 2018, 2(10): 65-76.
[8] 邓三鸿, 傅余洋子, 王昊. 基于LSTM模型的中文图书多标签分类研究*[J]. 数据分析与知识发现, 2017, 1(7): 52-60.
[9] 李志鹏, 李卫忠. 基于可拓小生境量子粒子群算法的特征选择*[J]. 数据分析与知识发现, 2017, 1(7): 82-89.
[10] 张越, 王东波, 朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[11] 李湘东, 阮涛, 刘康. 基于维基百科的多种类型文献自动分类研究*[J]. 数据分析与知识发现, 2017, 1(10): 43-52.
[12] 路永和, 陈景煌. 混合蛙跳算法在文本分类特征选择优化中的应用*[J]. 数据分析与知识发现, 2017, 1(1): 91-101.
[13] 李湘东,巴志超,高凡. 数字文本自动分类中特征语义关联及加权策略研究综述与展望*[J]. 现代图书情报技术, 2016, 32(9): 17-26.
[14] 孟园,王洪伟. 基于文本内容特征选择的评论质量检测*[J]. 现代图书情报技术, 2016, 32(4): 40-47.
[15] 李湘东, 巴志超, 黄莉. 一种基于加权LDA模型和多粒度的文本特征选择方法[J]. 现代图书情报技术, 2015, 31(5): 42-49.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn