Please wait a minute...
Advanced Search
现代图书情报技术  2008, Vol. 24 Issue (5): 44-49     https://doi.org/10.11925/infotech.1003-3513.2008.05.08
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于词语上下文关系的文本自动分类方法研究
郭少友
(郑州大学信息管理系 郑州 450001)
Research on Automatic Classification Based on Term Context Relations
Guo Shaoyou
(Department of Information Management, Zhengzhou University, Zhengzhou 450001, China)
全文: PDF (455 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

用词上下文向量来表达文本集内一个词语与其他词语之间的上下文关系,并在词上下文向量的基础上生成分类器中所有类别的类别特征向量,以及待分类文本的特征向量,最后由分类器给出待分类文本的所属类别。实验显示,在类别特征向量和文本向量中融入词语上下文关系有助于改善文本分类效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
郭少友
关键词 文本自动分类上下文词上下文向量    
Abstract

 In this paper, a term context vector is used to represent the relation between a term and its context terms. Based on term context vectors, class feature vectors of a classifier, and the document vector of the document to be classified are generated, and then the document is classified. The experiment shows that adding term context relations into class feature vector and document vector can improve the classification effect.

Key wordsText automatic classification    Context    Term context vector
收稿日期: 2008-01-03      出版日期: 2008-05-25
ZTFLH: 

TP391.1

 
通讯作者: 郭少友     E-mail: gsy6@ha.edu.cn
作者简介: 郭少友
引用本文:   
郭少友. 基于词语上下文关系的文本自动分类方法研究[J]. 现代图书情报技术, 2008, 24(5): 44-49.
Guo Shaoyou. Research on Automatic Classification Based on Term Context Relations. New Technology of Library and Information Service, 2008, 24(5): 44-49.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2008.05.08      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2008/V24/I5/44

[1] Wang Y. Incorporating Semantic and Syntactic Information into Document Representation for Document Clustering[D]. Mississippi:Mississippi State University,2005.
[2] Billhardt H,  Borrajo D,  Maojo V. Using Term Co-occurrence Data for Document Indexing and Retrieval[C]. In:Proceedings of the BCSIRSG 22nd Annual Colloquium on Information Retrieval Research,  2000:105-117.
[3] 何中市,刘里. 基于上下文关系的文本分类特征描述方法[J]. 计算机科学,2007,34(5):183-186.
[4] 孙晓霞,郑玉明,廖湖声. 一种基于特征词句子环境的文本分类器[J]. 计算机应用研究,2007(2):116-119.
[5] 曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报:自然科学版, 2004,32(z1):99-102.
[6] 郭少友. 以文档为中心的上下文检索[D]. 北京:中国科学院研究生院,2007.
[7] Besancon R,  Rajman M, Chappelier J C. Textual Similarities Based on a Distributional Approach[C]. The Tenth International Workshop on Database and Expert Systems Applications.Florence,Italy,1999:180-184.
[8] Cai L J, Hofmann T. Text Categorization by Boosting Automatically Extracted Concepts [EB/OL].[2007-11-22].http://www.iro.umontreal.ca/~kegl/ift3390/2006_1/Lectures/l08_TextCategorizationCaiHofmann.pdf.
[9] 李荣陆. 文本分类系统SVMCLS 2.0[EB/OL]. [2007-11-22]. http://www.nlp.org.cn/docs/docredirect.php?doc-id=1023.

[1] 郑淞尹,谈国新,史中超. 基于分段用户群与时间上下文的旅游景点推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(5): 92-104.
[2] 李湘东, 高凡, 李悠海. 共通语义空间下的跨文献类型文本自动分类研究*[J]. 数据分析与知识发现, 2018, 2(9): 66-73.
[3] 侯君, 刘魁, 李千目. 基于ESSVM的分类推荐*[J]. 数据分析与知识发现, 2018, 2(3): 9-21.
[4] 徐健, 李纲, 毛进, 叶光辉. 文献被引片段特征分析与识别研究[J]. 数据分析与知识发现, 2017, 1(11): 37-45.
[5] 余凡, 楼雯. 领域概念的三层递进筛选方法研究[J]. 现代图书情报技术, 2015, 31(4): 26-33.
[6] 王昊, 叶鹏, 邓三鸿. 机器学习在中文期刊论文自动分类研究中的应用[J]. 现代图书情报技术, 2014, 30(3): 80-87.
[7] 李纲,寇广增,夏晨曦,全吉,张东赫. 中文词义消歧上下文最优边界问题研究*[J]. 现代图书情报技术, 2009, 25(7-8): 49-53.
[8] 康小丽,章成志,王惠临. 基于可比语料库的双语术语抽取研究述评*[J]. 现代图书情报技术, 2009, (10): 7-13.
[9] 吴笑凡,丁秋林,张磊,周良. 主题地图约束的合法性验证*[J]. 现代图书情报技术, 2006, 1(3): 36-41.
[10] 杭月芹,姚滢,沈洁 . 基于单文档的上下文查询信息抽取*[J]. 现代图书情报技术, 2006, 1(10): 30-33.
[11] 施洁斌. 基于支持向量机的文本自动分类试验研究[J]. 现代图书情报技术, 2004, 20(7): 27-29.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn