Please wait a minute...
Advanced Search
现代图书情报技术  2008, Vol. 24 Issue (10): 59-68     https://doi.org/10.11925/infotech.1003-3513.2008.10.12
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
基于标题的中文新闻网页自动分类
钱爱兵1  江岚2
1(南京中医药大学经贸管理学院 南京 210046)
2(南京大学信息管理系 南京 210093)
Automatic Classification Based on News Titles for Chinese News Web Pages
Qian Aibing1  Jiang Lan 2
1(School of Economy and Commercial Management, Nanjing University of Chinese Medicine, Nanjing 210046, China)
2(Department of Information Management, Nanjing University, Nanjing 210093, China)
全文: PDF (528 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

借鉴tf-idf加权思想,利用新闻标题来做中文新闻网页自动分类的依据,构建基于标题的中文新闻自动分类方法,并设计多个实验对各种基于标题的中文新闻网页自动分类方法进行评测。实验结果表明,基于标题对中文新闻网页进行自动分类,可以大大缩短判断处理时间,节省存储空间,且准确率较高,特别是改进的类目加权法分类效果最好。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
钱爱兵
江岚
关键词 词频/逆文档频率新闻标题中文新闻网页自动分类    
Abstract

This paper describes automatic Chinese news Web pages classification by using news title based on tf-idf weighting scheme, and constructs correlation degree of news title which determines appropriate category for each news Web page. The performance of this proposed method is evaluated in terms of top one score, top two score, and top three score. The experimental evaluation demonstrates that improved tf-idf weighting scheme with categories provides high accuracy with the classification of Chinese news Web pages.

Key wordstf-idf    News title    Chinese news Web pages    Automatic classification
收稿日期: 2008-07-02      出版日期: 2008-10-25
: 

TP391 

 
  G202

 
通讯作者: 钱爱兵     E-mail: happyfate2001@yahoo.com.cn
作者简介: 钱爱兵,江岚
引用本文:   
钱爱兵,江岚. 基于标题的中文新闻网页自动分类[J]. 现代图书情报技术, 2008, 24(10): 59-68.
Qian Aibing,Jiang Lan . Automatic Classification Based on News Titles for Chinese News Web Pages. New Technology of Library and Information Service, 2008, 24(10): 59-68.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2008.10.12      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2008/V24/I10/59

[1] Fuchun P, Schuurmans D, Shaojun W. Augmenting Naive Bayes Classifiers with Statistical Language Models [J]. Information Retrieval, 2004(7):317-345.
[2] 秦兵, 郑实福, 刘挺, 等. 可分性判据在中文网页分类中的应用[J]. 微处理机, 2002(1):26-28.
[3] Joachims T. Text Categoriztion with Support Vector Machine: Learning with Many Relevant Features [C]. In: Proceedings of the European Conference on Machine Learning (ECML-98), Chemnitz. Germany, 1998: 137-142.
[4] Joachims T. Learning to Classify Text Using Support Vector Machines: Methods, Theory and Algorithms [M]. Boston: Kluwer Academic Publishers, 2002:1-176.
[5] Rung-Ching C, Chung-Hsun H. Web Page Classification Based on a Support Vector Machine Using a Weighted Vote Schema[J]. Expert Systems with Applications, 2006, 31(2): 427-435.
[6] Yiming Y, Liu X. A Re-Examination of Text Categorization Methods[C]. In: Proceedings of the 22th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1999: 42-49.
[7] Jyh-Jong T, Wang Jing-Doo. Improving Automatic Chinese Text Categorization by Error Correction[C]. In: Proceedings of the 5th International Workshop Information Retrieval with Asian Languages, 2000: 1-8.
[8] 邓茜, 林红. 中文新闻信息自动分类标引的构想与实现[J]. 中国传媒科技, 2005(9):19-21.
[9] 侯汉清, 薛鹏军. 基于知识库的网页自动标引和自动分类系统的设计[J]. 大学图书馆学报, 2004, 1(9):50-55,64.
[10] 何琳, 侯汉清, 白振田, 等. 基于标引经验和机器学习相结合的多层自动分类[J]. 情报学报, 2006, 25(6):725-729.
[11] 姜远, 周志华. 基于词频分类器集成的文本分类方法[J]. 计算机研究与发展, 2006, 43(10):1681-1687.
[12] 搜狗实验室. 文本分类语料库[EB/OL]. [2008-07-20]. http://www.sogou.com/labs/dl/c.html.
[13] 北京大学网络实验室. 中文网页分类训练集[EB/OL]. [2008-07-20]. http://www.cwirf.org/2006WebTrack/YQ-CCT-2006-03.tgz.
[14] 中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会. GB/T 20093-2006 中文新闻信息分类与代码[S]. 北京: 中国标准出版社, 2006.
[15] 高惠璇. 应用多元统计分析[M]. 北京: 北京大学出版社, 2005:183-191.
[16] 吕震宇. SharpICTCLAS分词系统[EB/OL]. [2008-04-10]. http://www.cnblogs.com/zhenyulu/category/85598.html.
[17] 中国科学院计算技术研究所. 汉语词法分析系统ICTCLAS[EB/OL]. [2008-04-10]. http://www.i3s.ac.cn/index.htm.
[18] 詹卫东. 中文信息处理基础[EB/OL]. [2008-04-10]. http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/2002_2003_1.htm.
[19] Apache. Lucene [EB/OL]. [2008-04-10]. http://lucene.apache.org/.
[20] Apache incubator. Lucene .Net [EB/OL]. [2008-04-10]. http://incubator.apache.org/lucene.net/.
[21] Dell Z, Yisheng D. Semantic, Hierarchical, Online Clustering of Web Search Results[C]. In: Proceedings of  the 6th Asia Pacific Web Conference (APWEB),Hangzhou.2004: 69-78.

[1] 李娇,黄永文,罗婷婷,赵瑞雪,鲜国建. 基于多因子算法的自动分类研究*[J]. 数据分析与知识发现, 2020, 4(11): 43-51.
[2] 李湘东, 高凡, 李悠海. 共通语义空间下的跨文献类型文本自动分类研究*[J]. 数据分析与知识发现, 2018, 2(9): 66-73.
[3] 邓三鸿, 傅余洋子, 王昊. 基于LSTM模型的中文图书多标签分类研究*[J]. 数据分析与知识发现, 2017, 1(7): 52-60.
[4] 李湘东,巴志超,高凡. 数字文本自动分类中特征语义关联及加权策略研究综述与展望*[J]. 现代图书情报技术, 2016, 32(9): 17-26.
[5] 何琳, 万健, 何娟, 郭诗云. 基于社会标签的中文图书自动分类研究[J]. 现代图书情报技术, 2014, 30(9): 1-7.
[6] 王昊, 叶鹏, 邓三鸿. 机器学习在中文期刊论文自动分类研究中的应用[J]. 现代图书情报技术, 2014, 30(3): 80-87.
[7] 胡冰, 张建立. 基于统计分布的中文专利自动分类方法研究[J]. 现代图书情报技术, 2013, 29(7/8): 101-106.
[8] 杨贺, 杨奕虹, 李宁. 关键词-分类号关联词表构建[J]. 现代图书情报技术, 2013, 29(7/8): 107-113.
[9] 徐健, 温浩胜. 人才网页自动识别系统研究[J]. 现代图书情报技术, 2011, 27(6): 20-26.
[10] 马芳. 基于RBFNN的专利自动分类研究[J]. 现代图书情报技术, 2011, 27(12): 58-63.
[11] 王志超, 翁楠, 王宇. 基于主题句相似度的标题党新闻鉴别技术研究[J]. 现代图书情报技术, 2011, (11): 48-53.
[12] 王梅文. 基于本体进行自动分类的元搜索引擎的设计与实现[J]. 现代图书情报技术, 2008, 24(9): 58-63.
[13] 郭少友. 基于词语上下文关系的文本自动分类方法研究[J]. 现代图书情报技术, 2008, 24(5): 44-49.
[14] 乐庆玲. 基于协同机制的Tag资源自动分类研究[J]. 现代图书情报技术, 2007, 2(9): 58-61.
[15] 罗立群,张慰,陈金鑫. 基础教育黄页网站自动生成系统的设计与实现[J]. 现代图书情报技术, 2007, 2(8): 80-83.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn