Please wait a minute...
Advanced Search
现代图书情报技术  2008, Vol. 24 Issue (4): 29-34     https://doi.org/10.11925/infotech.1003-3513.2008.04.06
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
一种基于特征抽取的文档信息过滤算法研究
杨陟卓 韩燮
(中北大学电子与计算机科学技术学院 太原 030051)
An Algorithm of Text Information Filtering Based on Feature Extraction
Yang Zhizhuo  Han Xie
(School of Electronics and Computer Science and Technology, North University of China,Taiyuan 030051,China)
全文: PDF (522 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

针对传统TF-IDF在文本过滤时存在的缺点,提出一种基于特征词抽取的文本过滤算法。简要分析文档信息过滤原理和流程,重点讨论文档信息过滤算法设计及技术实现。实验结果表明,所提出的算法可有效对文档信息进行过滤,能够提高信息检索质量。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
杨陟卓
韩燮
关键词 信息检索信息过滤文本特征抽取TF-IDF    
Abstract

 In order to resolve the disadvantages of traditional TFIDF in text filtering, the authors propose a text information filtering algorithm based on feature extraction. This paper briefly analyses the text information filtering principles and processes, and then focuses on the design and realization of information filtering algorithm. Experimental results show that the new approach significantly outperforms the traditional information filtering method.

Key wordsInformation extraction    Information filtering    Text feature extraction    TF-IDF
收稿日期: 2007-11-19      出版日期: 2008-04-25
: 

TP391

 
通讯作者: 杨陟卓     E-mail: yangzhizhuo_662@163.com
作者简介: 杨陟卓,韩燮
引用本文:   
杨陟卓,韩燮. 一种基于特征抽取的文档信息过滤算法研究[J]. 现代图书情报技术, 2008, 24(4): 29-34.
Yang Zhizhuo,Han Xie. An Algorithm of Text Information Filtering Based on Feature Extraction. New Technology of Library and Information Service, 2008, 24(4): 29-34.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2008.04.06      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2008/V24/I4/29

[1] Wang H, Li S, Yu S, et al. A Combining Approach to Automatic Keyphrases Indexing for Chinese News Documents[C]. In: A. Gelbukh (Ed.)Computational Linguistics and Intelligent Text Processing (CICLing-2004), Lecture Notes in Computer Science,  Springer-Verlag, 2004,2945:435-438.
[2]  Li S, Wang H, Yu S, et al. News-Oriented Automatic Chinese Keyword Indexing[C]. In: Proceedings of the Second SIGHAN Workshop on Chinese Language Processing,  2003: 92-97.
[3] Stevens M E. Automatic Indexing: A StateoftheArt Report[R]. Washington, D.C:Government Printing Office, 1970.
[4]  Chien L F. PATTreeBased Keyword Extraction for Chinese Information Retrieval[C]. In:Proceedings of the ACM SIGIR International Conference on Information Retrieval, 1997:50-59.
[5] Turney P D.  Learning Algorithms for Keyphrase Extraction[J]. Information Retrieval, 2000,2(4):303-336.
[6] 王永成,顾晓明,王丽霞.中文文献主题的自动标引[J].情报学报,1998, 17(3): 212-217.
[7] 张玉叶,李连,刘海见,等.文本过滤中的特征抽取应用研究[J].海军航空工程学院学报, 2005,20(1):139-142.

[1] 黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[2] 孟镇,王昊,虞为,邓三鸿,张宝隆. 基于特征融合的声乐分类研究*[J]. 数据分析与知识发现, 2021, 5(5): 59-70.
[3] 李跃艳,王昊,邓三鸿,王伟. 近十年信息检索领域的研究热点与演化趋势研究——基于SIGIR会议论文的分析[J]. 数据分析与知识发现, 2021, 5(4): 13-24.
[4] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[5] 彭郴,吕学强,孙宁,张乐,姜肇财,宋黎. 基于CNN的消费品缺陷领域词典构建方法研究*[J]. 数据分析与知识发现, 2020, 4(11): 112-120.
[6] 黄名选,卢守东,徐辉. 基于加权关联模式挖掘与规则后件扩展的跨语言信息检索 *[J]. 数据分析与知识发现, 2019, 3(9): 77-87.
[7] 孙海霞, 王蕾, 吴英杰, 华薇娜, 李军莲. 科技文献数据库中机构名称匹配策略研究*[J]. 数据分析与知识发现, 2018, 2(8): 88-97.
[8] 殷聪, 张李义. 基于TF-IDF的情境后过滤推荐算法研究*——以餐饮业O2O为例[J]. 数据分析与知识发现, 2018, 2(11): 28-36.
[9] 李昌兵, 庞崇鹏, 李美平. 基于权重的Apriori算法在文本统计特征提取方法中的应用*[J]. 数据分析与知识发现, 2017, 1(9): 83-89.
[10] 杨超凡, 邓仲华, 彭鑫, 刘斌. 近5年信息检索的研究热点与发展趋势综述*——基于相关会议论文的分析[J]. 数据分析与知识发现, 2017, 1(7): 35-43.
[11] 何跃, 肖敏, 张月. 结合话题相关性的热点话题情感倾向研究*[J]. 数据分析与知识发现, 2017, 1(3): 46-53.
[12] 张晓娟, 韩毅. 时态信息检索研究综述*[J]. 数据分析与知识发现, 2017, 1(1): 3-15.
[13] 黄名选. 基于矩阵加权关联模式的印尼中跨语言信息检索模型*[J]. 数据分析与知识发现, 2017, 1(1): 26-36.
[14] 丁恒, 陆伟. 基于相关性的跨模态信息检索研究*[J]. 现代图书情报技术, 2016, 32(1): 17-23.
[15] 徐冬冬, 吴韶波. 一种基于类别描述的TF-IDF特征选择方法的改进[J]. 现代图书情报技术, 2015, 31(3): 39-48.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn