Please wait a minute...
Advanced Search
现代图书情报技术  2012, Vol. Issue (12): 39-44     https://doi.org/10.11925/infotech.1003-3513.2012.12.08
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
锐化高斯模板在文本特征项权重调整方法中的应用
路永和, 何新宇
中山大学资讯管理学院 广州 510006
An Application of Sharpen Gaussian Template in a Text Feature Weight Adjustment Methodology
Lu Yonghe, He Xinyu
School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China
全文: PDF (735 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 阐述二维高斯模板和锐化高斯模板的构建过程及其对图像的锐化处理技术,提出文本特征项权重调整方法的主要思想,并以此为依据,论述基于锐化高斯模板的文本特征项权重调整方法。以搜狗自然语言实验室的文本分类语料库中的新闻文档作为实验对象,采用宏平均F测度值作为分类效果评价标准,采用中心点法和K-最近邻方法(KNN)作为分类器的分类算法进行实验。实验结果表明:在KNN分类法下,基于锐化高斯模板的文本向量模型权重调整方法起到提升分类效果的作用,但对中心点法的影响并不大。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
路永和
何新宇
关键词 文本分类锐化高斯模板向量空间模型文本特征    
Abstract:This paper introduces Gaussian Template and Sharpen Gaussian Template in computer image processing technology and summarizes main ideas of text feature weight adjustment,then proposes a text feature weight adjustment methodology based on Sharpen Gaussian Template. With corpus of Sogou Lab Data, KNN classifier and Class-center classifier, this methodology is experimented by Macro-averaging F-measures. The experimental result shows that the KNN classifier with this methodology performs better than the traditional method. However,Class-center classifier with this methodology has no significant improvement.
Key wordsText categorization    Sharpen Gaussian template    Vector space model    Text feature
收稿日期: 2012-11-03      出版日期: 2013-03-12
:  TP391  
基金资助:本文系国家高技术研究发展计划(863计划)基金资助项目“农产品全供应链多源信息感知技术与产品开发——感知终端多通讯协议及汇聚节点研制”(项目编号:2012AA101701-03)的研究成果之一。
通讯作者: 路永和     E-mail: zsuluyonghe@163.com
引用本文:   
路永和, 何新宇. 锐化高斯模板在文本特征项权重调整方法中的应用[J]. 现代图书情报技术, 2012, (12): 39-44.
Lu Yonghe, He Xinyu. An Application of Sharpen Gaussian Template in a Text Feature Weight Adjustment Methodology. New Technology of Library and Information Service, 2012, (12): 39-44.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2012.12.08      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2012/V/I12/39
[1] How B C, Narayanan K. An Empirical Study of Feature Selection for Text Categorization Based on Term Weightage[C]. In: Proceedings of the 2004 IEEE /WIC/ACM International Conference on Web Intelligence (WI’04). Washington, DC: IEEE Computer Society, 2004:599-602.
[2] Deng Z H, Tang S W, Yang D Q, et al. A Comparative Study on Feature Weight in Text Categorization[C]. In: Proceedings of the 6th Asia-Pacific Web Conference (APWeb 2004), Hangzhou, China. Springer, 2004:588-597.
[3] 张保富,施化吉,马素琴.基于TF-IDF文本特征加权方法的改进研究[J]. 计算机应用与软件, 2011, 28(2):17-20.( Zhang Baofu, Shi Huaji, Ma Suqin. An Improved Text Feature Weighting Algorithm Based on TFIDF[J].Computer Applications and Software, 2011, 28(2):17-20.)
[4] 李原.中文文本分类中分词和特征选择方法研究[D]. 长春: 吉林大学, 2011. (Li Yuan. Research on Word Segmentation and Feature Selection of Chinese Text Classification [D]. Changchun: Jilin University, 2011.)
[5] 张瑜, 张德贤.一种改进的特征权重算法[J]. 计算机工程, 2011, 37(5): 210-212. (Zhang Yu, Zhang Dexian. Improved Feature Weight Algorithm[J]. Computer Engineering, 2011, 37(5): 210-212.)
[6] 罗欣, 夏德麟, 晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J]. 计算机应用, 2005, 25(9):2031-2033. (Luo Xin, Xia Delin, Yan Puliu. Improved Feature Selection Method and TF-IDF Formula Based on Word Frequency Differentia[J].Journal of Computer Applications, 2005, 25(9):2031-2033.)
[7] 吕佳.文本分类中基于方差的改进特征提取算法[J]. 计算机工程与设计, 2007, 28(24):6039-6041. (Lv Jia. Improved Feature Selection Algorithm Based on Variance in Text Categorization[J]. Computer Engineering and Design, 2007, 28(24):6039-6041.)
[8] 苏力华,朱章华,白文华. 基于向量空间模型的文本分类特征权重算法研究[J]. 电脑知识与技术, 2010, 6(33):9327-9329. (Su Lihua, Zhu Zhanghua, Bai Wenhua. Term Weighting Algorithm in Text Categorization Based on VSM[J]. Computer Knowledge and Technology, 2010, 6(33):9327-9329.)
[9] 石美红,毛江辉,梁颖,等. 一种强高斯噪声的图像滤波方法[J]. 计算机应用, 2007, 27(7): 1637-1640. (Shi Meihong, Mao Jianghui, Liang Ying, et al. Method for Filtering Image Contaminated with Strong Gaussian Noises[J]. Journal of Computer Applications, 2007, 27(7): 1637-1640.)
[10] 田原嫄.图像平滑算子对边缘检测精度的影响[J]. 计算机工程与应用, 2009, 45(32):161-202. (Tian Yuanyuan. Precision of Edge Detection Affected by Smoothing Operator of Image[J]. Computer Engineering and Applications, 2009, 45(32):161-202.)
[11] 图像锐化算法C + +实现[EB/OL]. [2012-11-25]. http://blog.csdn.net/hhygcy/article/details/4330939. (An Image Sharpening Algorithm Based on C + +[EB/OL]. [2012-11-25]. http://blog.csdn.net/hhygcy/article/details/4330939.)
[12] 张爱华,靖红芳,王斌,等.文本分类中特征权重因子的作用研究[J]. 中文信息学报, 2010, 24(3):97-104. (Zhang Aihua, Jing Hongfang, Wang Bin, et al. Research on Effects of Term Weighting Factors for Text Categorization[J]. Journal of Chinese Information Processing, 2010, 24(3):97-104.)
[13] 搜狗. 文本分类语料库[EB/OL]. [2012-11-25].http://www.sogou.com/labs/dl/c.html. (Sogou Lab. Text Classification Corpus [EB/OL]. [2012-11-25]. http://www.sogou.com/labs/dl/c.html.)
[14] Turtle H R, Croft W B. A Comparison of Text Retrieval Models[J]. The Computer Journal, 1992, 35(3):279-290.
[1] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[4] 王艳, 王胡燕, 余本功. 基于多特征融合的中文文本分类研究*[J]. 数据分析与知识发现, 2021, 5(10): 1-14.
[5] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[6] 王思迪,胡广伟,杨巳煜,施云. 基于文本分类的政府网站信箱自动转递方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 51-59.
[7] 徐月梅,刘韫文,蔡连侨. 基于深度融合特征的政务微博转发规模预测模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 18-28.
[8] 徐彤彤,孙华志,马春梅,姜丽芬,刘逸琛. 基于双向长效注意力特征表达的少样本文本分类模型研究*[J]. 数据分析与知识发现, 2020, 4(10): 113-123.
[9] 余本功,曹雨蒙,陈杨楠,杨颖. 基于nLD-SVM-RF的短文本分类研究*[J]. 数据分析与知识发现, 2020, 4(1): 111-120.
[10] 黄漫宇,云琪,彭虎锋,窦雪萌. 基于主题挖掘的超额募资农产品众筹项目文本特征研究 *——以众筹网为例[J]. 数据分析与知识发现, 2019, 3(9): 124-134.
[11] 聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 *[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[12] 邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
[13] 秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 *[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[14] 陈果,许天祥. 基于主动学习的科技论文句子功能识别研究 *[J]. 数据分析与知识发现, 2019, 3(8): 53-61.
[15] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn