Please wait a minute...
Advanced Search
现代图书情报技术  2007, Vol. 2 Issue (10): 80-84     https://doi.org/10.11925/infotech.1003-3513.2007.10.18
  应用实践 本期目录 | 过刊浏览 | 高级检索 |
基于潜在语义索引的特征选择与权重改进若干关键问题的研究与实现
李媛媛 马永强
(西南交通大学信息科学与技术学院 成都 610031)
Research and Implementation of Several Key Problems in Feature Choice and Weight Improvement Based on Latent Semantic Indexing
Li Yuanyuan   Ma Yongqiang
(School of Information Science & Technology,Southwest Jiaotong University ,Chengdu 610031,China)
全文: PDF (403 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

分析潜在语义索引的基本原理及其特点。针对LSI的3个因素,从特征词的选取,维数约简,特征词权重3个方面进行约定和改进。并以计算机类的科技文献作为测试文档,对改进的权重算法和改进前后LSI系统的检索结果进行分析。结果显示,特征词的选择结果及检索效果都得到较大的提高,性能稳定。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
马永强
李媛媛
关键词 潜在语义权重改进数据稀疏特征选择    
Abstract

The basic theory and its features about Latent Semantic Indexing(LSI) are analyzed.For the three factors of LSI, the word selection,dimension simplification, words weighting have been engaged and improved. Scientific and technical literatures from computing are used as testing documents, also the improved weight algorithm and the retrieval results about two LSI systems are analyzed. The experimental results show that the feature choice and retrieval results are superior improved and hard performance with the new weight algorithm.

Key wordsLatent semantic    Weighting improvement    Data sparse    Feature choice
收稿日期: 2007-08-08      出版日期: 2007-10-25
: 

TP391

 
通讯作者: 李媛媛     E-mail: liyuan4846@126.com
作者简介: 李媛媛,马永强
引用本文:   
李媛媛,马永强. 基于潜在语义索引的特征选择与权重改进若干关键问题的研究与实现[J]. 现代图书情报技术, 2007, 2(10): 80-84.
Li Yuanyuan,Ma Yongqiang. Research and Implementation of Several Key Problems in Feature Choice and Weight Improvement Based on Latent Semantic Indexing. New Technology of Library and Information Service, 2007, 2(10): 80-84.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.10.18      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I10/80

[1] Gao J, Zhang J. Clustered SVD Strategies in Latent Semantic Indexing[J]. Information Processing & Management, 2005, 41(3): 1051-1063.
[2] Zha H Y, Marques O, Simon H. A Subspace - based Model for Information Retrieval with Applications in Latent Semantic Indexing[R]. U. K. :CSE Tech Report CSE - 98 - 002 ,1998.
[3] Papadimitriou C H,  Raghavan P,  Tamaki H, et al. Latent Semantic Indexing :A Probabilistic Analysis[C]. In : Proceedings of PODS'98[C].Washington:Seattle,1998:159-168.
[4] 陈越, 郭力. 隐含语义检索及其应用[J]. 现代图书情报技术.2001 (6) : 27-29.
[5] 盖杰,王怡,武港山. 基于潜在语义分析的信息检索[J]. 计算机工程.2004, 30(6):58-60.
[6] 韩客松,王永成.一种用于主题提取的非线性加权方法[J].情报学报.2000,19(6):650-653.
[7] 郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程.2005,31(18):194-196.

[1] 梁家铭, 赵洁, 郑鹏, 黄流深, 叶敏祺, 董振宁. 特征选择下融合图像和文本分析的在线短租平台信任计算框架 *[J]. 数据分析与知识发现, 2021, 5(2): 129-140.
[2] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[3] 梁家铭,赵洁,Jianlong Zhou,董振宁. 用户隐式行为挖掘在抗信誉共谋中的应用研究*[J]. 数据分析与知识发现, 2019, 3(5): 125-138.
[4] 温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[5] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
[6] 毕崇武,叶光辉,李明倩,曾杰妍. 基于标签语义挖掘的城市画像感知研究 *[J]. 数据分析与知识发现, 2019, 3(12): 41-51.
[7] 贾君枝,叶壮壮. 基于潜在语义索引的Wikidata机构实体聚类研究 *[J]. 数据分析与知识发现, 2019, 3(10): 56-65.
[8] 温廷新, 李洋子, 孙静霜. 基于改进的果蝇优化算法的文本特征选择优化模型[J]. 数据分析与知识发现, 2018, 2(5): 59-69.
[9] 王永, 王永东, 郭慧芳, 周玉敏. 一种基于离散增量的项目相似性度量方法*[J]. 数据分析与知识发现, 2018, 2(5): 70-76.
[10] 操玮, 李灿, 贺婷婷, 朱卫东. 基于集成学习的中国P2P网络借贷信用风险预警模型的对比研究*[J]. 数据分析与知识发现, 2018, 2(10): 65-76.
[11] 李志鹏, 李卫忠. 基于可拓小生境量子粒子群算法的特征选择*[J]. 数据分析与知识发现, 2017, 1(7): 82-89.
[12] 田世海, 吕德丽. 改进潜在语义分析和支持向量机算法用于突发安全事件舆情预警*[J]. 数据分析与知识发现, 2017, 1(2): 11-18.
[13] 张越, 王东波, 朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[14] 李湘东, 阮涛, 刘康. 基于维基百科的多种类型文献自动分类研究*[J]. 数据分析与知识发现, 2017, 1(10): 43-52.
[15] 路永和, 陈景煌. 混合蛙跳算法在文本分类特征选择优化中的应用*[J]. 数据分析与知识发现, 2017, 1(1): 91-101.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn