Please wait a minute...
Advanced Search
现代图书情报技术  2004, Vol. 20 Issue (10): 51-54     https://doi.org/10.11925/infotech.1003-3513.2004.10.10
  信息检索技术 本期目录 | 过刊浏览 | 高级检索 |
Web主题信息采集中信息主题的识别
邵晓良   刘红
(解放军第二军医大学网络信息中心  上海 200433)
Indentifying the Topic of Web Information in Web Information Gathering
Shao Xiaoliang   Liu Hong
(The Network Center of Second Military Medical University, Shanghai 200433, China)
全文: PDF (0 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

主要介绍了我们设计的Web主题信息采集系统的一项核心工作——Web信息主题的识别,主题识别算法从构造专业性较强的主题词典着手,充分分析和考虑Web网页文本的特点,从而大大提高了主题信息采集的效率和精度,该算法同样适用于其他领域的主题信息识别。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 Web主题信息主题识别信息采集    
Abstract

This paper introduces primarily a core work of Web topic information gathering system that we designed——identifying the topic of Web information, the algorithm begins from structuring professional topic dictionary,
analyses and considers well with the characteristics of Web page text, It increases consumedly the efficiency and accuracy of the system,this algorithm will be applicable to the other topic fields.

Key wordsWeb    Topic Infomation    Topic-Indentified    Information gather
收稿日期: 2004-04-16      出版日期: 2004-10-25
ZTFLH: 

G354.4

 
通讯作者: 邵晓良     E-mail: xlshao@smmu.edu.cn
作者简介: 邵晓良,刘红
引用本文:   
邵晓良,刘红. Web主题信息采集中信息主题的识别[J]. 现代图书情报技术, 2004, 20(10): 51-54.
Shao Xiaoliang,Liu Hong. Indentifying the Topic of Web Information in Web Information Gathering. New Technology of Library and Information Service, 2004, 20(10): 51-54.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2004.10.10      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2004/V20/I10/51

1  Andrew McCallum and Kamal Nigam: A comparison of event models for naive bayes text categorization, AAAI-98 Workshop on “Learning for Text Categorization”,1998
2  庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现.计算机应用研究,2001(9)
3  李勇,桑艳艳.网络文本数据分类技术与实现算法.情报学报,2002(1)
4  尹锋.汉语自动分词研究的现状与新思维.现代图书情报技术,1998(4)
5  梅伯平.网络信息组织的分类主题一体化研究.情报科学,2003(4)
6  冯书晓,徐新,杨春梅.国内中文分词技术研究新进展.情报杂志,2002(11)
7  牛忠兰,陈跃新,徐正同,潘鲁军.网络文本自动分类系统的研究与设计.微处理机,2001(2)
8  刁倩,王永成,张惠惠,何骥.文本自动分类中的词权重与分类算法.中文信息学报,2000(3)

[1] 丁晟春,俞沣洋,李真. 网络舆情潜在热点主题识别研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 29-38.
[2] 刘博文,白如江,周彦廷,王效岳. 基金项目数据和论文数据融合视角下科学研究前沿主题识别 *——以碳纳米管领域为例[J]. 数据分析与知识发现, 2019, 3(8): 114-122.
[3] 李真, 丁晟春, 王楠. 网络舆情观点主题识别研究*[J]. 数据分析与知识发现, 2017, 1(8): 18-30.
[4] 王思丽, 刘巍, 祝忠明, 吴志强, 王金平. 基于CSpace的科技信息可配置化自动监测功能设计与实现*[J]. 数据分析与知识发现, 2017, 1(10): 85-93.
[5] 吴志强, 祝忠明, 刘巍, 张旺强, 姚晓娜. 机构知识库三维模型检索与展示技术研究与实践*[J]. 数据分析与知识发现, 2017, 1(1): 73-80.
[6] 吴小兰,章成志. 基于菜谱与微博用户评论的饮食社区挖掘研究*[J]. 现代图书情报技术, 2016, 32(6): 54-62.
[7] 谢琪,崔梦天. 基于相似性群体的混合型Web服务推荐*[J]. 现代图书情报技术, 2016, 32(6): 80-87.
[8] 李慧,胡云凤. 基于主题模型的Web服务聚类与发现机制*[J]. 现代图书情报技术, 2016, 32(5): 30-37.
[9] 潘竹虹,萧德洪. 一种支持双栈及高速网络的数字资源利用分析系统数据过滤方法[J]. 现代图书情报技术, 2016, 32(3): 90-96.
[10] 于倩倩,张建勇. NSTL集成利用第三方来源元数据的实践与探索*[J]. 现代图书情报技术, 2016, 32(1): 97-102.
[11] 许德山, 李辉, 张运良. 文献关键词链接标引方法研究[J]. 现代图书情报技术, 2015, 31(9): 31-37.
[12] 陈诗琴, 李文江. WebSocket在图书馆移动信息服务中的应用[J]. 现代图书情报技术, 2015, 31(9): 90-96.
[13] 夏立新, 蔡昕, 石义金, 孙丹霞, 王忠义. Web生活服务信息的组织与可视化研究[J]. 现代图书情报技术, 2014, 30(4): 85-91.
[14] 柯青, 王秀峰. Web导航模型综述——信息觅食理论视角[J]. 现代图书情报技术, 2014, 30(2): 32-40.
[15] 武海东, 何晓阳, 张精理. 医学学术信息自动采集系统的设计与实现[J]. 现代图书情报技术, 2014, 30(11): 73-78.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn