Please wait a minute...
Advanced Search
现代图书情报技术  2006, Vol. 1 Issue (12): 81-84     https://doi.org/10.11925/infotech.1003-3513.2006.12.20
  工作交流 本期目录 | 过刊浏览 | 高级检索 |
Web中文文本聚类研究及实现*
杨学明
(宁波大学网络中心 宁波 315211)
Research and Inplementation of Chinese Web-text Clustering
Yang Xueming
(Network Center, Ningbo University, Ningbo 315211, China)
全文:
输出: BibTeX | EndNote (RIS)      
摘要 

采用Web文本自动聚类技术,提出一种将HAC(Hierarchical Agglomerative Clustering)聚类算法与K-Means聚类算法相结合的两阶段文本聚类框架,并通过实验对该框架进行评估。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
杨学明
关键词 文本自动聚类信息检索HACK-Means    
Abstract

The text automatic clustering has been put forward and studied in application. This paper proposes a text clustering framework by coalescent the HAC and K-Means clustering algorithm, and evaluates this framework in an experiment.

Key wordsText automatic cluster    Information retrieval    HAC    K-Means
收稿日期: 2006-09-14      出版日期: 2006-12-25
: 

TP18

 
基金资助:

* 本文系浙江省自然科学基金项目“基于本体的网络信息智能处理关键技术研究”(项目编号:Y105625)及宁波大学校科研基金项目“面向语义网的数字图书馆研究”(项目编号:XK0600083)的研究成果之一。

通讯作者: 杨学明     E-mail: yangxueming@nbu.edu.cn
作者简介: 杨学明
引用本文:   
杨学明 . Web中文文本聚类研究及实现*[J]. 现代图书情报技术, 2006, 1(12): 81-84.
Yang Xueming . Research and Inplementation of Chinese Web-text Clustering. New Technology of Library and Information Service, 2006, 1(12): 81-84.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2006.12.20      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2006/V1/I12/81

1吴斌等.一种基于群体智能的Web文当聚类算法.计算机研究与发展,2002,39(11):1429-1434
2Han J, Kamber M. Data Mining: Concepts and Techniques . Morgan Kaufmann Publishers,2001,14-22
3方开泰.实用多元统计分析.华东师范大学出版社,1986 ,43-55
4Yang Y, Pedersen J P. Feature selection in statistical learning of text categorization. In the 14th Int.Conf.on Machine Learning,1997.412-420
5代六玲 等.中文文本分类中特征抽取方法的比较研究.中文信息学报,2004,18(1):26-32
6陈宁等.基于模糊概念图的文档聚类及其在Web中的应用.软件学报,2002,13(8):1598-1605
7Schtze H, Silverstein C. Projections for Efficient Document Clustering, in ACM/SIGIR (1997), 74-81
8姜宁,史忠植.文档聚类中的贝叶斯后验模型选择方法.计算机研究与发展,2002,39(5):580-587
9Fazli C, Esen A. Ozkarahan. Concepts and Effectiveness of the Cover-Coefficient-Based Clustering Methodology for Text Database. ACM Transcations on Database Systems,1990,15(4):64-78
10Modha D, Spangler S. Feature weighting in kmeans clustering. Machine Learning, 2003,52(3):217-237

[1] 黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[2] 孟镇,王昊,虞为,邓三鸿,张宝隆. 基于特征融合的声乐分类研究*[J]. 数据分析与知识发现, 2021, 5(5): 59-70.
[3] 李跃艳,王昊,邓三鸿,王伟. 近十年信息检索领域的研究热点与演化趋势研究——基于SIGIR会议论文的分析[J]. 数据分析与知识发现, 2021, 5(4): 13-24.
[4] 黄名选,卢守东,徐辉. 基于加权关联模式挖掘与规则后件扩展的跨语言信息检索 *[J]. 数据分析与知识发现, 2019, 3(9): 77-87.
[5] 温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[6] 孙海霞, 王蕾, 吴英杰, 华薇娜, 李军莲. 科技文献数据库中机构名称匹配策略研究*[J]. 数据分析与知识发现, 2018, 2(8): 88-97.
[7] 刘洪伟, 高鸿铭, 陈丽, 詹明君, 梁周扬. 基于用户浏览行为的兴趣识别管理模型*[J]. 数据分析与知识发现, 2018, 2(2): 74-85.
[8] 贾晓婷, 王名扬, 曹宇. 结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究*[J]. 数据分析与知识发现, 2018, 2(2): 86-95.
[9] 刘明辉. 基于K-means聚类分析的民航系统恐怖主义风险评估*[J]. 数据分析与知识发现, 2018, 2(10): 21-26.
[10] 王雪颖, 张紫玄, 王昊, 邓三鸿. 中国农产品品牌评价研究的内容解析*[J]. 数据分析与知识发现, 2017, 1(7): 13-21.
[11] 杨超凡, 邓仲华, 彭鑫, 刘斌. 近5年信息检索的研究热点与发展趋势综述*——基于相关会议论文的分析[J]. 数据分析与知识发现, 2017, 1(7): 35-43.
[12] 官琴, 邓三鸿, 王昊. 中文文本聚类常用停用词表对比研究*[J]. 数据分析与知识发现, 2017, 1(3): 72-80.
[13] 方小飞, 黄孝喜, 王荣波, 谌志群, 王小华. 基于LDA模型的移动投诉文本热点话题识别*[J]. 数据分析与知识发现, 2017, 1(2): 19-27.
[14] 刘睿伦, 叶文豪, 高瑞卿, 唐梦嘉, 王东波. 基于大数据岗位需求的文本聚类研究*[J]. 数据分析与知识发现, 2017, 1(12): 32-40.
[15] 张晓娟, 韩毅. 时态信息检索研究综述*[J]. 数据分析与知识发现, 2017, 1(1): 3-15.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn