Web中文文本聚类研究及实现*

doi:10.11925/infotech.1003-3513.2006.12.20

现代图书情报技术

2006, Vol. 1

Issue (12): 81-84 https://doi.org/10.11925/infotech.1003-3513.2006.12.20

工作交流

本期目录 | 过刊浏览 | 高级检索

Web中文文本聚类研究及实现*

杨学明

（宁波大学网络中心宁波 315211）

Research and Inplementation of Chinese Web-text Clustering

Yang Xueming

(Network Center, Ningbo University, Ningbo 315211, China)

摘要
参考文献
相关文章
Metrics

全文:
输出: BibTeX | EndNote (RIS)

摘要

采用Web文本自动聚类技术，提出一种将HAC（Hierarchical Agglomerative Clustering）聚类算法与K-Means聚类算法相结合的两阶段文本聚类框架，并通过实验对该框架进行评估。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章
	杨学明

关键词 ：文本自动聚类, 信息检索, HAC, K-Means

Abstract：

The text automatic clustering has been put forward and studied in application. This paper proposes a text clustering framework by coalescent the HAC and K-Means clustering algorithm, and evaluates this framework in an experiment.

Key words： Text automatic cluster Information retrieval HAC K-Means

收稿日期: 2006-09-14 出版日期: 2006-12-25

TP18

基金资助:

* 本文系浙江省自然科学基金项目“基于本体的网络信息智能处理关键技术研究”(项目编号：Y105625)及宁波大学校科研基金项目“面向语义网的数字图书馆研究”(项目编号：XK0600083)的研究成果之一。

通讯作者: 杨学明 E-mail: yangxueming@nbu.edu.cn

作者简介: 杨学明

引用本文:

杨学明 . Web中文文本聚类研究及实现*[J]. 现代图书情报技术, 2006, 1(12): 81-84.
Yang Xueming . Research and Inplementation of Chinese Web-text Clustering. New Technology of Library and Information Service, 2006, 1(12): 81-84.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2006.12.20 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2006/V1/I12/81

1吴斌等.一种基于群体智能的Web文当聚类算法.计算机研究与发展,2002,39(11):1429-1434
2Han J， Kamber M. Data Mining: Concepts and Techniques . Morgan Kaufmann Publishers,2001，14-22
3方开泰.实用多元统计分析.华东师范大学出版社,1986 ,43-55
4Yang Y， Pedersen J P. Feature selection in statistical learning of text categorization. In the 14th Int.Conf.on Machine Learning，1997.412-420
5代六玲等.中文文本分类中特征抽取方法的比较研究.中文信息学报，2004，18(1):26-32
6陈宁等.基于模糊概念图的文档聚类及其在Web中的应用.软件学报,2002,13(8):1598-1605
7Schtze H， Silverstein C. Projections for Efficient Document Clustering, in ACM/SIGIR (1997), 74-81
8姜宁,史忠植.文档聚类中的贝叶斯后验模型选择方法.计算机研究与发展,2002,39(5):580-587
9Fazli C, Esen A. Ozkarahan. Concepts and Effectiveness of the Cover-Coefficient-Based Clustering Methodology for Text Database. ACM Transcations on Database Systems,1990,15(4):64-78
10Modha D， Spangler S. Feature weighting in kmeans clustering. Machine Learning, 2003,52(3):217-237

[1]	黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展^*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[2]	孟镇,王昊,虞为,邓三鸿,张宝隆. 基于特征融合的声乐分类研究^*[J]. 数据分析与知识发现, 2021, 5(5): 59-70.
[3]	李跃艳,王昊,邓三鸿,王伟. 近十年信息检索领域的研究热点与演化趋势研究——基于SIGIR会议论文的分析[J]. 数据分析与知识发现, 2021, 5(4): 13-24.
[4]	黄名选,卢守东,徐辉. 基于加权关联模式挖掘与规则后件扩展的跨语言信息检索 ^*[J]. 数据分析与知识发现, 2019, 3(9): 77-87.
[5]	温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法^*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[6]	孙海霞, 王蕾, 吴英杰, 华薇娜, 李军莲. 科技文献数据库中机构名称匹配策略研究^*[J]. 数据分析与知识发现, 2018, 2(8): 88-97.
[7]	刘洪伟, 高鸿铭, 陈丽, 詹明君, 梁周扬. 基于用户浏览行为的兴趣识别管理模型^*[J]. 数据分析与知识发现, 2018, 2(2): 74-85.
[8]	贾晓婷, 王名扬, 曹宇. 结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究^*[J]. 数据分析与知识发现, 2018, 2(2): 86-95.
[9]	刘明辉. 基于K-means聚类分析的民航系统恐怖主义风险评估^*[J]. 数据分析与知识发现, 2018, 2(10): 21-26.
[10]	王雪颖, 张紫玄, 王昊, 邓三鸿. 中国农产品品牌评价研究的内容解析^*[J]. 数据分析与知识发现, 2017, 1(7): 13-21.
[11]	杨超凡, 邓仲华, 彭鑫, 刘斌. *近5年信息检索的研究热点与发展趋势综述^——基于相关会议论文的分析**[J]. 数据分析与知识发现, 2017, 1(7): 35-43.
[12]	官琴, 邓三鸿, 王昊. 中文文本聚类常用停用词表对比研究^*[J]. 数据分析与知识发现, 2017, 1(3): 72-80.
[13]	方小飞, 黄孝喜, 王荣波, 谌志群, 王小华. 基于LDA模型的移动投诉文本热点话题识别^*[J]. 数据分析与知识发现, 2017, 1(2): 19-27.
[14]	刘睿伦, 叶文豪, 高瑞卿, 唐梦嘉, 王东波. 基于大数据岗位需求的文本聚类研究^*[J]. 数据分析与知识发现, 2017, 1(12): 32-40.
[15]	张晓娟, 韩毅. 时态信息检索研究综述^*[J]. 数据分析与知识发现, 2017, 1(1): 3-15.

Viewed

Full text

Abstract

Cited

Shared

Discussed