Please wait a minute...
Advanced Search
现代图书情报技术  2011, Vol. 27 Issue (3): 73-79     https://doi.org/10.11925/infotech.1003-3513.2011.03.12
  应用实践 本期目录 | 过刊浏览 | 高级检索 |
混合多层分类和朴素贝叶斯模型的垂直搜索引擎分类器设计
张红斌, 曹义亲
华东交通大学软件学院 南昌 330013
A New Classifier Design in a Topic Search Engine by Combining Multi-layer Classifier with Naive Bayes Classification Model
Zhang Hongbin, Cao Yiqin
School of Software, East China Jiaotong University, Nanchang 330013, China
全文: PDF (697 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 研究Web上计算机教育资源的分布特点,融合主题词和文档形式,设计多层分类器来完成主题搜索过程中的正确分类,继而应用朴素贝叶斯模型对主题资源信息进行自动类别划分,完成资源的物理存储。实验中主题分类的平均正确率约78%,主题的平均召回率约61%,而资源解析的平均正确率约81.5%,测试结果能够验证本文设计思想的可行性。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
张红斌
曹义亲
关键词 多层分类器垂直搜索引擎计算机教育资源朴素贝叶斯    
Abstract:The paper firstly analyzes the distribution characteristics of computer education resources on Web, then it designs a multi-layer classifier to resolve the topic classification problem in topic crawling procedure by combining topic words and resources forms, and introduces how to make the precise classification fusion by Naive Bayes Classifier model and how the resources are stored correctly into the hard disk. Finally, experiment results show that the key design idea is feasible and many performances are acceptable, such as the avarage accuracy of the topic classification algorithm reaches to 78% as well as the avarage recall accuracy reaches to 61% and the avarage resources parsing accuracy reaches to 81.5%.
Key wordsMulti-layer classifier    Topic search engine    Computer education resources    Naive Bayes
收稿日期: 2011-01-17      出版日期: 2011-05-05
: 

TP393.08

 
基金资助:

本文系教育部人文社会科学研究规划项目“基于模式识别的金融时间序列挖掘技术研究”(项目编号:09YJA630036)和华东交通大学校立科研基金项目“基于SOA架构的垂直搜索引擎的研究与实现”(项目编号:08XX05)的研究成果之一。

引用本文:   
张红斌, 曹义亲. 混合多层分类和朴素贝叶斯模型的垂直搜索引擎分类器设计[J]. 现代图书情报技术, 2011, 27(3): 73-79.
Zhang Hongbin, Cao Yiqin. A New Classifier Design in a Topic Search Engine by Combining Multi-layer Classifier with Naive Bayes Classification Model. New Technology of Library and Information Service, 2011, 27(3): 73-79.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2011.03.12      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2011/V27/I3/73
[1] Li G, Zhang H. Design of a Distributed Spiders System Based on Web Service [C]. In: Proceedings of the 2nd Asia Conference on Web Mining and Web-based Application. Washington, DC, USA:IEEE Computer Society, 2009: 167-170.

[2] 李广丽. 基于网页内容评价和Web图的启发式垂直搜索策略的设计[J]. 情报理论与实践,2009,32(9):121-124.

[3] 刘奕群,马少平,洪涛,等. 搜索引擎技术基础[M]. 北京:清华大学出版社,2010.

[4] Zhang H, Liu J. Search Engine Design Based on Web Service and Lucene[C]. In: Proceedings of the 2009 WASE International Conference on Information Engineering. Washington, DC, USA:IEEE Computer Society, 2009:458-461.

[5] 李广丽.垂直搜索引擎的研究与设计[D].南昌:华东交通大学,2008.

[6] 百度文库-文档分享平台[EB/OL]. [2010-02-14]. http://wenku.baidu.com/.

[7] “IT计算机”-豆丁网[EB/OL]. [2010-02-14]. http://www.docin.com/l-10017-0-0-0-0-1.html.

[8] 朴素贝叶斯_百度百科[EB/OL]. [2010-11-16]. http://baike.baidu.com/view/992724.htm.

[9] 许鑫,黄仲清. 垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J].现代图书情报技术,2009(2):62-70.

[10] Heritrix开发文档[EB/OL].[2010-04-03]. http://crawler.archive.org/articles/developer_manual.html.

[11] Welcome to Apache Lucene[EB/OL]. [2010-02-14]. http://lucene.apache.org/.

[12] Apache POI-Text Extraction[EB/OL]. [2010-02-13]. http://poi.apache.org/text-extraction.html.

[13] 使用PDFBox处理PDF文档[EB/OL]. [2010-04-20]. http://www.cnblogs.com/ hejycpu/archive/2009/01/19/1378380.html.

[14] Lucene中文分词庖丁解牛2.0.0版本发布[EB/OL]. [2010-04-20]. http://java.ccidnet.com/art/12013/20070821/1185171_1.html.
[1] 李勇男. 贝叶斯理论在反恐情报分类分析中的应用研究*[J]. 数据分析与知识发现, 2018, 2(10): 9-14.
[2] 唐祥彬, 陆伟, 张晓娟, 黄诗豪. 查询专指度特征分析与自动识别[J]. 现代图书情报技术, 2015, 31(2): 15-23.
[3] 马宾, 殷立峰. 一种基于Hadoop平台的并行朴素贝叶斯网络舆情快速分类算法[J]. 现代图书情报技术, 2015, 31(2): 78-84.
[4] 段宇锋, 朱雯晶, 陈巧, 崔红. 朴素贝叶斯算法与Bootstrapping方法相结合的中文物种描述文本语义标注研究*[J]. 现代图书情报技术, 2014, 30(5): 83-89.
[5] 许鑫,黄仲清. 垂直搜索引擎应用中的若干策略探讨*——以12580餐饮垂直搜索为例[J]. 现代图书情报技术, 2009, 3(2): 62-70.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn