Please wait a minute...
Advanced Search
现代图书情报技术  2011, Vol. 27 Issue (6): 20-26    DOI: 10.11925/infotech.1003-3513.2011.06.04
  DLIB & OSS 2011论文选登 本期目录 | 过刊浏览 | 高级检索 |
人才网页自动识别系统研究
徐健1, 温浩胜2
1. 中山大学资讯管理学院 广州 510006;
2. 深圳市迅雷网络技术有限公司 深圳 518057
Study on Talents Description Web Page Automatic Recognition System
Xu Jian1, Wen Haosheng2
1. School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China;
2. Shenzhen Thunder Network Technology Company Ltd., Shenzhen 518057, China
全文: PDF(693 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 提出人才网页自动识别系统设计,实现对Nutch定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的URL特征、网页Title标签特征、链接文字特征以及网页文本内容特征,使用人名词表、正面特征词表、负面特征词表对各项识别特征进行匹配以计算特征值,借助开源软件LibSVM实现基于多特征值的人才网页自动识别。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
徐健
温浩胜
关键词 LibSVM人才网页自动分类分类特征提取    
Abstract:The paper brings forward a talents description Web page automatic recognition system, realizes automatic recognition methods of university talents description Web pages which are crawled by Nutch crawl system. During the automatic recognition process, features of Web page URL, title label content, anchor text content and Web page content are used.The value of those features are computed based on matching of name list, positive feature word list and negative feature word list. Based on multiple feature values, the system uses LibSVM to realize talents description Web page automatic recognition.
Key wordsLibSVM    Talents description Web page    Automatic classification    Classification feature extraction
收稿日期: 2011-05-09     
: 

G250

 
基金资助:

本文系中国科学院资助项目“科技机构自动监测服务系统”的研究成果之一。

引用本文:   
徐健, 温浩胜. 人才网页自动识别系统研究[J]. 现代图书情报技术, 2011, 27(6): 20-26.
Xu Jian, Wen Haosheng. Study on Talents Description Web Page Automatic Recognition System. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2011.06.04.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2011.06.04
[1] Eickhoff C, Serdyukov P, De Vries A P. Web Page Classification on Child Suitability[C]. In:Proceedings of the 19th ACM International Conference on Information and Knowledge Management. New York, NY, USA:ACM, 2010:1425-1428.

[2] Large A, Beheshti J, Rahman T. Design Criteria for Children's Web Portals: The Users Speak Out[J]. Journal of the American Society for Information Science and Technology, 2002, 53(2): 79-94.

[3] Hung B Q, Otsubo M, Hijikata Y, et al. Extraction of Semantic Text Portion Related to Anchor Link[J]. IEICE Transactions on Information and Systems, 2006,89(6):1834-1847.

[4] 吴思竹, 张智雄, 李峰. 科研机构动态监测的网络资源重要性排序方法研究[J]. 情报理论与实践, 2011,34(3):49-53.

[5] Wen H, Fang L, Guan L. Automatic Web Page Classification Using Various Features[C]. In:Proceedings of the 9th Pacific Rim Conference on Multimedia.Springer Verlag, 2008:368-376.

[6] Ozel S A. A Web Page Classification System Based on a Genetic Algorithm Using Tagged-terms as Features[J]. Expert Systems with Applications, 2011, 38(4):3407-3415.

[7] 许世明,武波,马翠,等. 一种基于预分类的高效SVM中文网页分类器[J]. 计算机工程与应用, 2010, 46(1):125-128.

[8] Nutch [EB/OL].[2011-05-08]. http://wiki.apache.org/nutch/.

[9] Introduction Heritrix[EB/OL].[2011-05-08]. http://crawler.archive.org/.

[10] Web-Harvest [EB/OL].[2011-05-08]. http://web-harvest.sourceforge.net/.

[11] MySVM[EB/OL].[2011-05-08]. http://www.dmresearch.net/html/content/classfication-algorithm/1000000928.php.

[12] SVM-Light Support Vector Machine [EB/OL].[2011-05-08]. http://www.360doc.com/showWeb/0/0/117221.aspx.

[13] LibSVM [EB/OL].[2011-05-08]. http://www.csie.ntu.edu.tw/~cjlin/.

[14] Top Universities by Reputation 2011[EB/OL].[2011-05-08]. http://www.timeshighereducation.co.uk/world-university-rankings/2010-2011/reputation-rankings.html.

[15] Precision and Recall[EB/OL].[2011-05-08]. http://en.wikipedia.org/wiki/Precision_and_recall.
[1] 李湘东,高凡,李悠海. 共通语义空间下的跨文献类型文本自动分类研究*[J]. 数据分析与知识发现, 2018, 2(9): 66-73.
[2] 邓三鸿,傅余洋子,王昊. 基于LSTM模型的中文图书多标签分类研究*[J]. 数据分析与知识发现, 2017, 1(7): 52-60.
[3] 李湘东,巴志超,高凡. 数字文本自动分类中特征语义关联及加权策略研究综述与展望*[J]. 现代图书情报技术, 2016, 32(9): 17-26.
[4] 何琳, 万健, 何娟, 郭诗云. 基于社会标签的中文图书自动分类研究[J]. 现代图书情报技术, 2014, 30(9): 1-7.
[5] 王昊, 叶鹏, 邓三鸿. 机器学习在中文期刊论文自动分类研究中的应用[J]. 现代图书情报技术, 2014, 30(3): 80-87.
[6] 胡冰, 张建立. 基于统计分布的中文专利自动分类方法研究[J]. 现代图书情报技术, 2013, 29(7/8): 101-106.
[7] 杨贺, 杨奕虹, 李宁. 关键词-分类号关联词表构建[J]. 现代图书情报技术, 2013, 29(7/8): 107-113.
[8] 马芳. 基于RBFNN的专利自动分类研究[J]. 现代图书情报技术, 2011, 27(12): 58-63.
[9] 王梅文. 基于本体进行自动分类的元搜索引擎的设计与实现[J]. 现代图书情报技术, 2008, 24(9): 58-63.
[10] 郭少友. 基于词语上下文关系的文本自动分类方法研究[J]. 现代图书情报技术, 2008, 24(5): 44-49.
[11] 钱爱兵,江岚. 基于标题的中文新闻网页自动分类[J]. 现代图书情报技术, 2008, 24(10): 59-68.
[12] 乐庆玲. 基于协同机制的Tag资源自动分类研究[J]. 现代图书情报技术, 2007, 2(9): 58-61.
[13] 罗立群,张慰,陈金鑫. 基础教育黄页网站自动生成系统的设计与实现[J]. 现代图书情报技术, 2007, 2(8): 80-83.
[14] 栾芳芳. 多种载体信息资源的自动分类方法与实践[J]. 现代图书情报技术, 2007, 2(7): 83-87.
[15] 傅亮. 基于《军事信息资源分类法》标引经验的自动分类模式构想[J]. 现代图书情报技术, 2007, 2(11): 76-79.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn