Please wait a minute...
Advanced Search
现代图书情报技术  2014, Vol. 30 Issue (9): 1-7    DOI: 10.11925/infotech.1003-3513.2014.09.01
  数字图书馆 本期目录 | 过刊浏览 | 高级检索 |
基于社会标签的中文图书自动分类研究
何琳1, 万健2, 何娟1, 郭诗云1
1. 南京农业大学信息科技学院 南京 210095;
2. 南京农业大学公共管理学院 南京 210095
Research on Automatic Classification of Chinese Books Based on Social Tagging
He Lin1, Wan Jian2, He Juan1, Guo Shiyun1
1. College of Information Science and Technology, Nanjing Agricultural University, Nanjing 210095, China;
2. College of Public Administration, Nanjing Agricultural University, Nanjing 210095, China
全文: PDF(547 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 通过对社会标签的规范控制,提高社会标签质量,提升其在文本自动分类中的能力。[方法] 提出一种“内核受控,外壳非控”的分类模型,通过建立“社会标签-主题词”概念空间,实现利用主题词对标签词的规范控制。[结果] 实验结果表明本文提出的基于社会标签的中文图书自动分类方法在综合考虑成本、效率和效果的前提下,具有较强的可行性。[局限] 数据获取数量有待进一步增加,同时“社会标签-主题词”概念空间中概念之间深层次语义关系的识别还有待完善。[结论] 为提高社会标签质量、提升其文本自动分类能力,提供一种可行方案。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
何琳
何娟
郭诗云
万健
关键词 社会标签中文图书概念空间关联映射自动分类    
Abstract

[Objective] The paper aims to improve the ability of automatic text classification of social tagging by controlling the relation and quality of social tagging. [Methods] A classification model called “core controlled, shell uncontrolled” is constructed based on the control of a concept space called Social tagging-Keyword in order to realize the regulation control of social tagging based on subject headings. [Results] The validity tests show that this new method has a better performance on the text classification based on social tagging in consideration of efficiency and the cost. [Limitations] The data used for concept space is not as much as possible due to the restriction of the Website. Also, the concept space is lack of deep semantic relations which would be richer in the future. [Conclusions] This study proposes a feasible solution for improving the quality of social tags and the capacity of automatic text classification.

Key wordsSocial tagging    Chinese books    Concept space    Dependence mapping    Automatic classification
收稿日期: 2014-04-01     
:  G250.73  
基金资助:

本文系江苏省社会科学基金项目“社会化网络资源的组织模式和管理策略研究”(项目编号:12TQC014)和江苏省高校“青蓝工程”的研究成果之一。

通讯作者: 何琳 E-mail:helin@njau.edu.cn     E-mail: helin@njau.edu.cn
作者简介: 作者贡献声明:何琳:提出研究思路,设计研究方案,修订论文;万健:提出研究思路,修改论文;何娟:采集、清洗和分析数据,起草论文;郭诗云:采集数据及数据测试。
引用本文:   
何琳, 万健, 何娟, 郭诗云. 基于社会标签的中文图书自动分类研究[J]. 现代图书情报技术, 2014, 30(9): 1-7.
He Lin, Wan Jian, He Juan, Guo Shiyun. Research on Automatic Classification of Chinese Books Based on Social Tagging. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2014.09.01.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2014.09.01

[1] 曹高辉, 焦玉英, 成全. 基于凝聚式层次聚类算法的标签聚类研究[J]. 现代图书情报技术, 2008(4): 23-28. (Cao Gaohui, Jiao Yuying, Cheng Quan. Research on Tag Cluster Based on Hierarchical Agglomerative Clustering Algorithm [J]. New Technology of Library and Information Service, 2008(4): 23-28.)
[2] Begelman G, Keller P, Smadja F. Automated Tag Clustering: Improving Search and Exploration in the Tag Space[OL]. [2012-12-16]. http://www.ra.ethz.ch/cdstore/www2006/www. rawsugar.com/www2006/20.pdf.
[3] Heymann P, Garcia-Molinay H. Collaborative Creation of Communal Hierarchical Taxonomies in Social Tagging Systems[OL]. [2012-12-16]. http://ilpubs.stanford.edu:8090/ 775/1/2006-10.pdf.
[4] Christiaens S. Metadata Mechanisms: From Ontology to Folksonomy and Back [A]//On the Move to Meaningful Internet Systems 2006: OTM 2006 Workshop [C]. Berlin: Springer, 2006(4277): 199-207.
[5] 易明, 王学东, 邓卫华. 基于社会网络分析的社会化标签网络分析与个性化信息服务研究[J]. 中国图书馆学报, 2010, 36(2): 107-114. (Yi Ming, Wang Xuedong, Deng Weihua. Social Tagging Network Analysis and Personalized Information Service Based on Social Network Analysis[J]. Journal of Library Science in China, 2010, 36(2): 107-114.)
[6] 李亚婷, 马费成. 基于标签共现的社会网络分析研究[J]. 情报杂志, 2012, 31(7): 103-109. (Li Yating, Ma Feicheng. Social Network Analysis Based on Tags Co-occurrence[J]. Journal of Intelligence, 2012, 31(7): 103-109.)
[7] 任家乐, 雷若寒, 姜晓. OPAC与“美味书签”相结合的学术资源导航系统构建探索[J]. 图书馆杂志, 2010, 29(6): 21-24, 20. (Ren Jiale, Lei Ruohan, Jiang Xiao. Integrating OPAC with Delicious: A New Guidance System for Academic Resources [J]. Library Journal, 2010, 29(6): 21-24, 20.)
[8] Quintarelli E, Resmini A, Rosati L. FaceTag: Integrating Bottom-up and Top-down Classification in a Social Tagging System [OL]. [2014-02-25]. https://asis.org/Bulletin/Jun-07/ QuintarelliEtc.pdf.
[9] Munk T B, Mork K. Folksonomy: The Power Law the Significance of the Least Effort [J]. Knowledge Organization, 2007, 34(1): 16-33.
[10] Berendt B, Hanser C. Tags are Not Metadata, but “Just More Content”- to Some People [EB/OL]. [2013-12-03]. http:// www.icwsm.org/papers/paper12.html.
[11] Sun A, Suryanto M A, Liu Y. Blog Classification Using Tags: An Empirical Study [C]. In: Proceedings of the 10th International Conference on Asian Digital Libraries. Berlin, Germany: Springer, 2007: 307-316.
[12] Razikin K, Goh D H L, Chua A Y K, et al. Can Social Tags Help You Find What You Want? [C]. In: Proceedings of the 12th European Conference on Digital Libraries (ECDL 2008). Berlin: Springer, 2008: 50-61.
[13] 丛鲁丽. 基于大众分类法的中文博客分类方法[J]. 情报杂志, 2009, 28(9): 50-52. (Cong Luli. Chinese Weblog Pages Classification Based on Folksonomy [J]. Journal of Intelligence, 2009, 28(9): 50-52.)
[14] 李劲, 张华, 吴浩雄, 等. 基于社会标注质量的文本分类模型框架[J]. 计算机应用, 2012, 32(5): 1335-1339. (Li Jin, Zhang Hua, Wu Haoxiong, et al. Text Classification Model Framework Based on Social Annotation Quality [J]. Journal of Computer Applications, 2012, 32(5): 1335-1339.)
[15] 马张华, 侯汉清. 文献分类法主题法导论[M]. 北京: 北京图书馆出版社, 1999: 153-155. (Ma Zhanghua, Hou Hanqing. Introduction to Literature Classification Act Themes [M]. Beijing: Beijing Library Press, 1999: 153-155.)
[16] Sahon G. Mathematics and Information Retrieval [J]. Journal of Documentation, 1979, 35(1): 1-29.

[1] 李湘东,高凡,李悠海. 共通语义空间下的跨文献类型文本自动分类研究*[J]. 数据分析与知识发现, 2018, 2(9): 66-73.
[2] 邓三鸿,傅余洋子,王昊. 基于LSTM模型的中文图书多标签分类研究*[J]. 数据分析与知识发现, 2017, 1(7): 52-60.
[3] 李湘东,巴志超,高凡. 数字文本自动分类中特征语义关联及加权策略研究综述与展望*[J]. 现代图书情报技术, 2016, 32(9): 17-26.
[4] 郭顺利,张向先. 面向中文图书评论的情感词典构建方法研究[J]. 现代图书情报技术, 2016, 32(2): 67-74.
[5] 王昊, 叶鹏, 邓三鸿. 机器学习在中文期刊论文自动分类研究中的应用[J]. 现代图书情报技术, 2014, 30(3): 80-87.
[6] 顾晓雪, 章成志. 结合内容和标签的Web文本聚类研究[J]. 现代图书情报技术, 2014, 30(11): 45-52.
[7] 何文静, 何琳. 基于社会标签的文本聚类研究[J]. 现代图书情报技术, 2013, 29(7/8): 49-54.
[8] 胡冰, 张建立. 基于统计分布的中文专利自动分类方法研究[J]. 现代图书情报技术, 2013, 29(7/8): 101-106.
[9] 杨贺, 杨奕虹, 李宁. 关键词-分类号关联词表构建[J]. 现代图书情报技术, 2013, 29(7/8): 107-113.
[10] 徐健, 温浩胜. 人才网页自动识别系统研究[J]. 现代图书情报技术, 2011, 27(6): 20-26.
[11] 马芳. 基于RBFNN的专利自动分类研究[J]. 现代图书情报技术, 2011, 27(12): 58-63.
[12] 李军莲, 李丹亚, 黄利辉, 孙海霞, 冀玉静, 王钤. 基于词共现的中文医学概念空间研究[J]. 现代图书情报技术, 2010, 26(11): 59-63.
[13] 王梅文. 基于本体进行自动分类的元搜索引擎的设计与实现[J]. 现代图书情报技术, 2008, 24(9): 58-63.
[14] 郭少友. 基于词语上下文关系的文本自动分类方法研究[J]. 现代图书情报技术, 2008, 24(5): 44-49.
[15] 钱爱兵,江岚. 基于标题的中文新闻网页自动分类[J]. 现代图书情报技术, 2008, 24(10): 59-68.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn