Please wait a minute...
Advanced Search
现代图书情报技术  2016, Vol. 32 Issue (3): 18-24     https://doi.org/10.11925/infotech.1003-3513.2016.03.03
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
微博用户标签与博文内容相关度研究*
朱玲,薛春香(),章成志,傅柱
南京理工大学经济管理学院 南京 210094
User Tags and Microblog Posts: Case Study of Sina Weibo
Zhu Ling,Xue Chunxiang(),Zhang Chengzhi,Fu Zhu
School of Economics and Management, Nanjing University of Science and Technology, Nanjing 210094, China
全文: PDF (516 KB)   HTML ( 72
输出: BibTeX | EndNote (RIS)      
摘要 

目的】探索微博用户标签与其发布微博主题之间的潜在关系, 为微博类应用平台的主题发现以及用户标签自动推荐服务提供参考。【方法】利用爬虫程序抓取“自然语言处理”领域新浪微博用户信息及微博, 对抓取的微博内容进行分词并对用户标签进行语义扩充, 运用编辑距离算法将标签集与用户的微博内容进行匹配。【结果】对匹配结果进行抽样分析, 发现新浪微博平台上, 学术领域微博用户标签和用户所发微博内容具有一定的相关度。【局限】仅对学术领域和新浪微博进行相关研究, 研究领域和应用平台有待进一步扩展。【结论】微博标签推荐系统可以将用户微博内容作为标签推荐的重要数据来源, 为用户提供更有针对性的个性化标签; 同时, 在对微博内容进行主题抽取和分析时, 可以借助微博用户标签优化分析结果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
薛春香
傅柱
朱玲
章成志
关键词 微博主题分析用户标签相关度度量主题标引用户建模    
Abstract

[Objective] This study aims to explore the relationship between the user tags and microblog post topics, with the purpose of improving subject identification and automatic tag recommendation services. [Methods] We first used crawlers to retrieve user profiles and posts in the field of “natural language processing” from the Sina Weibo. Second, extracted words from the posts and semantically extended user tags. Finally, matched the tags and posts by the edit distance algorithm. [Results] There was correlation between user tags and posts in natural language processing field. [Limitations] We only studied one academic field and the Sina Weibo, more research is needed in the future to generalize the results. [Conclusions] The tag recommendation system can use microblog posts as an important source to provide more personalized services, which in turn will improve the microblog content analysis.

Key wordsSubject analysis of posts    User tags    Correlation measure    Subject indexing    User modeling
收稿日期: 2015-09-14      出版日期: 2016-04-12
基金资助:*本文系国家自然科学基金项目“基于聚合的社会化短文本信息处理与细粒度倾向性分析”(项目编号:71503126)、国家社会科学基金项目“在线社交网络中基于用户的知识组织模式研究”(项目编号:14BTQ033)和江苏省社会科学基金项目“新媒体环境下报纸新闻信息资源开发利用研究”(项目编号:14TQB10)的研究成果之一
引用本文:   
朱玲,薛春香,章成志,傅柱. 微博用户标签与博文内容相关度研究*[J]. 现代图书情报技术, 2016, 32(3): 18-24.
Zhu Ling,Xue Chunxiang,Zhang Chengzhi,Fu Zhu. User Tags and Microblog Posts: Case Study of Sina Weibo. New Technology of Library and Information Service, 2016, 32(3): 18-24.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2016.03.03      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2016/V32/I3/18
[1] Al-Khalifa H S, Davis H C. Folksonomies Versus Automatic Keyword Extraction: An Empirical Study[J]. IADIS International Journal on Computer Science and Information Systems, 2006, 1(2): 132-143.
[2] Rolla P J.User Tags Versus Subject Headings[J]. Library Resources & Technical Services, 2011, 53(3): 174-184.
[3] Thomas M, Caudle D M, Schmitz C M.To Tag or not to Tag?[J]. Library Hi Tech, 2009, 27(3): 411-434.
[4] Lu C, Park J R, Hu X.User Tags Versus Expert-assigned Subject Terms: A Comparison of LibraryThing Tags and Library of Congress Subject Headings[J]. Journal of Information Science, 2010, 36(6): 763-779.
[5] 潘婵, 冯利飞, 丁婉莹, 等. 基于标签-关键词的用户行为分析[J]. 情报杂志, 2010, 29(3): 139-142.
[5] (Pan Chan, Feng Lifei, Ding Wanying.Tag and Keyword-Based Analysis of Users’ Behavior[J]. Journal of Intelligence, 2010, 29(3): 139-142.)
[6] Kipp M E I. Tagging of Biomedical Articles on CiteULike: A Comparison of User, Author and Professional Indexing[J]. Knowledge Organization, 2011, 38(3): 245-261.
[7] Lee D H, Schleyer T.Social Tagging is no Substitute for Controlled Indexing: A Comparison of Medical Subject Headings and CiteULike Tags Assigned to 231, 388 Papers[J]. Journal of the American Society for Information Science and Technology, 2012, 63(9): 1747-1757.
[8] 黄红霞, 章成志. 中文微博用户标签的调查分析——以新浪微博为例[J]. 现代图书情报技术, 2012(10): 49-54.
[8] (Huang Hongxia, Zhang Chengzhi.Investigation and Analysis of Chinese Microblog User Tags——Using Sina Weibo as Example[J]. New Technology of Library and Information Service, 2012(10): 49-54.)
[9] 章成志, 何陆琳, 丁培红. 不同领域的用户标签主题表达能力差异研究——以中文微博为例[J]. 情报理论与实践, 2013, 36(4): 68-71.
[9] (Zhang Chengzhi, He Lulin, Ding Peihong.Difference of Subject Expression Function of User Tags in Different Domains——Using Chinese Microblogging as Example[J]. Information Studies: Theory & Application, 2013, 36(4): 68-71.)
[10] 邢千里, 刘列, 刘奕群, 等. 微博中用户标签的研究[J]. 软件学报, 2015, 26(7): 1626-1637.
[10] (Xing Qianli, Liu Lie, Liu Yiqun, et al.Study on User Tags in Weibo[J]. Journal of Software, 2015, 26(7): 1626-1637.)
[11] Baeza-Yates R, Ribeiro-Neto B.Modern Information Retrieval [M]. New York: ACM Press, 1999.
[12] Kozima H, Furugori T.Similarity Between Words Computed by Spreading Activation on an English Dictionary [C]. In: Proceedings of the 6th Conference on European Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 1993: 232-239.
[13] 江敏, 肖诗斌, 王弘蔚, 等. 一种改进的基于《知网》的词语语义相似度计算[J]. 中文信息学报, 2008, 22(5): 84-89.
[13] (Jiang Min, Xiao Shibin, Wang Hongwei, et al.An Improved Word Similarity Computing Method Based on HowNet[J]. Journal of Chinese Information Processing, 2008, 22(5): 84-89.)
[14] Budanitsky A, Hirst G.Semantic Distance in WordNet: An Experimental, Application-oriented Evaluation of Five Measures [C]. In: Proceedings of the Workshop on WordNet and Other Lexical Resources, the 2nd Meeting of the North American Chapter of the Association for Computational Linguistics, Pittsburgh. 2001.
[15] Levenshtein V I.Binary Codes Capable of Correcting Deletions, Insertions, and Reversals[J]. Soviet Physics Doklady, 1966, 10(8): 707-710.
[1] 陆伟, 罗梦奇, 丁恒, 李信. 深度学习图像标注与用户标注比较研究*[J]. 数据分析与知识发现, 2018, 2(5): 1-10.
[2] 涂海丽, 唐晓波. 基于标签的商品推荐模型研究*[J]. 数据分析与知识发现, 2017, 1(9): 28-39.
[3] 汪强兵, 章成志. 融合内容与用户手势行为的用户画像构建系统设计与实现*[J]. 数据分析与知识发现, 2017, 1(2): 80-86.
[4] 郑炜, 梁战平, 梁建. 面向用户意图的智能搜索引擎框架研究[J]. 现代图书情报技术, 2014, 30(3): 65-72.
[5] 王丽, 张冬荣, 张晓辉, 杨小薇, 吴鸣. 利用主题自动标引生成技术功效矩阵[J]. 现代图书情报技术, 2013, (5): 80-86.
[6] 滕广青, 毕达天, 任晶, 陈晓美. Folksonomy中用户标签的语义紧密性研究[J]. 现代图书情报技术, 2013, (12): 48-54.
[7] 李军莲, 李丹亚, 孙海霞, 冀玉静, 李芳. 中文生物医学文献主题标引中副主题词自动组配机制探讨[J]. 现代图书情报技术, 2012, 28(6): 17-21.
[8] 牛亚真, 祝忠明. 个性化服务中跨系统用户建模方法研究综述[J]. 现代图书情报技术, 2012, 28(5): 1-6.
[9] 张旺强, 祝忠明, 卢利农, 周子健, 张士男, 黄金霞, 宋文, 刘毅. 机构知识库集成OpenKOS主题标引与检索聚类服务的实现及应用[J]. 现代图书情报技术, 2012, 28(3): 1-7.
[10] 牛亚真, 祝忠明. 个性化服务中关联数据驱动的用户语义建模框架[J]. 现代图书情报技术, 2012, (10): 1-7.
[11] 黄红霞, 章成志. 中文微博用户标签的调查分析——以新浪微博为例[J]. 现代图书情报技术, 2012, (10): 49-54.
[12] 顾立平. 用户行为模型驱动信息系统设计的研究[J]. 现代图书情报技术, 2010, 26(7/8): 45-50.
[13] 孙敏杰, 吴振新. 基于用户行为聚类的人物角色量化模型创建实证研究[J]. 现代图书情报技术, 2010, 26(12): 15-20.
[14] 张瑜,苏晓路,刘世洪,李景,胡海燕 . 基于本体的农业科技信息用户建模系统设计与实现*[J]. 现代图书情报技术, 2009, 25(11): 34-39.
[15] 江淇. 基于P2P的适应性信息检索系统的设计[J]. 现代图书情报技术, 2005, 21(9): 41-44.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn