Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (1): 52-58     https://doi.org/10.11925/infotech.1003-3513.2015.01.08
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
微博用户兴趣发现研究
石伟杰1, 徐雅斌1,2
1. 北京信息科技大学计算机学院 北京 100101;
2. 北京信息科技大学网络文化与数字传播北京市重点实验室 北京 100101
Research on Discovering Micro-blog User Interests
Shi Weijie1, Xu Yabin1,2
1. Computer School, Beijing Information Science and Technology University, Beijing 100101, China;
2. Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China
全文: PDF (677 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 微博用户兴趣发现对微博社交网络的个性化推荐和提升用户满意度具有重要的意义和价值。[方法] 不仅通过挖掘用户自身微博数据识别出用户兴趣, 而且进一步挖掘其关注用户的微博数据以及他们之间的社交联系, 并通过计算用户微博与其关注用户兴趣的相似度以及用户与其关注用户间的亲密度, 进一步发现用户兴趣。最后将从两方面发现的兴趣进行合并, 得出用户的兴趣。[结果] 基于爬取的新浪微博数据集进行实验, 准确率和召回率较传统的方法提升15%以上。[局限] 数据预处理中, 停用词表不充分, 没有实现停用词表的自动学习; 需人工标注用户兴趣集计算准确率和召回率。[结论] 实验结果表明, 该方法明显优于传统方法, 能够更加有效和准确地发现用户兴趣。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
徐雅斌
石伟杰
关键词 微博兴趣发现关注用户    
Abstract

[Objective] Discovering the micro-blog user interests plays an important role in the personalized recommendation of micro-blog social network to improve users' satisfaction. [Methods] In this paper, apart from the data mining from the user's own micro-blog, analyze the data of the micro-blogs that followed by this user, as well as the social correlation among them. By computing the similarity between their micro-blogs and intimacy, uncover the user interests further. Also combine the results coming from the two aforementioned aspects to get the interest set of users. [Results] This paper experiments on the dataset gained from Sina Micro-blog, and the precision rate and recall rate rise both more than 15% compared with the traditional method. [Limitations] The stop words are not full in the process of data preprocessing, because of not realize the automatic learning the list of stop words. And needs manually tagging user interest set to calculate the precision rate and recall rate. [Conclusions] The experimental results show that the method is better than the traditional method, and it's more effective and accurate to discover user interests.

Key wordsMicro-blog    Discover interests    Following users
收稿日期: 2014-07-14      出版日期: 2015-02-12
:  TP393  
基金资助:

本文系国家自然科学基金项目"基于语义分析的中文微博信息挖掘方法研究"(项目编号:61370139)、网络文化与数字传播北京市重点实验室资助项目"面向微博的社交网络研究及其舆情分析"(项目编号:ICDD201309)和北京市属高等学校创新团队建设与教师职业发展计划项目"大数据内容理解的理论基础及智能化处理技术"(项目编号:IDHT20130519)的研究成果之一。

通讯作者: 石伟杰,ORCID:0000-0001-5486-3096,E-mail:hndxswj_2007@163.com。     E-mail: hndxswj_2007@163.com
作者简介: 作者贡献声明: 徐雅斌: 提出研究命题; 石伟杰: 提出研究思路, 设计研究方案, 数据的获取与标注, 进行实验, 论文起草; 徐雅斌: 论文最终版本修订。
引用本文:   
石伟杰, 徐雅斌. 微博用户兴趣发现研究[J]. 现代图书情报技术, 2015, 31(1): 52-58.
Shi Weijie, Xu Yabin. Research on Discovering Micro-blog User Interests. New Technology of Library and Information Service, 2015, 31(1): 52-58.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.01.08      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2015/V31/I1/52

[1] Tang X, Zhang M, Yang C C. User Interest and Topic Detection for Personalized Recommendation [C]. In: Proceedings of the 2012 IEEE/WIC/ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technology, Macau, China. IEEE Computer Society, 2012: 442-446.
[2] Genc Y, Sakamoto Y, Nickerson J V. Discovering Context: Classifying Tweets through a Semantic Transform Based on Wikipedia [C]. In: Proceedings of the 6th International Conference on Foundations of Augmented Cognition: Directing the Future of Adaptive Systems, Orlando, USA. Springer Berlin Heidelberg, 2011: 484-492.
[3] Welch M J, Schonfeld U, He D, et al. Topical Semantics of Twitter Links [C]. In: Proceedings of the 4th ACM International Conference on Web Search and Data Mining (WSDM'11). New York: ACM, 2011: 327-336.
[4] Abel F, Gao Q, Houben G J, et al. Semantic Enrichment of Twitter Posts for User Profile Construction on the Social Web [C]. In: Proceedings of the 8th Extended Semantic Web Conference on the Semanic Web: Research and Pages (ESWC'11). Berlin, Heidelberg: Springer-Verlag, 2011: 375-389.
[5] Xu Z, Lu R, Xiang L, et al. Discovering User Interest on Twitter with a Modified Author-Topic Model [C]. In: Proceedings of the 2011 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology (WI-IAT), Lyon, France. IEEE, 2011: 422-429.
[6] Michelson M, Macskassy S A. Discovering Users' Topics of Interest on Twitter: A First Look [C]. In: Proceedings of the 4th Workshop on Analytics for Noisy Unstructured Text Data (AND'10). New York: ACM, 2010: 73-80.
[7] 宋巍, 张宇, 谢毓彬, 等. 基于微博分类的用户兴趣识别[J]. 智能计算机与应用, 2013, 3(4): 80-83. (Song Wei, Zhang Yu, Xie Yubin, et al. Identifying User Interests Based on Microblog Classification [J]. Intelligent Computer and Applications, 2013, 3(4): 80-83.)
[8] 方维. 微博兴趣识别与推送系统的研究与实现[D]. 武汉: 华中科技大学, 2012. (Fang Wei. Research and Implement of Micro-blog Interest Found and Pushing System [D]. Wuhan: Huazhong University of Science and Technology, 2012.)
[9] 孙威. 微博用户兴趣挖掘与建模研究 [D]. 大连: 大连理工大学, 2012. (Sun Wei. Interest Mining and Modeling for Micro-bloggers of Micro-blog [D]. Dalian: Dalian University of Technology, 2012.)
[10] 崔争艳. 基于语义的微博短信息分类[J]. 现代计算机, 2010(8): 18-20,24. (Cui Zhengyan. Short Message Classification of Microblogging Based on Semantic [J]. Modern Computer, 2010(8): 18-20, 24.)
[11] 刘群, 李素建. 基于《知网》的词汇语义相似度计算[J]. 中文计算语言学, 2002, 7(2): 59-76. (Liu Qun, Li Sujian. Word Similarity Computing Based on How-Net [J]. Computational Linguistics and Chinese Language Processing, 2002, 7(2): 59-76.)
[12] 哈工大社会计算与信息检索研究中心.语言技术平台[EB/OL]. [2014-08-02]. http://www.ltp-cloud.com. (Harbin Institute of Technology - Research Center for Social Computing and Information Retrieval. Language Technology Platform [EB/OL]. [2014-08-02]. http://www.ltp-cloud.com.)
[13] 徐文海, 温有奎. 一种基于TFIDF方法的中文关键词抽取算法[J]. 情报理论与实践, 2008, 31(2): 298-302. (Xu Wenhai, Wen Youkui. A Chinese Keyword Extraction
Algorithm Based on TFIDF Method [J]. Information Studies: Theory & Application, 2008, 31(2): 298-302.)
[14] 哈工大社会计算与信息检索研究中心. 同义词词林扩展版[EB/OL].[2014-08-02]. http://www.ltp-cloud.com/download/. (Harbin Institute of Technology - Research Center for Social Computing and Information Retrieval. Tongyici Cilin (Extended) [EB/OL]. [2014-08-02]. http://www.ltp-cloud. com/download/.)
[15] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[16] 李静月, 李培峰, 朱巧明. 一种改进的TFIDF网页关键词提取方法[J]. 计算机应用与软件, 2011, 28(5): 25-27. (Li Jingyue, Li Peifeng, Zhu Qiaoming. An Improved TFIDF- based Approach to Extract Key Words from Web Pages [J]. Computer Applications and Software, 2011, 28(5): 25-27.)

[1] 张梦瑶, 朱广丽, 张顺香, 张标. 基于情感分析的微博热点话题用户群体划分模型 *[J]. 数据分析与知识发现, 2021, 5(2): 43-49.
[2] 席运江, 杜蝶蝶, 廖晓, 仉学红. 基于超网络的企业微博用户聚类研究及特征分析*[J]. 数据分析与知识发现, 2020, 4(8): 107-118.
[3] 邱尔丽,何鸿魏,易成岐,李慧颖. 基于字符级CNN技术的公共政策网民支持度研究 *[J]. 数据分析与知识发现, 2020, 4(7): 28-37.
[4] 李铁军,颜端武,杨雄飞. 基于情感加权关联规则的微博推荐研究*[J]. 数据分析与知识发现, 2020, 4(4): 27-33.
[5] 梁艳平,安璐,刘静. 同类突发公共卫生事件微博话题共振研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 122-133.
[6] 徐月梅,刘韫文,蔡连侨. 基于深度融合特征的政务微博转发规模预测模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 18-28.
[7] 韩康康,徐建民,张彬. 融合用户兴趣和多维信任度的微博推荐*[J]. 数据分析与知识发现, 2020, 4(12): 95-104.
[8] 王晰巍,张柳,黄博,韦雅楠. 基于LDA的微博用户主题图谱构建及实证研究*——以“埃航空难”为例[J]. 数据分析与知识发现, 2020, 4(10): 47-57.
[9] 李博诚,张云秋,杨铠西. 面向微博商品评论的情感标签抽取研究 *[J]. 数据分析与知识发现, 2019, 3(9): 115-123.
[10] 安璐,梁艳平. 突发公共卫生事件微博话题与用户行为选择研究*[J]. 数据分析与知识发现, 2019, 3(4): 33-41.
[11] 赵明清,武圣强. 基于微博情感分析的股市加权预测方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 43-51.
[12] 陈芬,高小欢,彭玥,何源,薛春香. 融合文本倾向性分析的微博意见领袖识别 *[J]. 数据分析与知识发现, 2019, 3(11): 120-128.
[13] 曾子明, 杨倩雯. 基于LDA和AdaBoost多特征组合的微博情感分析*[J]. 数据分析与知识发现, 2018, 2(8): 51-59.
[14] 高永兵, 杨贵朋, 张娣, 马占飞. 基于突显词博文聚类的官微事件检测方法*[J]. 数据分析与知识发现, 2017, 1(9): 57-64.
[15] 何跃, 朱灿. 基于微博的意见领袖网情感特征分析*——以“非法疫苗”事件为例[J]. 数据分析与知识发现, 2017, 1(9): 65-73.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn