Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (8): 1-9    DOI: 10.11925/infotech.2096-3467.2018.1207
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于机器学习的社交媒体用户分类研究 *
李纲,周华阳,毛进(),陈思菁
武汉大学信息资源研究中心 武汉 430072
Classifying Social Media Users with Machine Learning
Gang Li,Huayang Zhou,Jin Mao(),Sijing Chen
Center for Studies of Information Resources, Wuhan University, Wuhan 430072, China
全文: PDF(1064 KB)   HTML ( 39
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】充分利用社交媒体用户的个人多维度信息, 研究用户自动分类问题。【方法】将社交媒体用户定义为个体民众、媒体、政府和组织4种类型, 从用户多维度信息中提取人口统计学、命名和自我描述三组特征, 构建基于机器学习算法的用户自动分类模型, 在Twitter真实数据集上通过实验对比各分类算法性能, 并分析各组特征的贡献度。【结果】支持向量机和随机梯度下降分类模型的准确率和召回率均在83%以上, 命名、人口统计学和自我描述特征对于分类性能的影响依次递增。【局限】由于标注的用户数量有限, 可能无法让模型充分学习用户特征, 而且没有考虑不同类型用户数量的不均衡问题。【结论】基于支持向量机和随机梯度下降的分类模型能够较准确地识别出4种类型用户, 对后续社交媒体用户划分研究具有借鉴意义。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
李纲
周华阳
毛进
陈思菁
关键词 支持向量机用户分类机器学习特征提取    
Abstract

[Objective] This paper uses multi-dimensional information of social media users to automatically classify them. [Methods] First, we defined social media users as individual, media, government, and organization. Then, we extracted the following features from user profiles: demographic characteristics, namings, and self-descriptions. Third, we created a user classification models based on machine learning algorithms and evaluated its performance with real Twitter dataset. [Results] Both precision and recall of the proposed model were greater than 83%. The naming, demographic characteristics, and self-description features posed increasing contributions to the classification model. [Limitations] The sample size needs to be expanded, which helps us better analyzed the characteristics of different users. [Conclusions] The proposed method could accurately identify four types of users, which benefits social media user classification research in the future.

Key wordsSVM    User Classification    Machine Learning    Feature Extraction
收稿日期: 2018-10-31     
中图分类号:  TP393 G35  
基金资助:*本文系国家自然科学基金重大课题“国家安全大数据综合信息集成与分析方法”(71790612);国家自然科学基金青年项目“突发公共卫生事件社交媒体信息主题演化与影响力建模”(71603189);国家自然科学基金青年项目“基于学术异质网络表示学习的知识群落发现”的研究成果之一(71804135)
通讯作者: 毛进     E-mail: danveno@163.com
引用本文:   
李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
Gang Li,Huayang Zhou,Jin Mao,Sijing Chen. Classifying Social Media Users with Machine Learning. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2018.1207.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.1207
图1  社交媒体用户分类框架
特征组 特征编号 特征说明 备注
人口统计学
特征
F1 用户粉丝数 取值为0-9
通过为1, 否则
为0
F2 用户关注数
F3 用户被标记数
F4 是否通过认证
命名特征 F5 用户名的命名模式 英文字母搭配
方式
F6 昵称命名模式
F7 昵称和用户名相似度
自我描述
特征
F8-F2395 词汇出现的词频-
逆频率
表1  用户分类特征集
判断是媒体
类型用户
判断不是媒体
类型用户
实际是媒体类型用户 TP FN
实际不是媒体类型用户 FP TN
表2  二分类混合矩阵
图2  6种分类模型的性能对比
算法对比 p值
支持向量机-随机梯度下降 0.098
支持向量机-决策树 0.011**
支持向量机-K近邻 0.032**
支持向量机-朴素贝叶斯 0.000**
支持向量机-人工神经网络 0.000**
随机梯度下降-决策树 0.000**
随机梯度下降-K近邻 0.002**
随机梯度下降-朴素贝叶斯 0.007**
随机梯度下降-人工神经网络 0.018**
表3  算法对比的显著性检验结果
图3  不同类型用户的分类性能
图4  特征贡献分析结果
[1] Wikipedia. Social Network Service[EB/OL]. [ 2018- 06- 15].
[2] Boyd D M, Ellison N B . Social Network Sites: Definition, History, and Scholarship[J]. Journal of Computer Mediated Communication, 2008,13(1):210-230.
[3] We Are Social. Digital in 2018[EB/OL]. [ 2018- 10- 30].
[4] 贺超波, 汤庸, 麦辉强 , 等. 在线社交网络挖掘综述[J]. 武汉大学学报: 理学版, 2014,60(3):189-200.
( He Chaobo, Tang Yong, Mai Huiqiang , et al. A Survey on Online Social Network Mining[J]. Journal of Wuhan University: Natural Science Edition, 2014,60(3):189-200.)
[5] 陈家维 . 线上运动社群之社群意识组成要素之研究——以日本职棒社群日促会为例[D]. 朝阳科技大学, 2006.
( Chen Jiawei . Exploring the Sense of Community for an Online Sport Community: A Case Study of Nippon Professional Baseball Club[D]. Chaoyang University of Science and Technology, 2006.)
[6] Gomez-Rodriguez M, Leskovec J, Krause A . Inferring Network of Diffusion and Influence [C]// Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2010: 1019-1028.
[7] 邓三鸿, 刘喜文, 蒋勋 . 基于利益相关者理论的突发事件案例知识库构建研究[J]. 图书与情报, 2015(3):1-8.
( Deng Sanhong, Liu Xiwen, Jiang Xun . Constructing Cases Knowledge Base of Emergency Based on Stakeholder’s Theory[J]. Library & Information, 2015(3):1-8.)
[8] 穆桃, 陈伟, 陈松健 . 基于多层网络流量分析的用户分类方法[J]. 计算机应用, 2017,37(3):705-710.
( Mu Tao, Chen Wei, Chen Songjian . User Classification Method Based on Multi-Layer Network Traffic Analysis[J]. Journal of Computer Applications, 2017,37(3):705-710.)
[9] 苏朝晖 . 客户关系管理[M]. 第2版. 北京: 高等教育出版社, 2016: 14-16.
( Su Zhaohui. Customer Relationship Management[M]. The 2nd Edition. Beijing: Higher Education Press, 2016: 14-16.)
[10] 贺超波, 杨镇雄, 洪少文 , 等. 应用随机游走的社交网络用户分类方法[J]. 计算机科学, 2015,42(2):198-202.
( He Chaobo, Yang Zhenxiong, Hong Shaowen , et al. User Classification Method in Online Social Network Using Random Walks[J]. Computer Science, 2015,42(2):198-202.)
[11] Wu S, Hofman J, Mason W , et al. Who Says What to Whom on Twitter [C]// Proceedings of the 20th International Conference on World Wide Web. 2011: 705-714.
[12] Rao D, Yarowsky D, Shreevats A , et al. Classifying Latent User Attributes in Twitter [C]// Proceedings of the 2nd International Workshop on Search and Mining User-generated Contents. ACM, 2010: 37-44.
[13] Zubiaga A, Körner C, Strohmaier M . Tags vs Shelves: From Social Tagging to Social Classification [C]// Proceedings of the 22nd ACM Conference on Hypertext and Hypermedia. ACM, 2011: 93-102.
[14] Pennacchiotti M, Popescu A M. A Machine Learning Approach to Twitter User Classification[C]// Proceedings of the 5th International AAAI Conference on Weblogs and Social Media. AAAI Press, 2011: 281-288.
[15] Shafiq M Z, Ilyas M U, Liu A X , et al. Identifying Leaders and Followers in Online Social Networks[J]. IEEE Journal on Selected Areas in Communications, 2013,31(9):618-628.
[16] Xie D, Xu J, Lu T C . Automated Classification of Extremist Twitter Accounts Using Content-Based and Network-Based Features [C]// Proceedings of the 4th International Conference on Big Data. IEEE, 2016: 2545-2549.
[17] Abu-Salih B, Wongthontham P, Chan K Y . Twitter Mining for Ontology-Based Domain Discovery Incorporating Machine Learning[J]. Journal of Knowledge Management, 2018,22(5):949-981.
[18] 赵文兵, 朱庆华, 吴克文 , 等. 微博客用户特性及动机分析——以和讯财经微博为例[J]. 现代图书情报技术, 2011(2):69-75.
( Zhao Wenbing, Zhu Qinghua, Wu Kewen , et al. Analysis of Micro-blogging User Character and Motivation——Take Micro-blogging of Hexun.com as an Example[J]. New Technology of Library and Information Service, 2011(2):69-75.)
[19] 薛云霞, 李寿山, 阮进 . 微博中个人与非个人用户分类方法研究[J]. 山西大学学报:自然科学版, 2015,38(2):192-198.
( Xue Yunxia, Li Shoushan, Ruan Jin . Human and Nonhuman User Classification in Micro-blog[J]. Journal of Shanxi University: Natural Science Edition, 2015,38(2):192-198.)
[20] He S, Wang H, Jiang Z H. Identifying User Behavior on Twitter Based on Multi-scale Entropy [C]// Proceedings of the 2014 IEEE International Conference on Security, Pattern Analysis, and Cybernetics. IEEE, 2014: 381-384.
[21] 蒋翠清, 宋凯伦, 丁勇 , 等. 基于用户生成内容的潜在客户识别方法[J]. 数据分析与知识发现, 2018,2(3):1-8.
( Jiang Cuiqing, Song Kailun, Ding Yong , et al. Identifying Potential Customers Based on User-Generated Contents[J]. Data Analysis and Knowledge Discovery, 2018,2(3):1-8.)
[22] 方洁, 龚立群, 魏疆 . 基于利益相关者理论的微博舆情中的用户分类研究[J]. 情报科学, 2014,32(1):18-22.
( Fang Jie, Gong Liqun, Wei Jiang . A Study of the User’s Classification of Microblog Public Opinion Based on the Stakeholders Theories[J]. Information Science, 2014,32(1):18-22.)
[23] 李春英, 汤庸, 贺超波 , 等. 在线社交网络用户分析研究综述[J]. 华南师范大学学报:自然科学版, 2016,48(5):107-115.
( Li Chunying, Tang Yong, He Chaobo , et al. A Survey of Online Social Network Based User Analysis[J]. Journal of South China Normal University:Natural Science Edition, 2016,48(5):107-115.)
[24] 林燕霞, 谢湘生 . 基于社会认同理论的微博群体用户画像[J]. 情报理论与实践, 2018,41(3):142-148.
( Lin Yanxia, Xie Xiangsheng . User Portrait of Diversified Groups in Micro-blog Based on Social Identity Theory[J]. Information Studies: Theory & Application, 2018,41(3):142-148.)
[25] 蒋翠清, 王齐林, 刘士喜 , 等. 中文社会媒体环境下半监督学习的汽车缺陷识别方法[J]. 中国管理科学, 2014(S1):677-685.
( Jiang Cuiqing, Wang Qilin, Liu Shixi , et al. Semi-supervised Learning for Automobile Defect Identification in the Context of Chinese Social Media[J]. Chinese Journal of Management Science, 2014(S1):677-685.)
[26] 路永和, 李焰锋 . 改进TF-IDF 算法的文本特征项权值计算方法[J]. 图书情报工作, 2013,57(3):90-95.
doi: 10.7536/j.jssn.0252-3116.2013.03.017
( Lu Yonghe, Li Yanfeng . Improvement of Text Feature Weighting Method Based on TF-IDF Algorithm[J]. Library and Information Service, 2013,57(3):90-95.)
doi: 10.7536/j.jssn.0252-3116.2013.03.017
[27] 周立欣, 林杰 . 基于NodeRank 算法的产品特征提取研究[J]. 数据分析与知识发现, 2018,2(4):90-98.
( Zhou Lixin, Lin Jie . Extracting Product Features with NodeRank Algorithm[J]. Data Analysis and Knowledge Discovery, 2018,2(4):90-98.)
[28] Philips M E . Hurricane Harvey Twitter Dataset[DB/OL]. [2017-11-22].
[29] RANKS NL . Stopwords[DB/OL]. [2018-6-19].
[30] 陈远, 王超群, 胡忠义 , 等. 基于主成分分析和随机森林的恶意网站评估与识别[J]. 数据分析与知识发现, 2018,2(4):71-79.
( Chen Yuan, Wang Chaoqun, Hu Zhongyi , et al. Identifying Malicious Websites with PCA and Random Forest Methods[J]. Data Analysis and Knowledge Discovery, 2018,2(4):71-79.)
[1] 胡佳慧,方安,赵琬清,杨晨柳,任慧玲. 面向知识发现的中文电子病历标注方法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 123-132.
[2] 文秀贤,徐健. 基于用户评论的商品特征提取及特征价格研究 *[J]. 数据分析与知识发现, 2019, 3(7): 42-51.
[3] 曾庆田,戴明弟,李超,段华,赵中英. 轨迹数据融合用户表示方法的重要位置发现*[J]. 数据分析与知识发现, 2019, 3(6): 75-82.
[4] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[5] 张金柱,胡一鸣. 融合表示学习与机器学习的专利科学引文标题自动抽取研究*[J]. 数据分析与知识发现, 2019, 3(5): 68-76.
[6] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[7] 徐红霞,李春旺. 科技文献内容知识点抽取研究综述[J]. 数据分析与知识发现, 2019, 3(3): 14-24.
[8] 杨贵军,徐雪,赵富强. 基于XGBoost算法的用户评分预测模型及应用*[J]. 数据分析与知识发现, 2019, 3(1): 118-126.
[9] 张紫玄,王昊,朱立平,邓三鸿. 中国海关HS编码风险的识别研究*[J]. 数据分析与知识发现, 2019, 3(1): 72-84.
[10] 刘丽娜,齐佳音,张镇平,曾丹. 品牌对商品在线销量的影响*——基于海量商品评论的在线声誉和品牌知名度的调节作用研究[J]. 数据分析与知识发现, 2018, 2(9): 10-21.
[11] 贾隆嘉,张邦佐. 高校网络舆情安全中主题分类方法研究*——以新浪微博数据为例[J]. 数据分析与知识发现, 2018, 2(7): 55-62.
[12] 陆伟,罗梦奇,丁恒,李信. 深度学习图像标注与用户标注比较研究*[J]. 数据分析与知识发现, 2018, 2(5): 1-10.
[13] 侯君,刘魁,李千目. 基于ESSVM的分类推荐*[J]. 数据分析与知识发现, 2018, 2(3): 9-21.
[14] 王丽,邹丽雪,刘细文. 基于LDA主题模型的文献关联分析及可视化研究[J]. 数据分析与知识发现, 2018, 2(3): 98-106.
[15] 范馨月,崔雷. 基于网络属性的抗肿瘤药物靶点预测方法及其应用*[J]. 数据分析与知识发现, 2018, 2(12): 98-108.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn