Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (10): 12-20     https://doi.org/10.11925/infotech.2096-3467.2017.0313
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于情感及影响力的微博用户群体特征分析——以A手机为例
何跃, 尹小佳(), 朱超
四川大学商学院 成都 610064
Analyzing Characteristics of Weibo Users Based on Their Sentiments and Influences —— Case Study of Cell Phone Brand
He Yue, Yin Xiaojia(), Zhu Chao
Business School, Sichuan University, Chengdu 610064,China
全文: PDF (709 KB)   HTML ( 3
输出: BibTeX | EndNote (RIS)      
摘要 

目的】帮助企业实现精准营销, 准确识别企业用户的群体特征。【方法】对微博文本进行情感分析, 通过Ward聚类将微博发表者聚类成9类群体, 并对微博用户进行影响力识别, 从情感和影响力两个维度对各个用户群体进行分析, 利用一种改进的客户价值矩阵方法辨别不同用户群体的特征。【结果】实验结果表明: 9类用户群体对A手机品牌情感倾向存在较大的差异。A手机更受喜欢追赶时髦的女性群体以及从事IT行业的用户青睐, 并且该群体影响力较大, 能更有效地影响消费者购买该手机。【局限】在进行用户影响力识别时, 仅考虑常用指标, 未考虑用户微博被转发之后的级联影响力以及其他影响指标。【结论】本文方法能够较为准确地识别企业用户的群体特征, 为企业实现精准营销提供帮助。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
何跃
尹小佳
朱超
关键词 群体特征分析情感分析用户影响力识别客户价值矩阵    
Abstract

[Objective] This study tries to identify the characteristics of consumers, aiming to improve the performance of accurate marketing. [Methods] First, we conducted sentiment analysis of the Weibo texts. Then, we divided the Weibo users into nine groups with Ward clustering technique, and identified their influences. Thirdly, we analyzed each user group from the perspectives of sentiment and influence. Finally, we extracted the users’ characteristics with a modified customer value matrix. [Results] We found significant differences among users’ sentiments on a specific cell phone brand. The fashion-chasing women and IT industry workers were in favor of this brand. They could also convince members of other groups choose the same brand. [Limitations] We only included the common indicators to examine Weibo users’ influences. [Conclusions] The proposed method could effectively identify consumers’ characteristics and promote accurate marketing.

Key wordsGroup Feature Analysis    Sentiment Analysis    User Influence Identification    Customer Value Matrix
收稿日期: 2017-04-19      出版日期: 2017-11-08
ZTFLH:  G353.12  
引用本文:   
何跃, 尹小佳, 朱超. 基于情感及影响力的微博用户群体特征分析——以A手机为例[J]. 数据分析与知识发现, 2017, 1(10): 12-20.
He Yue,Yin Xiaojia,Zhu Chao. Analyzing Characteristics of Weibo Users Based on Their Sentiments and Influences —— Case Study of Cell Phone Brand. Data Analysis and Knowledge Discovery, 2017, 1(10): 12-20.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.0313      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I10/12
类目名称 情感值 表情符号
很好 2.5 笑哈哈; 大笑; 嘻嘻; 爱你; 给力; 威武; 顶; 鼓掌; 赞; good; gst耐你; 好开心
2 花心; 可怜; 好激动; 江南style; 偷笑; 亲亲; 抱抱; 挤眼; ala加油; 爱心; 耶
较好 1.5 It切克闹; din推撞; 兔子; 互粉; 礼物; 微笑; 可爱; 钱; 嘴馋; ok; ala蹦; 害羞;
稍好 0.5 转发; 围观; 熊猫; 奥特曼; 酷; 猪头; 蜡烛; 坏笑; 勾引
没感觉 0 抠鼻; 浮云; 神马; 时间; 话筒; 疑问; 思考; 国旗;
较差 -1.5 晕; 黑线; 流汗; 囧; 困; 睡觉; 打哈欠; 左哼哼; 右哼哼; 吃惊; 闭嘴; 懒得理你
-2 快哭了; 草泥马; xb压力; 吐血; 衰; 委屈; 吐; 生病; 巨汗; 非常汗; 悲催; 石化; 结冰; 给跪了
很差 -2.5 怒; 怒骂; 抓狂; 崩溃; 哼; 流泪; 鄙视; 失望; 狂躁症; 弱
  表情符号划分最终结果
轮次 Kappa值
第1轮 0.46
第2轮 0.59
第3轮 0.75
第4轮 0.81
  可信度检验结果
评估参数 传统算法
得到的结果
改进后的算法
得到的结果
Macro-P 0.7362 0.8457
Macro-R 0.7498 0.8590
  评估结果
群体关键字 用户数目 主要特征
投资者 308 1、主要是金融行业从业者; 大多为男性;
2、主要来自于北京、上海、广东和香港等经济发达地区;
3、微博主要通过iPhone手机客户端发布;
4、主要集中在35-45岁和45-55岁两个年龄段。
IT业精英 209 1、主要是移动互联网和IT企业的企业主和管理层;
2、主要来自于北京和广东两个地区;
3、微博主要通过iPhone、三星Galaxy手机客户端和其他Android系统平台发布, 其中
包含少量小米手机, 但比重仅占到8%;
4、主要集中在35-45岁年龄段; 大多为男性。
宅男 465 1、主要集中在15-25岁和25-35岁两个年龄段;
2、微博主要通过个人电脑或者是类似塞班这样的老式智能手机系统发布。
IT从业人员 916 1、主要是IT企业官方微博和IT从业人员;
2、主要来自于北京和广东两个地区;
3、微博主要通过三星Galaxy, 小米手机客户端和其他Android系统平台发布, 小米手机比重为33%;
4、主要集中在25-35岁和35-45岁两个年龄段。
群体关键字 用户数目 主要特征
时尚女性 640 1、时尚杂志官方微博, 企业白领和主要从事模特、设计师等工作的时尚潮流女士;
2、主要来自于北京、上海、香港和海外;
3、微博主要通过iPhone和三星Galaxy手机客户端发布;
4、主要集中在15-25岁和25-35岁两个年龄段。
大龄消费者 378 1、微博主要通过三星Galaxy、小米手机客户端、塞班和其他Android系统平台发布, 小米手机比重为0.02%;
2、年龄段主要集中在35-45岁以及45-55岁两个年龄段。
智能手机发烧友 552 1、主要是智能手机论坛官方微博以及智能手机分析师、发烧友;
2、主要来自于北京、上海和广东三个地区;
3、主要集中于25-35岁年龄段。
宅女 551 1、微博主要通过个人电脑或者是类似于塞班这样的老式智能手机系统发布;
2、主要集中在15-25岁和25-35岁两个年龄段。
青年学生 981 1、主要集中在15-25岁年龄段。
  用户群体特征识别结果
等级 1级 2级 3级
粉丝数 $\left[ 10000,+\infty \right)$ $\left[ 1000,10000 \right)$ $\left[ 0,1000 \right)$
评论数 $\left[ 50,+\infty \right)$ $\left[ 1,50 \right)$ 0
转发数 $\left[ 100,+\infty \right)$ $\left[ 1,100 \right)$ 0
粉丝数/关注数 $\left[ 100,+\infty \right)$ $\left[ 1,100 \right)$ 0
粉丝数/微博数 $\left[ 50,+\infty \right)$ $\left[ 2,50 \right)$ $\left[ 0,2 \right)$
  各类别评价指标等级标准
用户名 粉丝数(个) 评论数(条) 转发数(条) 粉丝数/
关注数
粉丝数/
微博数
A 11 305 4 92 25.1222 25.3475
B 42 984 54 200 55.4632 7.4547
C 147 906 0 891 68.3897 7.5824
D 121 846 130 906 74.1607 14.0262
E 1 050 3 7 2.4083 0.2385
F 1 123 4 0 0.5831 2.0912
  用户各指标数值
  基于微博的A手机客户价值矩阵
[1] 中国互联网络信息中心. 第39次中国互联网络发展状况统计报告[R/OL]. [2017-01-22].
[1] (China Internet Network Information Center. The 33rd Statistical Report on Internet Development in China [R/OL]. [2017-01-22].
[2] Li Q.Characteristics and Social Impact of the Use of Social Media by Chinese Dama[J]. Telematics and Informatics, 2017, 34(3): 797-810.
doi: 10.1016/j.tele.2016.05.020
[3] Koustuv S, Ingmar W.Characterizing Awareness of Schizophrenia Among Facebook Users by Leveraging Facebook Advertisement Estimates[J]. Journal of Medical Internet Research, 2017,19(5): e156. DOI: 10.2196/jmir.6815.
doi: 10.2196/jmir.6815 pmid: 28483739
[4] Gonzalez-Pardo A, Jung J J, Camacho D.ACO-based Clustering for Ego Network Analysis[J]. Future Generation Computer Systems, 2017, 66: 160-170.
doi: 10.1016/j.future.2016.06.033
[5] Han S C, Chen H L, Zhang Z J.Influence Model of User Behavior Characteristics on Information Dissemination[J]. International Journal of Computers Communications & Control, 2016, 11(2): 209-223.
doi: 10.15837/ijccc.2016.2.2441
[6] Step M M, Bracken C C, Trapl E S, et al.User and Content Characteristics of Public Tweets Referencing Little Cigars[J]. American Journal of Health Behavior, 2016, 40(1): 38-47.
doi: 10.5993/AJHB.40.1.5 pmid: 26685812
[7] 曾鸿, 吴苏倪. 基于微博的大数据用户画像与精准营销[J]. 现代经济信息, 2016(16): 306-308.
[7] (Zeng Hong, Wu Suni.Based on Microblogging Large Data User Portrait and Precise Marketing[J]. Modern Economic Information, 2016(16): 306-308.)
[8] 彭希羡, 朱庆华, 刘璇. 微博客用户特征分析及分类研究——以“新浪微博”为例[J]. 情报科学, 2015, 33(1): 69-75.
[8] (Peng Xixian, Zhu Qinghua, Liu Xuan.Research on Behavior Characteristics and Classification of Micro-blog Users— Taking “Sina Micro-blog”as an Example[J]. Information Science, 2015, 33(1): 69-75.)
[9] 陈梅梅, 董平军. 中国网络消费者行为特征[J]. 中国流通经济, 2017, 31(2): 80-85.
[9] (Chen Meimei, Dong Pingjun.Behavior Analysis of Chinese Internet Consumer[J]. China Circulation Economics, 2017, 31(2): 80-85.)
[10] 符丹, 刘洪超. “海淘族”的发展与群体特征[J]. 学术探索, 2016(12): 50-55.
[10] (Fu Dan, Liu Hongchao.The Development and Group Characteristics of International Shoppers in China[J]. Academic Exploration, 2016(12): 50-55.)
[11] 张继东. 移动社交网络环境下基于情景化偏好的用户行为感知研究[J]. 情报理论与实践, 2017, 40(1): 110-114.
[11] (Zhang Jidong.Study on User Behavior Perception Based on Situational Preference in Mobile Social Network Environment[J]. Information Studies: Theory & Application, 2017, 40(1): 110-114.)
[12] Giatsoglou M, Vozalis M G.Sentiment Analysis Leveraging Emotions and Word Embeddings[J]. Expert Systems with Applications, 2017,69: 214-224.
doi: 10.1016/j.eswa.2016.10.043
[13] Suresh H, Raj S G.An Unsupervised Fuzzy Clustering Method for Twitter Sentiment Analysis[C]// Proceedings of the 2016 International Conference on Computation System and Information Technology for Sustainable Solutions (CSITSS). 2016: 80-85.
[14] Jendoubi S, Martin A.Two Evidential Data Based Models for Influence Maximization in Twitter[J]. Knowledge-based Systems, 2017,121: 58-70.
doi: 10.1016/j.knosys.2017.01.014
[15] Francalanci C, Hussain A.Influence-based Twitter Browsing with NavigTweet[J]. Information Systems, 2017, 64:119-131.
doi: 10.1016/j.is.2016.07.012
[16] Lahuerta-Otero E.Looking for the Perfect Tweet. The Use of Data Mining Techniques to Find Influencers on Twitter[J]. Computers in Human Behavior, 2016, 64: 575-583.
doi: 10.1016/j.chb.2016.07.035
[17] 贺飞艳, 何炎祥, 刘楠, 等. 面向微博短文本的细粒度情感特征抽取方法[J]. 北京大学学报: 自然科学版, 2016, 50(1): 48-54.
[17] (He Feiyan, He Yanxiang, Liu Nan, et al.A Microblog Short Text Oriented Multi-class Feature Extraction Method of Fine-Grained Sentiment Analysis[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2016, 50(1): 48-54.)
[18] 刘洋. 汉语转折关联词语语义背景探析及教学应用[D]. 济南: 山东大学, 2010.
[18] (Liu Yang.The Semantic Backgrounds Study of Adversative Words and Expressions and Application in Chinese Teaching[D]. Ji’nan: Shandong University, 2010.)
[19] Allen B, Reser D.Content Analysis in Library and Information Science Research[J]. Library & Information Science Research, 1990,12(3): 251-262.
doi: 10.1002/(SICI)1097-4571(199007)41:5<390::AID-ASI12>3.0.CO;2-G
[20] 朱郭峰, 杨彦, 周竹荣, 等. 基于领域的微博用户影响力计算方法[J]. 西南大学学报: 自然科学版, 2014, 78(3): 145-151.
[20] (Zhu Guofeng, Yang Yan, Zhou Zhurong, et al.Calculation Method of User Influence Based on Domain[J]. Journal of Southwestern University: Natural Science Edition, 2014, 78(3): 145-151.)
[21] 原福永, 冯静, 符茜落. 微博用户的影响力指数模型[J]. 现代图书情报技术, 2012(6): 60-64.
[21] (Yuan Fuyong, Feng Jing, Fu Qianluo.Influence Index Model of Micro-blog User[J]. New Technology of Library and Information Service, 2012(6): 60-64.)
[22] 冯波, 郝文宁, 陈刚, 等. K-means算法初始聚类中心选择的优化[J]. 计算机工程与应用, 2013, 49(14): 182-185,192.
doi: 10.3778/j.issn.1002-8331.1111-0289
[22] (Feng Bo, Hao Wenning, Chen Gang, et al.Optimization to K-means Initial Cluster Centers[J]. Computer Engineering and Applications, 2013, 49(14): 182-185, 192.)
doi: 10.3778/j.issn.1002-8331.1111-0289
[23] 曹庆垒, 李琴, 李丽杰. 基于未确知测度模型的高新区技术创新能力评价研究[J]. 科技管理研究, 2008, 28(5): 134-135.
doi: 10.3969/j.issn.1000-7695.2008.05.044
[23] (Cao Qinglei, Li Qin, Li Lijie.Evaluation of Technological Innovation Capability of High-tech Zones Based on Unascertained Measurement Model[J]. Science and Technology Management Research, 2008, 28(5): 134-135.)
doi: 10.3969/j.issn.1000-7695.2008.05.044
[24] 章煜溢, 徐德华. 基于BSC和未确知测度理论的C2C网商绩效评价模型研究——以淘宝网店铺数据为例[J]. 经营管理者, 2017(4): 4-5.
[24] (Zhang Yuyi, Xu Dehua.Study on Performance Evaluation Model of C2C Network Business Based on BSC and Unascertained Measure Theory - Taking Taobao Store Data as an Example[J]. Management Manager, 2017(4): 4-5.)
[25] 周荣虎. 基于信息熵和未确知测度理论的供应链风险系数定量测度模型研究[J]. 中国市场, 2016(45): 52-54.
[25] (Zhou Ronghu.Study on Quantitative Model of Supply Chain Risk Coefficient Based on Information Entropy and Unascertained Measure Theory[J]. China Market, 2016(45): 52-54.)
[26] Shanon C E, Weaver W.The Mathematical Theory of Communication [M]. The University of Illinois Press, 1971.
[27] 薛宇, 吴凤平, 王长青, 等. 基于离差最大化和Ward系统聚类的医疗服务水平研究[J]. 统计与决策, 2014(16): 86-88.
[27] (Xue Yu, Wu Fengping, Wang Changqing, et al.Research on Medical Service Level Based on Maximizing Deviations and Clustering Ward Systems[J]. Statistics and Decision, 2014(16): 86-88.)
[1] 钟佳娃,刘巍,王思丽,杨恒. 文本情感分析方法及应用综述*[J]. 数据分析与知识发现, 2021, 5(6): 1-13.
[2] 刘彤,刘琛,倪维健. 多层次数据增强的半监督中文情感分析方法*[J]. 数据分析与知识发现, 2021, 5(5): 51-58.
[3] 王雨竹,谢珺,陈波,续欣莹. 基于跨模态上下文感知注意力的多模态情感分析 *[J]. 数据分析与知识发现, 2021, 5(4): 49-59.
[4] 常城扬,王晓东,张胜磊. 基于深度学习方法对特定群体推特的动态政治情感极性分析*[J]. 数据分析与知识发现, 2021, 5(3): 121-131.
[5] 张梦瑶, 朱广丽, 张顺香, 张标. 基于情感分析的微博热点话题用户群体划分模型 *[J]. 数据分析与知识发现, 2021, 5(2): 43-49.
[6] 韩普, 张伟, 张展鹏, 王宇欣, 方浩宇. 基于特征融合和多通道的突发公共卫生事件微博情感分析*[J]. 数据分析与知识发现, 2021, 5(11): 68-79.
[7] 吕华揆,刘政昊,钱宇星,洪旭东. 异质性财经新闻与股市关系研究*[J]. 数据分析与知识发现, 2021, 5(1): 99-111.
[8] 徐红霞,于倩倩,钱力. 基于主题模型和情感分析的话题交互数据观点对抗性分析 *[J]. 数据分析与知识发现, 2020, 4(7): 110-117.
[9] 姜霖,张麒麟. 基于引文细粒度情感量化的学术评价研究*[J]. 数据分析与知识发现, 2020, 4(6): 129-138.
[10] 石磊,王毅,成颖,魏瑞斌. 自然语言处理中的注意力机制研究综述*[J]. 数据分析与知识发现, 2020, 4(5): 1-14.
[11] 李铁军,颜端武,杨雄飞. 基于情感加权关联规则的微博推荐研究*[J]. 数据分析与知识发现, 2020, 4(4): 27-33.
[12] 沈卓,李艳. 基于PreLM-FT细粒度情感分析的餐饮业用户评论挖掘[J]. 数据分析与知识发现, 2020, 4(4): 63-71.
[13] 薛福亮,刘丽芳. 一种基于CRF与ATAE-LSTM的细粒度情感分析方法*[J]. 数据分析与知识发现, 2020, 4(2/3): 207-213.
[14] 张翼鹏,马敬东. 突发公共卫生事件误导信息受众情感分析及传播特征研究*[J]. 数据分析与知识发现, 2020, 4(12): 45-54.
[15] 谭荧,张进,夏立新. 社交媒体情境下的情感分析研究综述[J]. 数据分析与知识发现, 2020, 4(1): 1-11.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn