数据分析与知识发现, 2019, 3(4): 33-41
doi: 10.11925/infotech.2096-3467.2018.1037
突发公共卫生事件微博话题与用户行为选择研究*
Selection of Users’ Behaviors Towards Different Topics of Microblog on Public Health Emergencies
安璐1, 梁艳平2,

摘要:

【目的】揭示突发公共卫生事件各阶段微博话题与用户各种行为之间的相关关系。【方法】使用基于Relevance公式改进的LDA话题模型提取微博话题, 计算话题分别与用户转发数、评论数、点赞数以及两两之间的标准化差的余弦相似度, 分析不同话题间和同一话题下的行为规律。【结果】在突发公共卫生事件中, 用户转发、评论、点赞这三种行为的演化趋势大致相同, 转发数与评论数、评论数与点赞数、转发数与点赞数之间均存在显著的相关关系, 相关系数分别为0.390、0.274、0.180, 与事件进展、政府回应和知识普及等主题相关的微博更倾向于被评论, 而与群众意见和事件措施等主题相关的微博则更倾向于被转发。【局限】由于仅以“山东问题疫苗事件”和新浪微博作为研究案例和数据来源, 研究结论仍需其他案例和数据源的验证。【结论】用户行为有明显的倾向性, 对不同类型与同一类型的话题会产生不同的行为选择。

关键词: 微博话题 ; 用户行为 ; 舆情演化 ; 突发公共卫生事件 ; 生命周期模型

Abstract:

[Objective] This paper aims to reveal the relationship between topics of microblog and user behaviors at different stages of public health emergencies. [Methods] We analyzed the behavioral patterns among different topics and within a specific topic. The LDA topic model improved by the relevance formula was employed to extract the topics of microblog entries on public health emergencies. The cosine distances between microblog topics and the numbers of retweets, comments, favorites, as well as those between each pair of behavior counts, were calculated to explore users’ behavior patterns towards the same or different topics. [Results] During public health emergencies, the evolutionary trends of users’ behaviors of retweets, comments, favorites are roughly similar. Significant correlations exist between the counts of three behaviors. The correlation coefficients between the counts of retweets and comments, those of comments and favorites, and those of retweets and favorites are 0.390, 0.274, 0.180 respectively. Microblogs related to the topics of event progress, government responses and knowledge dissemination are more likely to be commented on, while those related to the topics of public opinions and event measures are more likely to be retweeted. [Limitations] The universality of the conclusion is subject to the examination of other cases. [Conclusions] The tendency of user behaviors towards different types of topics is obviously unequal, which means different behaviors may happen among different topics and within a specific topic.

Key words: Microblog Topics ; User Behavior ; Opinion Evolution ; Public Health Emergency ; Lifecycle Model

1 引 言

突发公共卫生事件爆发后, 群众的关注点更加集中, 行为具有针对性, 使话题和舆情演化趋势具有更明显的倾向性。由于微博的低门槛性、便捷性和即时性, 能够短时间内形成巨大的舆论场, 激发广大用户参与互动, 因此微博已成为突发公共卫生事件的主要话语集散地。突发公共卫生事件的成因与后果极其复杂, 容易引起民众恐慌、造成网络群体事件, 危害社会稳定, 一直受到各国政府与民众的关注, 因此研究突发公共卫生事件的微博舆情与用户行为十分重要。

2016年, 澎湃新闻发布了一条“未冷藏疫苗流入多省, 或致人命”的微博, 短时间内被大量微博大V和传统主流媒体转载, “山东问题疫苗事件”即刻成为全国热点话题。

本文以2016年“山东问题疫苗事件”为例, 基于突发公共卫生事件生命周期模型, 使用基于Relevance公式改进的LDA话题模型提取微博话题, 分析突发公共卫生事件情境下微博用户的行为, 通过计算话题与行为的余弦相似度挖掘微博转发数、评论数、点赞数与微博话题之间的关系, 探析网民在特殊情境下的信息需求与行为规律, 为舆情的监测与防控提供参考, 协助政府制定及时有效的决策, 实现微博舆论的正确引导, 维持网络空间和现实社会的稳定和谐。

2 相关研究
2.1 微博话题及演化分析

随着微博的普遍应用, 微博话题的研究逐渐受到许多学者的关注。Blei等在2003年提出的潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)是一种经典的话题模型[1], 在微博事件探索和话题发现方面得到了广泛应用[2,3,4]。学者们根据微博文本的特性对LDA进行多方面拓展。区别于LDA将文档表示为多个话题的概率分布, TwitterLDA假设每条微博仅有一个话题, 用户在撰写推文时, 首先根据自己的话题内容选择一个中心话题, 然后根据所选话题或背景模型在对应词汇分布上逐个选择单词, 背景词和话题词之间的选择满足伯努利分布[5]。Labeled-LDA在传统LDA的基础上融入类别标签, 通过学习类别标签与话题之间的关系建立两者之间的映射, 从而预测推文的话题[6]。有些学者还在话题模型中加入时间因素, 以研究社交媒体上某一事件话题演化的规律, 如DTM[7]、On-Line LDA[8]等。

2.2 微博话题与用户行为研究

微博用户的行为主要表现为原创发布、转发、评论、点赞、收藏和关注等。关于用户行为的影响因素及预测[9]已经积累了丰富的研究成果, 已往研究大多以分类和回归方法将微博内容类别作为预测用户转发行为的重要指标[10], 或者通过分类聚类算法提取与用户行为相关的微博话题来挖掘用户兴趣偏好[11]。近年, 突发公共事件情境下的微博用户行为也逐渐得到关注。孟吉杰分析了“H7N9”事件中某政务微博账号所发布的微博, 发现政府措施、案件进展等话题在转发数、评论数排名前10的微博中占主导地位, 问卷调研结果显示用户最愿意主动传播事件进展、预防知识等信息, 较少人愿意主动传播政府的应对措施等信息[12]。Qu等将地震发生后与事件相关的微博分为意见相关型、信息相关型、情感相关型、行动相关型, 发现在转发微博中行动相关型微博和与事件进展相关的信息相关型微博所占比例较高, 其中行动相关型微博的转发次数最高[13]

由此可见, 目前关于微博话题与用户行为的研究主要为不同话题类型下用户的转发、行为数量的分布统计和直观比较, 较少分析微博话题与用户行为的相关性, 忽略了点赞行为这项显著的用户行为同样与微博话题和舆情演化密切相关。本文针对转发、评论、点赞三种微博用户行为, 利用话题模型与统计学方法, 从更为复杂和细微的角度分析微博信息话题与用户行为的相关性, 探索用户的行为规律, 丰富了微博话题与用户行为研究的内容和手段。

2.3 突发公共卫生事件信息传播的生命周期研究

针对不同类型的突发公共卫生事件, 学者们提出了多种划分方法。Burkholder等将危机事件划分为事前、事中、事后三个基本阶段[14]; Fink借鉴医学术语将危机的生命周期划分为征兆期、爆发期、持续期、恢复期[15]; Turner根据灾难发生后造成的影响提出七阶段论[16]。易承志将群体性突发公共卫生事件网络舆情的演变划分为形成、扩散、爆发和终结4个阶段[17]; 贾亚敏等针对不同类型的城市突发公共卫生事件及具体案例, 将城市突发公共卫生事件网络舆情演变概括为起始、爆发、衰退、平息4个阶段[18]; 刘志明等构建了基于老化理论(Aging Theory)的突发公共卫生事件微博负面情绪生命周期模型, 以实现对民众负面情绪的实时监测与预警[19]

综上, 目前关于微博信息与用户行为的研究热点为通过分析突发公共卫生事件中转发数、评论数较高的微博来发现微博用户群体在不同阶段所关心的热门话题, 鲜少深入分析用户行为与微博话题的相关关系, 缺乏对用户行为的多维比较, 忽略了在突发公共卫生事件舆情传播过程中, 由于事件发展和用户话题偏好引起的用户行为在不同阶段存在的差异。本文以微博用户转发、评论、点赞行为为研究对象, 分析用户在事件发展不同阶段的行为特征; 结合微博文本的话题分布, 从多维角度分析在突发公共卫生事件中用户行为与舆情话题之间的关系, 力图全面刻画用户在突发公共卫生事件情境下的行为特征。

3 方法设计
3.1 分析方法

针对微博文本和突发公共卫生事件的话题特征, 使用以下两种方法对突发公共卫生事件的微博语料进行分析, 探索微博话题与用户行为的相关关系。

(1) 针对研究语料的文本特征和内容特征, 使用基于Relevance公式改进的LDA模型[20], 通过指定$\lambda$ , 选择具有合适的排他性和出现频率的话题词来表征特定话题, 从而更加准确有效地提取微博语料反映的话题内容, 生成每条文本的话题分布矩阵。

(2) 利用话题分布矩阵与用户行为数据, 计算博文话题与用户行为的余弦相似度[21], 分析用户行为与微博话题的相关关系。若不同话题与用户行为的余弦相似度存在明显差异, 说明不同话题与特定的用户行为相关联, 即有些话题倾向于被用户转发, 有些话题倾向于被用户评论或者点赞; 反之, 若所有话题与用户行为的余弦相似度都大致相等, 则说明用户行为与微博话题无关。通过计算三种用户行为两两之间的标准化差与博文话题的余弦相似度, 分析同一话题下用户的行为偏向, 更加全面地洞悉微博用户在突发公共卫生事件中的行为模式。

3.2 突发公共卫生事件中微博信息的话题提取

传统的LDA模型得到的话题是语料库词汇表中若干词语的多项分布, 话题之间的识别与区分依靠各自词袋中的词语, 与某话题相关度越高的词语越能表征该话题。然而在实际应用中, 表征某话题的词语经常包括在语料库词汇表中频繁出现的非特定词, 这些词在其他话题中也普遍存在, 这样的通用词对于话题识别没有意义, 反而难以对话题进行区分。Sievert等搭建了一个基于网络的交互式可视化系统LDAvis, 该系统利用基于Relevance公式改进的LDA模型, 允许用户通过交互式调整来确定表征特定话题的最有用的词语[20]。为提高话题的可读性和独立性, 本文采用这一方法抽取话题表征词。Relevance公式如公式(1)所示。

$r(w,\left. k \right|\lambda )=\lambda \log ({{\Phi }_{kw}})+(\text{l}-\lambda )\log (\frac{{{\Phi }_{kw}}}{{{p}_{w}}})$ (1)

其中, w表示语料库中的词语, k表示话题。pw表示词语w在话题-词语分布矩阵Φ中的边际概率, Φkw表示词语w与话题k的相关度。λ是一个在[0,1]取值的可变参数, λ趋近于0时, 表示话题表征词具有排他性, 即在本话题下更独有、更特殊的词与本话题的相关性越强; λ趋近于1时, 表示在本话题下出现次数更多的词, 更能表征该话题。用户可以通过给定λ值, 调节词语w与话题k的相关程度, 即$r(w,\left. k \right|\lambda )$。

3.3 余弦相似度

余弦相似度利用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小[21]。两个n维向量$A=({{A}_{1}},{{A}_{2}},\cdot \cdot \cdot ,{{A}_{n}})$, $B=({{B}_{1}},{{B}_{2}},\cdot \cdot \cdot ,{{B}_{n}})$之间的余弦相似度如公式(2)所示。

$\cos \theta =\frac{\mathop{\sum }_{i=1}^{n}({{A}_{i}}\times {{B}_{i}})}{\sqrt{\mathop{\sum }_{i=1}^{n}{{A}_{i}}^{2}}\times \sqrt{\mathop{\sum }_{i=1}^{n}{{B}_{i}}^{2}}}$ (2)

余弦相似度取值范围是[-1,1], 值越趋近于1, 代表两个向量越相似且方向越接近; 越趋近于-1, 代表两个向量越相似且方向越相反; 接近于0, 表示两个向量近乎于正交, 即完全不相似。

本文利用余弦相似度计算微博信息话题与用户行为之间相关性:

(1) 将n条博文关于k个话题的隶属度映射为向量, 得到kn维话题向量:

${{T}_{i}}=({{t}_{i1}},{{t}_{i2}},\cdot \cdot \cdot ,{{t}_{in}}),i=1\text{ }\!\!\tilde{\ }\!\!\text{ }k$

(2) 将m种用户行为数据也映射为n维向量:

${{A}_{j}}=({{a}_{j1}},{{a}_{j2}},\cdot \cdot \cdot ,{{a}_{jn}}),j=1\text{ }\!\!\tilde{\ }\!\!\text{ }m$

(3) 计算每种用户行为向量Ajk个话题向量Ti之间的余弦相似度, 将计算结果汇总为话题-行为矩阵:

Ω =$\left[ \begin{matrix} {{d}_{11}} & {{d}_{21}} & \ldots & {{d}_{m1}} \\ {{d}_{12}} & {{d}_{22}} & \ldots & {{d}_{m2}} \\ \ldots & \ldots & {{d}_{ji}} & \ldots \\ {{d}_{1k}} & {{d}_{2k}} & \ldots & {{d}_{mk}} \\\end{matrix} \right]$ (3)

通过对矩阵中的数据进行横向纵向对比, 分析微博信息话题与用户行为的相关性。dji的相对数值越大, 特定话题与某种用户行为数据的关系越密切。

4 实验过程与结果分析
4.1 数据描述与处理

以“山东问题疫苗事件”为研究案例, 在新浪微博平台以“疫苗”为关键词进行检索, 使用GooSeeker爬虫软件收集2016年3月18日至2016年4月15日的相关微博共112 060条, 经过人工判断, 剔除无效微博18 271条。结合本文研究内容, 只保留转发、评论、点赞数量不全为0的微博共28 790条。

结合博文样本的语言特征, 引入搜狗词库中的药品名称、医学词汇、法律词汇、心理学词汇、生物化学词汇作为用户词库, 利用基于哈尔滨工业大学停用词表扩展的停用词表, 使用Jieba分词工具对所有博文内容分词、去除停用词。

对预处理之后得到的微博语料, 根据困惑度曲线初步确定话题数量范围, 使用R语言话题可视化包LDAVis[22]多次聚类之后最终确定话题数量为56个, 在λ=0.48时取每个话题的前30个表征词进行话题归纳。以Topic3为例, 聚类结果如图1所示。

图1 话题可视化展示

4.2 实验结果分析

(1) 微博用户行为的演化分析

借鉴知名危机管理专家Fink提出的四阶段模型[15], 结合“山东问题疫苗事件”舆情演变的特点, 将突发公共卫生事件话题传播生命周期划分为征兆期、爆发期、持续期、恢复期, 如图2所示。

图2 “山东问题疫苗”事件微博传播生命周期

突发公共卫生事件微博舆情在不同阶段呈现不同的特征, 用户行为也具有阶段性特点。由图2可以看出, 除了爆发期之外, 用户转发数、评论数、点赞数的变化趋势是一致的, 但是不同阶段的行为强度存在差别。征兆期用户行为以转发为主。3月18号, 用户“澎湃新闻”和“小儿外科裴医生”发布微博称“数亿元未冷藏疫苗流入多省, 或致人命”, 引起网友的热切关注, 之后热点稍稍回落。直到3月20号, 买卖问题疫苗人员名单公布和注射失效疫苗存在潜在风险的消息再次引起网友的广泛关注与热烈讨论。爆发期微博发布数较高, 用户行为以点赞为主, 变化趋势存在较大差异。引起点赞数量显著上升的是由两位明星发布的要求政府部门尽快查清涉事医院和受害者的博文。在爆发期的所有相关微博中, 由公众人物发布的6条微博的转发比例和评论比例均为35%, 点赞比例却高达85%。公众人物在疫苗事件中起着意见领袖的作用, 其微博在一定程度上影响了舆情的发展和粉丝的观点与行为[23]。持续期微博发布数较高, 但是三种用户行为均明显下降。只有某明星转发的关于涉案疫苗调查情况通报的微博获得了较高的点赞数。随着事件的平息和“和颐酒店”事件的发生, 恢复期微博用户对问题疫苗事件的关注度降至最低。这与对日本大地震之后微博用户行为的观察结果类似[24], 随着危机事件的好转, 相关微博的发布数和转发评论数下降趋势明显。

“山东问题疫苗事件”的每个阶段中转发数、评论数、点赞数前三名对应的微博话题如表1所示, 可以看出不同阶段突出的用户行为对应的微博话题不尽相同, 说明不同的话题的确能够导致不同的用户行为。

表1 不同时期显著用户行为及其话题

(2) 微博信息的话题与行为的相关性分析

①用户行为的相关性分析

转发、评论、点赞等行为能够在一定程度上反映用户对博文内容的态度, 并推动微博舆情的发展。本文通过计算微博样本中转发数、评论数与点赞数之间的Spearman相关系数, 分析“山东问题疫苗事件”中这三种用户行为两两之间是否存在相关关系。使用SPSS21.0得到的计算结果如表2所示。

表2 转发数、评论数、点赞数的相关性分析

表2可以看出, 评论数与转发数、点赞数之间均存在弱相关关系, 而转发数与点赞数之间的相关性较弱。宋恩梅等分析新浪微博“时尚”标签下个人认证用户发布的微博发现, 博文转发数与评论数高度相关[25]。而王晓光分析某一时间段内微博“随便看看”板块发布的微博发现, 博文的转发数和评论数中度相关[26]。由此可见, 不同情境、不同角度下微博用户行为呈现不同的相关关系, 突发公共卫生事件情境下用户转发、评论、点赞三种行为之间的关系与用户日常行为存在差异。

②话题与行为的相关性分析

1)话题与行为差异

事实上, 用户的行为受到多方面因素的影响, 博文内容是其主要影响因素之一, 用户出于不同目的对不同话题有选择性地采取某种行为。那么在突发公共卫生事件中, 哪些话题分别容易引起用户的转发、评论或点赞呢?使用余弦相似度算法, 借助SPSS21.0, 分别计算“山东问题疫苗”事件中三种用户行为与56个话题的余弦相似度, 对比探究突发公共卫生事件情境下用户行为与微博话题之间的相关关系。依据“两向量余弦相似度越接近1、两者越相似”的原理, 选取“山东问题疫苗事件”的56个话题中与转发数、评论数、点赞数的余弦值较大的多个话题进行分析。

话题与转发行为的关系: 与转发数的余弦相似度大于0.01的11个话题如表3所示。用户最倾向于转发事件进展类微博, 其次是意见相关类微博, 其中涉及问题疫苗流向和由澎湃新闻报道的“未冷藏疫苗流入多省, 或致人命”的微博引起广大用户的积极转发。

表3 与转发行为更为相关的微博话题

话题与评论行为的关系: 与评论数的余弦相似度大于0.01的话题有27个, 主要以与事件进展、政府活动、疫苗销售相关的话题为主。其中与问题疫苗流向相关的三个话题较为显著, 说明在事件爆发之后, 人们最关注的问题在于确认自己是否注射过问题疫苗, 或是当下是否应该注射疫苗。

话题与点赞行为的关系: 与点赞数的余弦相似度大于0.01的话题仅有三个, 分别是“网友要求政府部门尽快查清涉事医院和受害者”(0.025)、“六年前王克勤记者曾揭露山西疫苗乱象”(0.01)、“群众呼吁众星关注问题疫苗事件”(0.01)。与点赞数余弦相似度较小的话题, 不能说明其不被用户支持, 只是与点赞数余弦相似度较大的话题能够代表当前用户群体普遍认同的热门话题。结合图2可以看出, 虽然点赞行为在“山东问题疫苗事件”爆发期中占主导地位, 但是引起用户积极点赞的话题较为单一, 点赞数最高的两条微博都是由同一位明星发布的关于呼吁彻查涉事医院和受害者的, 而这两条微博的转发数、评论数远不及点赞数。几位明星账号关于“山东问题疫苗事件”的发声具有高度一致性, 他们在此事件中扮演着意见领袖的角色, 因此“群众呼吁众星关注问题疫苗事件”话题容易引起用户点赞。

综上, 容易引起用户转发、评论、点赞的前三个话题存在共性, 话题“澎湃新闻报道未冷藏疫苗流入多省, 或致人命”容易引起用户的转发与评论, 话题“网友要求政府部门尽快查清涉事医院和受害者”容易引起用户的评论与点赞。

2)话题与行为偏向

通过观察数据发现, 大多数微博的转发数、评论数、点赞数存在差异却并不显著, 但是也存在一些微博的转发数、评论数、点赞数差别巨大。为研究这一现象是否与话题相关, 将转发数、评论数、点赞数按列使用最大最小化归一法将数据标准化并求差(即转发数-评论数、转发数-点赞数、评论数-点赞数), 计算“山东问题疫苗事件”中三种用户行为差值与56个话题的余弦相似度, 通过对比探究突发公共卫生事件情境下微博话题所导致的用户行为间的差异。

用户倾向于评论的话题包含用户倾向于转发的所有话题, 说明能够引起用户转发和评论的微博话题具有一定关系。标准化的转发数与评论数之差与56个话题的余弦相似度大多数为负数, 说明大多数话题尤其事件进展和政府回应相关微博容易引起用户评论, 而“问题疫苗流入的24省市名单公布”等少量话题更容易引起用户转发, 如表4所示。从话题与标准化转发与点赞之差的结果看来, 余弦相似度几乎都为正数, 即相对于点赞, 用户更倾向于转发这些话题, 例如用户对话题“问题疫苗流入的24省市名单公布”更倾向于转发而对话题“网友要求政府部门尽快查清涉事医院和受害者”点赞。与话题和转发-评论的相关性结果形成鲜明对比, 话题与评论-点赞偏向的结果都是正数, 说明与“山东问题疫苗事件”相关的所有话题都相对较少引起用户点赞, 与事件进展和政府回应的相关微博则会引起用户的广泛评论。

表4 引起转发数、评论数差异的话题

综上, “山东问题疫苗事件”中用户行为具有明显的针对性与选择性, 不同类型的话题引起的用户行为可能存在极大的差异。Qu等[13, 27]将地震发生后的微博消息类型划分为意见相关型、信息相关型、情感相关型、行动相关型。本文根据“山东问题疫苗事件”相关微博话题的特点, 将56个话题归纳为事件进展、群众意见、政府回应、知识普及、事后措施5类, 并依照前文用户行为与不同话题之间的关系, 总结出分别与转发、评论、点赞联系密切的话题类型, 结果如表5所示。

表5 用户行为与话题类型

5 结 语

本文基于突发公共卫生事件生命周期理论, 结合具体案例探索突发公共卫生事件不同阶段微博用户行为的特征及演化规律, 并使用基于Relevance公式改进的LDA话题建模方法提取微博话题, 从多维的角度对突发公共卫生事件中不同类型的微博话题与用户行为之间的相关性进行探讨。研究发现, 在突发公共卫生事件中, 用户转发、评论、点赞三种行为的演化趋势大致相同, 三者之间的相关性较弱, 明星等意见领袖的参与可能会造成用户行为发生明显差异; 用户行为有明显的倾向性, 对不同类型的话题会产生不同的行为选择, 对同一类型的话题也会产生不同的行为倾向。用户行为可以作为网络舆情的风向标, 因此, 分析突发公共卫生事件中用户行为的特征, 有助于帮助相关部门实时了解舆情走势和用户诉求, 为突发公共卫生事件应急响应系统提供决策支持, 及时采取有效措施进行回应与引导, 避免造成舆情失控和民众恐慌, 维持网络健康与社会安定。本文仅以“山东问题疫苗事件”为例, 研究范围有限, 因此研究结论的普适性有待其他案例的考证; 另外, 由于本文案例在微信朋友圈也引起热议, 微博用户与微信用户之间可能存在迁移, 因此, 在后续研究中, 可以收集来自不同平台的数据, 探讨同一突发公共卫生事件中不同网络平台的舆情热点和用户行为特征, 研究用户在不同平台之间的行为差异与迁移, 归纳不同突发公共卫生事件网络舆情的异同, 从而有助于全面掌控网络空间的舆情演化规律, 针对性地进行突发公共卫生事件预警与防控。

(致谢:感谢图书情报国家级实验教学示范中心为本研究提供的实验支持!)

作者贡献声明

安璐: 提出研究思路与方法, 结果分析, 论文修改、修订;

梁艳平: 文献调研, 数据获取与处理, 实验操作, 结果分析, 论文初稿撰写。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: 827460499@qq.com。

[1] 梁艳平. weibo_content(分阶段)2.93-07.xlsx. 实验数据.

[2] 梁艳平. Data.zip. 文本预处理、话题建模实现和余弦相似度计算结果.

参考文献

[1] Blei D M, Ng A Y, Jordan M I.Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[本文引用:1]
[2] Liu X, Burns A C, Hou Y.An Investigation of Brand-Related User-Generated Content on Twitter[J]. Journal of Advertising, 2017, 46(2): 236-247.
Abstract The big data of user-generated content (UGC) on social media are laden with potential value for brand managers. However, there are many obstacles to using big data to answer brand-management questions. This article presents a framework that automatically derives latent brand topics and classifies brand sentiments. It applies text mining with latent Dirichlet allocation (LDA) and sentiment analysis on 1.7 million unique tweets for 20 brands across five industries: fast food, department store, footwear, electronics, and telecommunications. The framework is used to explore four brand-related questions on Twitter. There are three main findings. First, product, service, and promotions are the dominant topics of interest when consumers interact with brands on Twitter. Second, consumer sentiments toward brands vary within and across industries. Third, separate company-specific analyses of positive and negative tweets generate a more accurate understanding of Twitter users' major brand topics and sentiments. Our findings provide brand managers with actionable insights in targeted advertising, social customer relationship management (CRM), and brand management.
DOI:10.1080/00913367.2017.1297273      URL     [本文引用:1]
[3] Panasyuk A, Yu E S L, Mehrotra K G. Controversial Topic Discovery on Members of Congress with Twitter[J]. Procedia Computer Science, 2014, 36: 160-167.
This paper addresses how Twitter can be used for identifying conflict between communities of users. We aggregate documents by topic and by community and perform sentiment analysis, which allows us to analyze the overall opinion of each community about each topic. We rank the topics with opposing views (negative for one community and positive for the other). For illustration of the proposed methodology we chose a problem whose results can be evaluated using news articles. We look at tweets for republican and democrat congress members for the 112th House of Representatives from September to December 2013 and demonstrate that our approach is successful by comparing against articles in the news media.
DOI:10.1016/j.procs.2014.09.073      URL     [本文引用:1]
[4] Karami A, Dahl A A, Turner-Mcgrievy G, et al.Characterizing Diabetes, Diet, Exercise, and Obesity Comments on Twitter[J]. International Journal of Information Management, 2018, 38(1): 1-6.
Social media provide a platform for users to express their opinions and share information. Understanding public health opinions on social media, such as Twitter, offers a unique approach to characterizing common health issues such as diabetes, diet, exercise, and obesity (DDEO); however, collecting and analyzing a large scale conversational public health data set is a challenging research task. The goal of this research is to analyze the characteristics of the general public's opinions in regard to diabetes, diet, exercise and obesity (DDEO) as expressed on Twitter. A multi-component semantic and linguistic framework was developed to collect Twitter data, discover topics of interest about DDEO, and analyze the topics. From the extracted 4.5 million tweets, 8% of tweets discussed diabetes, 23.7% diet, 16.6% exercise, and 51.7% obesity. The strongest correlation among the topics was determined between exercise and obesity ( p 02<02.0002). Other notable correlations were: diabetes and obesity ( p 02<02.0005), and diet and obesity ( p 02<02.001). DDEO terms were also identified as subtopics of each of the DDEO topics. The frequent subtopics discussed along with “Diabetes”, excluding the DDEO terms themselves, were blood pressure, heart attack, yoga, and Alzheimer. The non-DDEO subtopics for “Diet” included vegetarian, pregnancy, celebrities, weight loss, religious, and mental health, while subtopics for “Exercise” included computer games, brain, fitness, and daily plan. Non-DDEO subtopics for “Obesity” included Alzheimer, cancer, and children. With 2.67 billion social media users in 2016, publicly available data such as Twitter posts can be utilized to support clinical providers, public health experts, and social scientists in better understanding common public opinions in regard to diabetes, diet, exercise, and obesity.
DOI:10.1016/j.ijinfomgt.2017.08.002      URL     [本文引用:1]
[5] Zhao W X, Jiang J, Weng J, et al.Comparing Twitter and Traditional Media Using Topic Models[C]// Proceedings of the 33rd European Conference on Information Retrieval. 2011: 338-349.
[本文引用:1]
[6] Ramage D, Dumais S T, Liebling D J.Characterizing Microblogs with Topic Models[C]// Proceedings of the 4th International AAAI Conference on Weblogs and Social Media. 2010: 130-137.
[本文引用:1]
[7] Blei D M, Lafferty J D.Dynamic Topic Models[C]// Proceedings of the 23rd International Conference on Machine Learning. ACM, 2006: 113-120.
[本文引用:1]
[8] Lau J H, Collier N, Baldwin T.On-line Trend Analysis with Topic Models: #twitter Trends Detection Topic Model Online[C]// Proceedings of the 2012 International Conference on Computational Linguistics. 2012: 1519-1534.
[本文引用:1]
[9] Zhao H, Liu G, Shi C, et al.A Retweet Number Prediction Model Based on Followers’ Retweet Intention and Influence[C]// Proceedings of the 2014 IEEE International Conference on Data Mining Workshop. IEEE, 2015: 952-959.
[本文引用:1]
[10] 马莹莹. 微博用户转发行为及情感预测研究[D]. 哈尔滨: 哈尔滨工业大学, 2015.
[本文引用:1]
(Ma Yingying.Research on Prediction of Retweeting Behaviors and Sentiment on Microblog[D]. Harbin: Harbin Institute of Technology, 2015.)
[11] 唐晓波, 罗颖利. 融入情感差异和用户兴趣的微博转发预测[J]. 图书情报工作, 2017, 61(9): 102-110.
[目的J意义]微博转发是实现微博信息传播的重要方式,对用户转发行为进行研究可以更好地理解微博信息传播机制,对热点话题检测、舆情监控、微博营销等具有重要意义。针对以往研究中用户兴趣表示不够全面准确以及未考虑情感差异对用户转发行为的影响,提出一个融入情感差异和用户兴趣的微博转发预测模型。[方法/过程]该模型首先从维基百科中提取概念语义关系构建维基知识库,将其作为语义知识源对微博文本进行语义扩展,解决语义稀疏问题;对语义扩展后的用户历史微博进行聚类,提取用户兴趣主题和主题对用户的影响力;然后计算微博中各类情感的情感强度,提取情感差异特征;最后结合用户行为特征、用户交互特征、微博特征、用户兴趣特征和情感差异特征,运用SVM实现微博转发预测。[结果J结论]在新浪微博真实数据集上进行实验,验证了所提模型的有效性。
DOI:10.13266/j.issn.0252-3116.2017.09.013      URL     [本文引用:1]
(Tang Xiaobo, Luo Yingli.Integrating Emotional Divergence and User Interests into the Prediction of Microblog Retweeting[J]. Library and Information Service, 2017, 61(9): 102-110.)
[12] 孟吉杰. 突发事件中政务微博发布的实证研究——以“上海发布”典型案例为例[D]. 上海: 上海交通大学, 2014.
[本文引用:1]
(Meng Jijie.An Empirical Study on the Government Microblog Released in Emergencies —— “Shanghai City” Microblog as an Example[D]. Shanghai: Shanghai Jiaotong University, 2014.)
[13] Qu Y, Huang C, Zhang P, et al.Microblogging After a Major Disaster in China: A Case Study of the 2010 Yushu Earthquake[C]// Proceedings of the ACM 2011 Conference on Computer Supported Cooperative Work, 2011: 25-34.
[本文引用:2]
[14] Burkholder B T, Toole M J.Evolution of Complex Disasters[J]. The Lancet, 1995, 346(8981): 1012-1015.
DOI:10.1016/S0140-6736(95)91694-6      URL     [本文引用:1]
[15] Fink S.Crisis Management: Planning for the Inevitable[M]. New York: American Management Association, 1986: 20.
[本文引用:2]
[16] Turner B A.The Organizational and Interorganizational Development of Disasters[J]. Administrative Science Quarterly , 1976, 21(3): 378-397.
Public inquiries into behavior connected with three major disasters are examined and classified to study the conditions under which large-scale intelligence failures develop. Common causal features are rigidities in institutional beliefs, distracting decoy phenomena, neglect of outside complaints, multiple information-handling difficulties, exacerbation of the hazards by strangers, failure to comply with regulations, and a tendency to minimize emergent danger. Such features form part of the incubation stage in a sequence of disaster development, accumulating unnoticed until a precipitating event leads to the onset of the disaster and a degree of cultural collapse. Recommendations following public inquiries are seen as part of a process of cultural readjustment after a disaster, allowing the ill-structured problem which led to the failure to be absorbed into the culture in a well-structured form. The sequence model of intelligence failure presented and the discussion of cases are intended to offer a paradigm for discussion of less tragic, but equally important organizational and interorganizational failures of foresight.
DOI:10.2307/2391850      URL     [本文引用:1]
[17] 易承志. 群体性突发事件网络舆情的演变机制分析[J]. 情报杂志, 2011, 30(12): 6-12.
随着网络社会的发展,现实群体性突发事件容易通过互联网形成网络舆情,并对政府的群体性突发事件应对带来严峻挑战。增强新形势下政府应对群体性突发事件的能力要求探明群体性突发事件网络舆情的演变机制。群体性突发事件网络舆情的演变包括形成、扩散、爆发和终结四个阶段,在上述整个过程群体性突发事件的网络舆情都处于动态变化中。在不同阶段,网络舆情的编码性、抽象性和扩散性也呈现出不同的特征。网络舆情的启动机制、驱动机制、变动机制和阻动机制分别在形成、扩散、爆发和终结阶段发挥着主导作用。
DOI:10.3969/j.issn.1002-1965.2011.12.002      URL     [本文引用:1]
(Yi Chengzhi.Analysis on the Changing Mechanism of Mass Emergency Network Public Opinion[J]. Journal of Intelligence, 2011, 30(12): 6-12.)
[18] 贾亚敏, 安璐, 李纲. 城市突发事件网络信息传播时序变化规律研究[J]. 情报杂志, 2015, 34(4): 91-96, 90.
网络信息传播在城市突发事件中发挥着重要的作用,关于城市突发事件网络信息传播规律的研究逐渐成为人们关注的重点。通过收集分析近几年发生的38个城市突发事件案例,建立了城市突发事件网络信息传播的生命周期模型,揭示各阶段的量化特征,发现突发事件的网络信息传播时序图呈现出"一峰"与"双峰"现象,构建了各阶段发展的量化模型,并分析了出现这些现象的原因。其研究发现有助于城市管理者全面掌握城市突发事件网络信息传播的规律,准确把握应对突发事件的恰当时机,从而采取有效的应对措施,减少灾后损失。
DOI:10.3969/j.issn.1002-1965.2015.04.018      URL     [本文引用:1]
(Jia Yamin, An Lu, Li Gang.On the Online Information Dissemination Pattern of City Emergencies[J]. Journal of Intelligence, 2015, 34(4): 91-96, 90.)
[19] 刘志明, 刘鲁. 面向突发事件的民众负面情绪生命周期模型[J]. 管理工程学报, 2013, 27(1): 15-21.
突发事件的发生容易引发网络社会情绪危机,对民众负面情绪进行监控预警以及平复是突发事件应急管理的关键环节。本文基于Aging theory模型,以预警为目的,设计了面向突发事件的微博民众负面情绪生命周期模型,并在此基础上,结合微博主题检测与跟踪技术以及微博情感分析技术,构建了基于微博的民众负面情绪实时监控预警框架。以25起突发事件为实验对象,对本文提出的模型进行了验证,实验结果表明本文提出的模型是有效的,可以实时正确的反映民众负面情绪的演化,结合预警模式可以给出实时的预警。
DOI:10.3969/j.issn.1004-6062.2013.01.003      URL     [本文引用:1]
(Liu Zhiming, Liu Lu.Public Negative Emotion Model in Emergencies Based on Aging Theory[J]. Journal of Industrial Engineering and Engineering Management, 2013, 27(1): 15-21.)
[20] Sievert C, Shirley K E.LDAvis: A Method for Visualizing and Interpreting Topics[C]// Proceedings of the Workshop on Interactive Language Learning, Visualization, and Interfaces. 2014: 63-70.
[本文引用:2]
[21] Han J, Kamber M, Pei J.Data Mining Concepts and Techniques[M]. The 3rd Edition. New York: Morgan Kaufmann, 2012.
[本文引用:2]
[22] R语言LDA可视化包LDAvis[EB/OL]. [2018-02-28]..
URL     [本文引用:1]
(A LDA Visualization Package in R[EB/OL]. [2018-02-28]..)
URL    
[23] 王佳敏, 吴鹏, 陈芬, . 突发事件中意见领袖的识别和影响力实证研究[J].情报学报, 2016, 35(2): 169-176.
意见领袖在突发事件中扮演着传播、引导、推动舆论发展等重要作用。为了对突发事件中的意见领袖进行识别和影响力分析,本文从影响力和活跃度两个维度出发,结合微博的传播特点,构建微博意见领袖指标体系,应用一种改进的层次分析法(Analytic Hierarchy Process,AHP)确定指标权重,并通过新浪微博数据进行实证研究。实验结果表明,本文构建的指标体系,能够科学有效的识别出突发事件中的微博意见领袖。研究提供了一种意见领袖识别模型,可以科学有效的对突发事件中的意见领袖进行识别和影响力分析。
DOI:10.3772/j.issn.1000-0135.2016.002.006      URL     [本文引用:1]
(Wang Jiamin, Wu Peng, Chen Fen, et al.Empirical Study on Recognition and Influence of Opinion Leaders in Emergency[J]. Journal of the China Society for Scientific and Technical Information, 2016, 35(2): 169-176.)
[24] 易兰丽. 基于人类动力学的微博用户行为统计特征分析与建模研究[D]. 北京: 北京邮电大学, 2012.
[本文引用:1]
(Yi Lanli.Research on Statistical Characteristic Analysis and Modeling for User Behavior in Microblog Community Based on Human[D]. Beijing: Beijing University of Posts and Telecommunications, 2012.)
[25] 宋恩梅, 左慧慧. 新浪微博中的“权威”与“人气”: 以社会网络分析为方法[J]. 图书情报知识, 2012(3): 43-54.
本文以新浪微博"时尚"标签下的用户作为研究样本,基于样本用户间以及整个新浪微博用户间的关注关系分别构建了"相互关注"网络与"共同关注"网络,运用社会网络分析法揭示了微博中该标签领域的权威人物及网络成员之间的关系,并进一步对比分析了"相互关注"和"共同关注"的网络属性差异以及差异产生的原因。此外,本文还分析了表征人气的粉丝数、博文转发数、博文评论数这三个指标之间的相关性及其与社会网络分析指标的相关性,对微博核心用户的确定问题进行了讨论。
URL     [本文引用:1]
(Song Enmei, Zuo Huihui.Authority and Popularity: Social Network Analysis on Sina Microblogging[J]. Document, Information & Knowledge, 2012(3): 43-54.)
[26] 王晓光. 微博客用户行为特征与关系特征实证分析——以“新浪微博”为例[J]. 图书情报工作, 2010, 54(14): 66-70.
<html dir="ltr"><head><title></title></head><body><font style="BACKGROUND-COLOR: #cce8cf">微博客是继博客之后迅速发展起来的一种新的社交网络平台。以&ldquo;新浪微博&rdquo;为研究样本,较为系统地研究微博客的基本结构、信息传播一般模式,考察微博客用户基本行为特征和关系特征,分析微博客影响力的相关变量,并建立影响力回归方程。</font></body></html>
Magsci     URL     [本文引用:1]
(Wang Xiaoguang.Empirical Analysis on Behavior Characteristics and Relation Characteristics of Micro-blog Users——Take “Sina Micro-blog” for Example[J]. Library and Information Service, 2010, 54(14): 66-70.)
[27] Qu Y, Wu P F, Wang X.Online Community Response to Major Disaster: A Study of Tianya Forum in the 2008 Sichuan Earthquake[C]// Proceedings of the 42nd Hawaii International Conference on System Sciences. IEEE, 2009: 1-11.
[本文引用:1]
资源
PDF下载数    
RichHTML 浏览数    
摘要点击数    

分享
导出

相关文章:
关键词(key words)
微博话题
用户行为
舆情演化
突发公共卫生事件
生命周期模型

Microblog Topics
User Behavior
Opinion Evolution
Public Health Emergency
Lifecycle Model

作者
安璐
梁艳平

An Lu
Liang Yanping