【目的】探究微博用户转发行为的影响因素。【方法】基于计划行为理论, 考虑微博所传达情感及微博平台的时间线机制对于用户转发行为的影响, 提出研究假设并对其进行验证。【结果】用户情感与微博情感相似度、粉丝量均对微博用户转发行为具有显著影响, 微博时间线机制对于用户转发行为几乎没有影响。【局限】对于用 户的登录时间采用统一时间节点。【结论】本研究结果对于网络舆情控制、个性化推荐、微博广告营销具有借鉴意义。
[Objective] This paper tries to explore the influencing factors of Microblog (Weibo) user’s reposting behaviors. [Methods] Based on the theory of planned behavior, we evaluted the sentiment of Weibo users and the impacts of the Weibo timeline on users’ reposting behaviors. [Results] The degree of similarity between the real world and online sentiments of Weibo users’, as well as the number of followers had significant impacts on Weibo user’s reposting behaviors. The timeline feature posed little effect to the user’s reposting behaviors. [Limitations] Only examined users logging in Weibo at a specific time. [Conclusions] This study could improve the performance of public opinion management, personalized recommendation, and advertising campains on Weibo.
社交网络服务(Social Networking Service, SNS)为舆情信息的传播提供了一个新平台, 构成以网民为节点的舆情传播网。在中国, 微博已成为广大民众获取信息的渠道之一, 根据《第42次中国互联网络发展状况统计报告》显示, 截至2018年6月, 微博用户规模较2017年末增长了6.8%[1]。微博作为一个集信息发布和传播于一体的社会化媒体平台, 其用户可以不受时间、空间限制对某条信息进行发布及评论, 使得信息在短时间内通过网络或被关注或被转发, 也可能进一步发展为社会舆论事件。转发行为作为微博用户传播消息的重要手段, 也是网络舆论事件发酵的一个主要途径。因此, 分析微博用户的转发行为, 对于网络舆情控制、个性化推荐、微博广告营销均具有一定的参考作用。
本文选定新浪微博用户作为研究对象, 基于计划行为理论从行为态度、主观规范以及感知行为控制三个方面提出研究假设, 并利用二元逻辑回归模型对假设进行验证。
用户行为是近年来的研究热点, 关于用户行为影响因素或动机方面的研究主要集中在以下三个方面:
(1) 基于用户特征属性。用户兴趣、突发新闻及朋友的推文这三方面的影响因素被用于Twitter用户转发行为的预测[2]; 性别也会影响用户进行信息实时分享的行为[3]; 用户的权威性、用户偏好及用户的社会关系作为影响因素被用于微博用户转发行为的预测[4]; 转发活跃度、用户兴趣、交互度均对微博用户转发行为具有显著影响[5]; 基于用户个性化的内容兴趣偏好, 文献[6]通过SVM方法预测了单个用户是否会转发某条微博。
(2) 基于微博网络拓扑结构。针对微博用户的关注网络, 概率级联模型被用来预测给定微博主题的转发路径 [7]; 社会网络分析方法被用来研究网络舆情传播路径[8]; 改进的SEIR网络模型结合贝叶斯算法可以实现对转发路径的预测[9]; 活跃邻居节点对用户转发意愿具有一定影响[10]; 针对微博中存在不同的传播模式, 文献[11]对网络中强势节点和桥节点的作用进行了分析。
(3) 基于微博内容特征。标签、URL等诸多因素是用户转发行为的主要影响因素[12]; 微博包含Hashtag、图片、视频以及@符号等是否会影响用户的转发行为[13]; 微博内容的长度在一定程度上对用户转发行为具有影响[7]; 微博消息内容的重要性也是影响用户转发行为的重要因素[14]。
用户转发微博的一个目的是传播信息, 所以该过程可以看作信息传播过程。信息传播过程中包括三个要素: 信源、信道、信宿。据此, 目前关于微博用户转发行为的研究主要围绕用户或者微博文本内容展开, 即主要针对信息传播过程中的“信源”及“信宿”进行研究。微博平台作为用户发生转发行为的载体, 也是信息传播过程中的“信道”。由于微博平台的时间线机制, 用户看到的微博往往是最新发布的内容, 部分微博由于被淹没而不能被用户浏览。现有研究中, 关于微博平台的时间线机制对微博用户转发行为影响的研究较少; 而在用户偏好方面则主要考虑用户兴趣对转发行为的影响, 但地震发生后网民转发大量祈福博文传递正能量, 说明情感也是用户行为的驱动因素。
微博用户转发行为受个体意愿以及微博平台时间线机制内外两方面因素影响, 而计划行为理论考虑个体及外界因素, 对于不完全受个人意志力控制的行为具有较好的解释力。因此, 本文基于计划行为理论, 分别从行为态度、主观规范及感知行为控制三个方面研究微博用户转发行为的影响因素, 并基于二元逻辑回归对假设进行验证。
理性行为理论认为个体的行为可通过行为意向判断, 而行为意向则是由个体对行为的态度和主观规范共同决定的[15]。但由于理性行为理论中关于行为意向主要受行为个体意志影响的假设, 导致其适用范围受到一定限制[16]。因此, Ajzen在理性行为理论的基础上提出计划行为理论, 认为人的行为不仅受到行为态度及主观规范影响, 还受到个人所掌握的机会、资源等, 即“感知行为控制”的影响[17]。
计划行为理论是管理学和社会学等领域广泛应用的行为理论, 也是个体行为学研究领域的基础理论。顾东晓等基于计划行为理论分别从自我实现需要、沉浸需要、主观规范和感知行为控制4个方面研究互联网用户链接分享行为的影响因素[18]。李颖琦等通过对计划行为理论的修正, 构建虚拟学习社区中知识共享的影响因素模型[19]。王星辰基于该理论对社会化问答网站知识共享因素进行研究[20]。Seari等对计划行为理论进行扩展, 分别从描述性规范、风险和信任三个方面分析Facebook用户隐私保护行为的影响因素[21]。
行为态度是个人对于采取某项行为所持有的正面或者负面态度, 在微博中一方面表现为用户是否喜欢转发微博; 另一方面则为用户是否对该条微博感兴趣, 即用户对于微博内容是否喜欢或该条微博能否引起用户情感上的共鸣。主观规范是个体对于是否采取某项特定行为所感受到的来自社会的压力。在微博中, 与用户有直接社会关系的是该用户的关注者以及粉丝。感知行为控制是个体对于采取某项特定行为难易程度的感知, 反映的是个体对促进或阻碍行为表现因素的掌握程度, 如信息、机会、障碍等。在微博中主要表现为微博消息的发布时间是否落入用户登录微博的时间区间内, 如果微博消息不能及时地出现在用户登录微博的时间区间内, 则认为用户对于转发该条微博所掌握的机会较小, 因此转发的可能性相对较低。
依据计划行为理论, 本文从行为态度、主观规范、感知行为控制三个方面构建微博用户转发行为影响因素模型, 如图1所示。
(1) 行为态度
计划行为理论中, 人的行为意向受行为态度影响。在微博中, 用户的行为态度主要受以下三方面因素的影响:
①用户对于该平台“转发”功能的态度;
②用户对于接收到的微博消息所传达内容的态度;
③用户对于接收到的微博消息所传达情绪或者情感的态度。
用户对于微博平台“转发”功能的态度取决于用户过去是否经常性或者习惯性地转发微博消息。为了吸引粉丝, 有些用户热衷于转发各种微博, 用户的行为特征会影响用户转发行为[22]。在本研究中, 利用用户一定时间段内的转发活跃度衡量其对“转发”功能的态度。综上, 提出H1假设:
H1: 用户转发活跃度越高, 其发生转发行为的可能性越大。
用户对于微博消息所传达内容的态度即对微博内容是否感兴趣, 用户往往希望看到并转发自己感兴趣的内容[23]。在本研究中, 使用用户兴趣与微博文本的语义相似度衡量用户对该条微博内容感兴趣的程度。综上, 提出H2假设:
H2: 用户兴趣与微博文本的语义相似度越高, 其发生转发行为的可能性越大。
用户对于微博消息所传达情感的态度即微博消息所传达情感与用户想要表达情感的接近程度, 微博信息共享的一个重要动机是释放即时激发的情绪[24]。在本研究中, 将用户个人情感极性与微博内容所传达情感极性的相似度作为衡量标准。综上, 提出H3假设:
H3: 用户情感与微博文本所传达的情感相似度越高, 其发生转发行为的可能性越大。
(2) 主观规范
计划行为理论中, 人的行为意向受主观规范影响。在微博中, 用户行为受到与其具有重要关系的人的影响, 因此, 主观规范对于微博用户的影响主要有两个方面: 作为接收用户, 受到与上游用户亲密度的影响; 作为发布用户, 受到下游粉丝的影响。
有研究表明, 用户更容易受到与自己紧密相关的“小圈子”影响[25]。在本研究中, 采取用户与上游用户的交互度衡量彼此之间的亲密程度。综上, 提出H4假设:
H4: 用户与上游用户之间的交互度越高, 其发生转发行为的可能性越大。
作为发布用户, 还会受到下游粉丝对其行为的影响。廖海涵等发现用户粉丝数量与微博数量具有相关性[26]。综上, 提出H5假设:
H5: 用户粉丝量越大, 其发生转发行为的可能性越大。
(3) 感知行为控制
计划行为理论中, 人的行为意向还受到感知行为控制的影响。在微博平台中, 用户是否转发某条微博还取决于用户是否可以及时浏览到该条微博。在本研究中, 利用微博对于用户可见与否衡量用户能否及时浏览到该条微博消息。综上, 提出H6假设:
H6: 微博对于用户可见, 该用户发生转发行为的可能性越大。
在本研究中, 用户兴趣通过微博用户近期发布的微博内容获得, 基于LDA主题模型分别训练待预测微博文本及用户近期发布的微博文本, 得到微博文本及用户兴趣的主题概率分布。由于微博内容长度一般较短, 若将单条微博内容单独应用到LDA主题模型中, 会存在主题稀疏问题。因此, 采用文献[23]的方法, 将用户所有微博合成为一个文本, 得到的主题分布就是用户兴趣的主题分布, 通过JS距离[27]计算待预测微博文本与用户兴趣的相似度, 计算方法如公式(1)和公式(2)所示。
${{D}_{js}}(p,q)=\frac{1}{2}[{{D}_{kl}}(p,\frac{p+q}{2})+{{D}_{kl}}(q,\frac{p+q}{2})]$ (1)
${{D}_{kl}}=\underset{i}{\mathop \sum }\,p(i)\ln \frac{p(i)}{q(i)}$ (2)
其中,
通过基于情感词典的方法分别计算待预测微博及用户微博的情感值(正代表积极, 负代表消极, 零代表中性), 以待预测微博与用户微博情感值的平均距离计算两者之间的情感相似度$D(x,y)$, 计算方法如公式(3)所示。
$D(x,y)=\frac{1}{\frac{\mathop{\sum }_{1}^{n}\sqrt{{{\left( x-{{y}_{i}} \right)}^{2}}}}{n}+1}$ (3)
其中,
用户转发活跃度$A(u)$反映用户在微博平台中使用微博“转发”功能的参与程度。本研究以用户在观测期转发微博数量占其微博总数的比例来确定, 如公式(4)所示。
$A(u)=\frac{{{N}_{r}}}{N}$ (4)
其中,
用户与上游发布用户的交互度$I(i,j)$具体表现为观测期接收用户对发布用户的微博内容进行转发、评论、点赞的频次。计算方法如公式(5)所示。
$I(i,j)=\frac{{{R}_{ij}}+{{C}_{ij}}+{{Z}_{ij}}}{T}$ (5)
其中, ${{R}_{ij}}$, ${{C}_{ij}}$, ${{Z}_{ij}}$分别代表观测期接收用户
根据用户粉丝量进行离散化处理, 分为5个不同的级别: 粉丝量在[0,100]记为1, (100,1000]记为2, (1000,10000]记为3, (10000,100000]记为4, 100000以上记为5。
本研究利用用户发布微博的时间近似表示用户登录微博的时间。根据文献[28]统计结果可知, 用户24小时的发帖行为符合作息规律, 每天11点、15点、22点发帖量达到高峰, 因此选定这三个时间节点作为用户登录微博的时间。
已有研究发现: 50%的转发行为发生在1小时以内, 75%发生在一天以内[29]。由于微博内容以时间倒序显示在用户界面中, 用户关注数量越大, 微博内容更新速度越快, 因此微博内容在用户界面停留的时间窗口$\Delta t$与用户关注量有关, 关注量越大, 时间窗口越短。因此设置时间窗口分别为15分钟、30分钟、1小时、10小时和24小时, $\Delta t$的计算如公式(6)和公式(7)所示。
$\begin{align} & \Delta t=15\times \phi ({{N}_{f}}-200)+30\times \phi ({{N}_{f}}-100)\times \phi (200-{{N}_{f}}) \\ & \ \ \ \ \ \ \ +60\times \phi ({{N}_{f}}-50)~\times (100-{{N}_{f}}) \\ & \ \ \ \ \ \ \ +10\times 60\times \phi ({{N}_{f}}-20)\times (50-{{N}_{f}}) \\ & \ \ \ \ \ \ \ +24\times 60\times (20-{{N}_{f}})\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ {{\ }^{{}}}\mathrm{(6)} \\ \end{align}$
$\phi (x)=\left\{ \begin{matrix} 1\ \ x\ge 0 \\ 0\ \ x<0 \\\end{matrix} \right.$ (7)
如果微博的发布时间落入时间区间[
本研究选取新浪微博平台, 利用网络爬虫工具八爪鱼抓取新浪微博数据。随机挑选部分用户作为种子用户, 获取这些种子用户2017年11月5日-2017年12月5日的微博、微博转发用户及能够接收到这些微博的非转发用户, 进行用户去重并过滤掉部分垃圾用户, 得到有效用户集合U。获取用户集合U中每个用户近期发布的微博, 用于提取用户兴趣及获取用户情感倾向。对于获取到的数据集, 根据用户实际转发情况进行人工标记, 最终得到54 462条实验数据。
在进行微博文本主题概率分布计算及情感分析前, 需要对文本进行加工处理。因此在实验前有必要做如下预处理:
(1) 分词: 利用Python自带Jieba分词包对微博文本进行分词;
(2) 去停用词: 根据停用词集合(哈尔滨工业大学停用词表、四川大学机器智能实验室停用词表和百度停用词表), 整理得到综合的停用词表对微博文本实现去停用词处理。
本文主要研究微博用户转发行为的影响因素, 用户行为包括两种: 转发、不转发。转发行为作为因变量, 即0-1型变量, 将“转发”记为Y=1, “不转发”记为Y=0。解释变量主要包括用户兴趣与微博文本语义相似度、转发活跃度、与上游用户交互度、粉丝量、用户情感与微博情感相似度以及微博对于用户可见与否, 具体描述如表1所示。
利用SPSS 20.0中的二元逻辑回归进行模型 分析, 从模型运行结果来看, Nagelkerke R方值 为0.581, 说明模型整体拟合情况比较好, 如表4所示。
根据模型估计结果, 对微博用户转发行为有显著影响的因素包括用户兴趣与微博文本语义相似度、与
上游用户交互度、转发活跃度、粉丝量、用户情感与微博情感相似度, 如表5所示。
本文所有假设的验证结果如表6所示。
用户的转发活跃度反映了用户对于微博平台“转发”功能的使用频率, 经常性转发微博的用户更容易发生转发行为, 研究结果支持H1假设。用户兴趣与微博文本的语义相似度反映了用户对于微博内容喜好的程度, 用户对微博内容更感兴趣时更容易发生转发行为, 研究结果支持H2假设。用户情感与微博情感的相似度反映了该微博内容与用户想要传达情感的接近程度, 相似度越高, 用户更容易转发, 研究结果支持H3假设。与上游用户的交互度反映了用户与发布用户的亲密程度, 用户更容易转发与自己相对亲近的人的微博内容, 研究结果支持H4假设。
H5假设用户粉丝量越多, 用户转发微博的可能性越大, 研究结果并不支持该假设。微博中某些用户转发微博是为了提供更多的信息而进一步吸引其他用户关注, 因此粉丝量越小的用户, 发生转发行为的可能性越大。粉丝量反映用户在微博中的受欢迎程度, 也是用户权威性的表现, 而权威用户发布的微博中, 原创微博占比相对较大。所以, 相比于用户的粉丝量, 转发活跃度更能反映用户是否会发生转发行为。
H6假设微博对于用户可见更容易被其转发, 研究结果不支持该假设。本研究通过微博发布时间是否落入用户使用微博的时间区间来判断微博对于用户可见与否。通过对数据集的观察发现, 用户未发生转发行为的原因之一是微博内容与自己兴趣的相似度极低, 即并不是用户感兴趣的内容。所以, 即使用户浏览到某一条微博, 也会考虑到自己的兴趣来选择是否转发。
本文分析用户在微博平台中的转发行为, 基于计划行为理论从行为态度、主观规范及感知行为控制三个方面提出研究假设, 分别以用户兴趣与微博文本的语义相似度、转发活跃度、用户情感与微博情感相似度、与上游用户交互度、粉丝量和微博对于用户可见与否作为微博用户转发行为的影响因素, 最后基于二元逻辑回归模型对研究假设进行验证。研究结果发现, 行为态度因素中, 用户兴趣与微博文本语义相似度、用户情感与微博情感相似度和转发活跃度均对微博用户转发行为具有显著影响; 主观规范因素中, 用户与上游用户的交互度和用户粉丝量对用户转发行为影响显著; 感知行为控制因素中, 微博对于用户可见与否对用户转发行为影响不显著, 即微博的时间线机制对用户是否转发微博几乎没有影响。
本研究的不足之处主要是对用户登录微博的时间采用统一时间节点, 在未来研究中可以进一步基于用户日志获取每个用户登录微博的时间及用户使用微博时长等, 更加真实准确地刻画每个用户的行为特征, 深入分析用户行为。另外, 在进行情感相似度计算时,没有考虑到微博中丰富的表情符号所传达的情感,未来可以综合表情符号及微博文本的情感进一步研究微博用户转发行为的影响因素。
窦永香: 提出研究思路, 设计研究方案, 修改论文;
席林娜: 采集、清洗数据, 完成实验并分析结果, 撰写论文。
所有作者声明不存在利益冲突关系。
支撑数据由作者自存储, E-mail: 359481115@qq.com。
[1] 席林娜. 微博用户转发行为影响因素. zip. 所有微博用户数据.