数据分析与知识发现, 2019, 3(10): 98-109 doi: 10.11925/infotech.2096-3467.2018.1108

研究论文

网络社交平台中社群标签动态生成研究 *

蒋武轩1, 熊回香,,1, 叶佳鑫1, 安宁2

1华中师范大学信息管理学院 武汉 430079

2武汉大学信息管理学院 武汉 430079

Creating Dynamic Tags for Social Networking Groups

Jiang Wuxuan1, Xiong Huixiang,,1, Ye Jiaxin1, An Ning2

1School of Information Management, Central China Normal University, Wuhan 430079, China

2School of Information Management, Wuhan University, Wuhan 430079, China

通讯作者: 熊回香, ORCID: 0000-0001-9956-3396, E-mail:hxxiong@mail.ccnu.edu.cn

收稿日期: 2018-10-8   修回日期: 2019-03-11   网络出版日期: 2019-10-25

基金资助: *本文系国家社会科学基金一般项目“基于人类动力学的社交网络信息交流行为研究”的研究成果之一.  16BTQ076

Received: 2018-10-8   Revised: 2019-03-11   Online: 2019-10-25

摘要

【目的】利用网络社群话题及成员兴趣标签网络为社群动态生成能够表征其特点及短期关注兴趣的社群标签。【方法】利用BTM模型挖掘社群话题短文本的主题, 并根据社群成员兴趣标签网络的特征, 挖掘社群成员关注兴趣点, 综合两者结果生成社群动态标签。以“豆瓣小组”为例对模型进行实证。【结果】基于话题社群标签与社群特征具有强关联性、稳定性强, 基于成员兴趣网络标签能够及时准确表征社群动态兴趣。【局限】样本数据集不能涵盖所有类型的网络社群, 仅从两类社群验证了模型的准确性与有效性。【结论】基于社群话题及成员兴趣的社群标签动态生成模型能够准确挖掘出社群特点及成员短期关注点, 提高社群定义的及时性与准确性, 解决用户信息获取、网络社群选择的困难。

关键词: 社群标签 ; 标签生成 ; BTM ; 复杂网络

Abstract

[Objective] This paper proposes a method to generate dynamic labels for the characteristics of online communities and their short-term interest. [Methods] Firstly, we used the BTM model to extract the discussion topics from short texts posted by online community members. Then, we explored their actual interest based on personal labels. Finally, we combined these results to create dynamic tags for the communities. [Results] We examined the proposed model empirically with data from two types of “Douban groups”. Tags of discussion topics and characteristics of the communities showed strong and stable relevant relationship. The tags for personal interest could accurately represent the community’s dynamic interest. [Limitations] More online communities should be included in future studies. [Conclusions] The proposed model accurately identifies characteristics of online community and its members’ short-term concerns, which also benefits information acquisition.

Keywords: Community Labels ; Tag Generation ; BTM ; Complex Networks

PDF (995KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

蒋武轩, 熊回香, 叶佳鑫, 安宁. 网络社交平台中社群标签动态生成研究 *. 数据分析与知识发现[J], 2019, 3(10): 98-109 doi:10.11925/infotech.2096-3467.2018.1108

Jiang Wuxuan. Creating Dynamic Tags for Social Networking Groups. Data Analysis and Knowledge Discovery[J], 2019, 3(10): 98-109 doi:10.11925/infotech.2096-3467.2018.1108

1 引 言

随着Web2.0时代的发展, 为满足用户交流、分享、合作、协调一致行动的本能需求[1], 网络社交平台不断兴起, 如豆瓣网、微博、QQ等, 网络用户根据工作需要或兴趣爱好加入不同网络社群, 在社群中进行交流与合作, 网络社群已经成为互联网用户最主要的交流组织方式。然而, 网络社群的多样性与复杂性使得用户在选择中遇到困难, 用户通常不知道某一社群所关注的重点, 只能根据一些片面的相关信息先加入大量相关社群, 经过了解后再进行有重点的选择, 这造成用户信息获取困难、效率低下等问题。目前, 主流社交平台通过社群管理员自定义标签的方式进行组织, 标签准确性不高, 不能较为准确地揭示社群特征。因此, 如何使用户能够清楚、及时地了解不同社群特征, 帮助用户快速选择感兴趣的社群成为研究热点。

国内外针对网络社群的研究主要集中在网络社群的运作机制、用户行为与关系和知识传播三个方面, 较少有将标签生成方法应用在网络社群中, 当前的标签生成研究主要集中在社群资源的标签标注上, 对社群整体标签方面的研究较少。如Hiltz等认为知识的流动是维系网络社群的重要因素, 因此知识与学习应该是社群活动的一部分[2]; Liu等基于视觉与语义相似性消除嘈杂标签, 并且通过WordNet使用同义词或者上位词扩展己观察到的标签以确定准确的标签[3]; 陈烨等提出一种新颖的基于社群隐含主题挖掘和多社群信息融合的自动图像标注算法, 该算法采用LDA挖掘社群中的隐含主题, 借此过滤相似图片标签传播过程中的“噪音”, 最终对多个社群的图像进行标注[4]; 吴丹等基于模拟实验探究社群与非社群在协同信息检索中的推荐行为、在检索式构造上对检索系统依赖以及协作方式等方面的区别, 认为社群与非社群的协同信息检索行为差异较大, 但在专业社群与兴趣社群则差异不显著[5]; 滕广青等从Folksonomy社群中的“用户-标签”关系出发, 基于后结构主义网络分析的思想, 进一步构建“用户-标签”2-模网络, 对社群知识的“自组织”问题进行深入剖析, 揭示用户主观认知对社群知识组织结构的影响以及对用户认知的塑形[6]; 崔芳等从社会交换的观点出发, 探究社群成员持续知识分享的成因, 认为社群成员间的关系属于“快速关系”, 社群投入与成员间的共同愿景都对该关系具有较大的预测力度[7]; 李文根基于社群问答系统提出一种相似度推荐的方法用于标签生成, 将聚合文本及问答对作为独立文档, 挖掘文档主题进而从主题层面计算文档间相似度, 最终利用相似文档标签集确定目标文档的标签[8]

综上, 本文在当前研究基础上从宏观视角对社群整体进行标签生成研究, 将主题模型与复杂网络相关方法技术相结合发现社群特征。通过对网络社群的分析发现网络社群特征及整体兴趣可以从两方面表征:

(1) 社群讨论的话题, 社群成员通过各种方式针对某些问题进行讨论与交流, 代表着社群主要的关注点;

(2) 社群活跃用户的近期兴趣, 社群活跃用户是社群成员的主体, 其近期浏览的资源类型能够较好地表征用户近期兴趣, 同时全体活跃成员的兴趣也能够代表社群整体的近期兴趣。

因此, 本文提出从社群话题及社群活跃成员兴趣标签两个维度对社群标签进行动态生成。通过BTM主题模型(Biterm Topic Model)从社群话题中提取社群特征关键词作为话题预选标签; 再通过活跃用户近期浏览资源的标签作为兴趣标签, 基于兴趣标签网络的特征选取高Hub节点作为兴趣预选标签, 最后整合两个维度的预选标签确定社群动态标签。

2 社群标签动态生成模型

网络社交平台中的社群一般是以用户需求或兴趣为导向的用户自组织群体, 本文整合网络社群中两种最主要的表现方式: 社群话题与活跃用户近期兴趣, 构建社群动态标签生成模型, 如图1所示。该模型包括两个子模型: 社群话题动态标签子模型与社群成员兴趣动态标签子模型。模型自动从社群中收集近期社群成员发表的讨论话题及参与话题成员近期观看资源标签。在子模型数据预处理的基础上, 对社群话题数据进行BTM主题模型训练后提取相应阈值的主题语词作为话题预标签; 对社群成员近期兴趣数据运用复杂网络的思想构建兴趣标签网络, 据此计算网络中高Hub节点, 再根据标签特点进行数据清洗后作为成员兴趣预标签; 最后, 将两个子模型的预标签进行综合处理, 确定社群标签。同时, 该模型在一段周期内不断更新话题与成员兴趣信息, 动态更改社群标签, 最大程度表征社群特点及近期关注情况, 及时、准确地表征社群特征, 方便用户清楚地了解不同社群特点。

图1

图1   社群标签动态生成模型框架


2.1 社群话题动态标签生成子模型

在社群话题动态标签生成模型中, 根据社群话题的特征, 主要采用短文本主题模型BTM对近期话题标题及其内容进行主题提取。BTM是由Cheng等提出的专用于短文本的主题挖掘模型, 该模型通过词共现的模式加强主题模型的学习, 并利用整个语料库的丰富信息抽样主题, 推断整个语料库全局的主题分布, 能够有效解决文档级别的数据稀疏性问题。其模型计算方法如公式(1)所示[9]

$P(B\text{ }\!\!|\!\!\text{ }\alpha ,\beta )=\prod _{i=1}^{{{N}_{B}}}\mathop{\iint \sum }_{k=1}^{K}{{\theta }_{k,{{w}_{i,1}}}}{{\varphi }_{k,{{w}_{i,2}}}}d\theta d\varphi$

针对获取到的相关数据进行预处理操作, 包括去除特殊字符、中文分词、去停用词、语义映射。在数据预处理的基础上, 将话题数据作为社群文档集合W, 并将每个时间段的社群话题数据作为一个子文档集。文档集中的每一个文档都是一个话题。对文档集的分词进行编码处理, 并将每篇文档用编码表示。之后, 对社群文档集合W进行BTM模型训练, 构建社群话题主题模型, 据此分别将每一子文档集作为新文档实现主题提取。通过主题模型困惑度确定主题数, 困惑度计算如公式(2)所示[10,11]

$Perplexity(M)=\mathrm{exp}\left\{ -\frac{\mathop{\sum }_{K}P({{Z}_{K}})\mathop{\sum }_{i=1}^{{{N}_{K}}}\log P({{W}_{i}}\text{ }\!\!|\!\!\text{ }{{Z}_{K}})}{N} \right\}$

其中, K表示主题数, P(ZK)表示主题K的概率, NK表示主题K的主题词数, P(Wi|ZK)表示主题K下第i个主题词的概率, N表示该文档集中的所有语词数。同时, 因为针对每个词都进行计算, 词频因素包含在其中, 故公式中并未单独设定词频变量。

在确定主题数K后, 经过1 000次以上的迭代即可得到每一个子文档集下的主题-语词概率分布。该分布即为社群话题预标签。

2.2 社群活跃成员兴趣动态标签生成子模型

同一社群成员的主要兴趣是相似的, 因此活跃社群成员的近期兴趣会存在相当大的部分重合, 通过不同用户兴趣间的关联能够构建出社群成员的兴趣网络。该网络中将会存在一些能够表征多数用户共同兴趣的节点, 这些节点具有较多的连接; 也会存在一些只有较少用户感兴趣的节点, 即节点的连接较少, 一般而言这两种节点数量符合齐普夫定律(Zipf’s Law)[12,13]。由于节点分布呈现出很大的异质性, 并且节点的度也服从幂率分布, 这样的网络符合复杂网络的特征。该子模型将根据社群成员兴趣网络这一特点, 利用资源标签表征用户兴趣, 通过网络度量指标——点度中心度动态地挖掘社群成员的兴趣中心, 即那些具有大量连接并主导网络运行的节点。这类节点被称为高Hub节点。

1972年, Bonacich首次提出采用度指标显示节点的重要性, 该指标认为节点的度越大, 其在网络中的重要性越强[14]。节点的度值是刻画网络中节点中心性的最直接度量指标。一个节点的点度中心度越大就意味着这个节点的中心性越高, 在网络中越重要, 即高Hub节点。一般对于一个拥有G个节点的标签网络, 标签节点i的点度中心度是与其他G-1个节点直接联系的总数, 但这种方式测量的点度中心度也称为绝对中心度, 并未排除网络规模的影响, 即网络规模越大, 度值的最大值越高, 不易进行比较, 因此采用Freeman提出的标准化度数中心性公式对其进行处理, 如公式(3)所示[15]

${{{C}'}_{D}}({{N}_{i}})=\frac{\mathop{\sum }_{J=1}^{G}{{x}_{ij}}(i\ne j)}{G-1}$

公式(3)以绝对中心度除以该节点最大可能的连接数G-1, 得到与节点i有直接联系的网络节点比例。这个比例取值范围是0~1, 0表示与任何节点都没有联系即一个孤点, 1表示与每一个节点都有直接联系。因此${{{C}'}_{D}}({{N}_{i}})$越接近1, 越是网络中的高Hub节点。

根据社群活跃用户资源标签, 利用R语言编写程序构建“资源-标签隶属矩阵”, 在隶属矩阵的基础上, 根据同一资源下共同出现的标签间的共现关系构建标签共现矩阵。最后利用标签共现矩阵绘制出标签网络, 并根据公式(3)计算出社群兴趣标签网络中各标签的标准化中心度, 以此进行从高到低排序, 作为社群成员兴趣预标签。

2.3 社群动态标签生成

在得到的子模型预标签基础上进行整合, 生成社群动态标签。在社群话题预标签提取中, 笔者认为针对不同领域需要设置不同的概率阈值进行预选标签的提取, 以保证预选标签的语词与其他语词相比具有显著性差异, 且较为稳定; 同时, 对于生成的社群活跃成员兴趣动态标签, 根据社群成员兴趣标签的标准化中心度排序, 选取Top10再剔除对社群表征意义不大的标签后作为成员兴趣预选标签。

由于社群话题标签主要表征社群整体特征, 其变化程度较低, 而社群成员兴趣标签表征用户近期兴趣其随时间变化程度较高。为使社群标签能够更加准确地表征社群的整体特征及近期关注点, 需根据不同领域设定两类标签整合的分配比例, 笔者认为一般社群整体特征标签变化较小且数量较少; 而成员兴趣标签变化较大且数量也较多, 一般社群标签数量均在5个左右, 因此为兼顾两类标签的因素将比例设定为2:3能够适合大多数领域。若话题预标签数量较少, 则由成员兴趣标签进行补充; 若话题预选标签与成员兴趣预选标签存在重叠情况, 则将该标签设定为Top1成员兴趣, 其他标签选取顺序依次顺延。据此, 生成最终社群动态标签。

3 实证研究

选取豆瓣小组这一典型网络社群作为实证研究的对象, 豆瓣小组一直定位于“对同一个话题感兴趣的人的聚集地”[16], 已创建30多万个小组社群, 月独立用户超过5 500万, 内容包括娱乐、美容、时尚、旅行等生活的方方面面。通过社群话题及活跃用户兴趣, 能够准确发现社群关注点, 便于用户的选择与加入。

3.1 实证数据

(1) 数据收集

笔者分别于2018年1月25日、2月6日、2月20日、3月6日四个时间节点, 利用Python爬虫从豆瓣兴趣小组“佳片推荐”抓取小组话题列表中最近的 50篇话题内容, 同时为验证实证结果, 爬取该小组据上述时间间隔较远的2017年1月25日数据, 以及相同类型的小组“一个人看电影”2018年1月25日、2月6日、2月20日、3月6日的数据, 及不同类型的小组“买书 读书 一起来吧”2019年2月18日、3月6日的数据, 部分数据如表1所示。

表1   部分小组话题数据

用户昵称话题主题话题内容
细嗅蔷薇。你们看过的最好的日本电影是什么?有时候挺喜欢看日本片 个人认为看过的比较好的日本片子有: 松子 燕尾蝶(这是我唯一一口气看完的岩井俊二的片子) 恋空(连哭三遍)
一只帅熊求解|嘤嘤嘤咋收藏影人呀跟关注不
是一回事?
一个傻问题: 突然发现关注影人跟收藏影人不是一个事T^T T^T嘤嘤嘤之前不是关注就能在收藏影人里看到么, 怎么关注了在收藏的影人里看不到呢, 在app里咋收藏影人呀只能网页收藏么[捂脸][捂脸]
粒粒安然2018奥斯卡提名最佳影片《请以你的名字呼唤我》《至暗时刻》《敦刻尔克》《逃出绝命镇》《伯德小姐》《霓裳魅影》《华盛顿邮报》…
丛虫截猜线上活动, 截猜小能手快来截猜不是一个人的武林而是一群人的江湖刀光剑影醉生梦死
混斗(FRQ)有标记电影五百部及以上的么求互关就是关注一下, 与广告和刷评无关。

新窗口打开| 下载CSV


同时获取发起话题用户近3个月内看过资源的常用标签, 部分数据如表2所示。

表2   部分活跃用户近期资源标签数据

用户昵称资源名标签
小鱿勇往直前真实事件改编 灾难 美国 消防 传记 剧情 2017年 森林火灾
相爱相亲家庭 亲情 温情 爱情 文艺 2017年 剧情 台湾
佛罗里达乐园美国 儿童 成长 2017年 剧情 社会 独立电影 戛纳电影节
至暗时刻丘吉尔 英国 二战 传记 历史 战争 剧情 2017年
敦刻尔克二战 战争 历史 英国 真实事件改编 军事 2017年 剧情
遇到西西那些年, 我们一起追的女孩青春 台湾 爱情 校园 成长 文艺 感动 2011年
丹麦女孩传记 变性 剧情 文艺 美国 同性 2015年 LGBT
东方快车谋杀案1974悬疑 阿加莎·克里斯蒂 英国 推理 侦探 经典 犯罪 英国电影
尼罗河上的惨案悬疑 英国 推理 侦探 阿加莎 经典 犯罪 英国电影
盗墓笔记盗墓 冒险 小说改编 2016年 中国 悬疑 奇幻 剧情
菲尼克斯海洋帝国历史 海洋史 日本 东亚史 世界史 2018年 白石隆

新窗口打开| 下载CSV


(2) 数据整理

实证数据是通过爬虫自动抓取, 数据类型多样化, 因此存在以下问题:

①存在不同外文资源但中文名称相同或同名资源的现象, 整理过程中通过在资源名称后加注年份进行区别;

②存在社群成员参与最近的话题讨论, 但在3个月内没有观看任何资源的现象, 即缺少该成员的资源标签数据, 针对这部分数据在整理中保存话题但在资源数据中去除。

经过对数据进行补充和梳理, 共有583篇话题讨论, 涉及286名成员, 共2 326个资源, 5 590个资源标签, 如表3所示。

表3   实证数据统计

豆瓣小组名称数据时间话题数用户数资源数标签数
佳片推荐2017/01/255012104263
2018/01/255035440858
2018/02/065031387754
2018/02/205031327599
2018/03/065034392813
一个人看电影2018/01/255023129401
2018/02/065014106338
2018/02/205014104317
2018/03/065018144432
买书 读书 一起来吧2019/02/18362451265
2019/03/068350142550
总计5692862 3265 590

新窗口打开| 下载CSV


经过对话题发布时间的统计, 发现话题发布时间主要集中于数据收集前5天, 其他时间的话题主要是以前的话题有了新回复, 因此实证社群活跃度较高, 每天都有人进行话题讨论, 社群内容更新较为快速, 具有较好的研究价值。

3.2 社群话题动态预标签生成

(1) 数据预处理

在对话题数据生成预标签之前, 需要对其进行预处理。

①去除特殊字符。由于网络环境下表情符号、特殊字符较为丰富, 如“╭(╯^╰)╮”等, 这些对主题提取并无意义, 因此予以去除。

②中文分词。为使从文本话题中提取的社群主题更能准确表征社群兴趣, 需对话题文本进行分词处理。利用Python、ICTCLAS中文分词系统, 在以文本特征构建自定义词典的基础上, 对每篇去除特殊字符后的话题文本进行分词。由于自定义词典的原因, 定义涉及到的资源名、人名, 大大提高了话题文本分词的准确性。

③去停用词。经分词处理后依然存在一些没有意义的符号、字词及非主题词的动词、数量词等, 如“《、?、有、那个、看过、一部”等。这些停用词与研究并无关系, 通过哈尔滨工业大学停用词表及自定义词表予以去除。

④语义映射。对相似语义的标签进行归一化处理, 提高其后分析的准确性。部分结果如表4所示。

表4   “佳片推荐”话题预处理部分结果

用户昵称话题分词
细嗅蔷薇最好 日本 电影 喜欢 日本 个人 日本 片子 松子燕尾蝶 唯一 一口气 岩井俊二 片子 恋空 三遍
一只帅熊求解 收藏 影人 关注 问题 关注 影人 收藏 关注 收藏 影人 关注 收藏 影人 app 收藏 影人 网页 收藏 捂脸
粒粒安然2018 奥斯卡 提名 最佳影片 请以你的名字呼唤我 至暗时刻 敦刻尔克 逃出绝命镇 伯德小姐 霓裳魅影 华盛顿邮报 水形物语 三块广告牌 导演 吉尔 莫德尔 托罗 水形物语 格蕾塔葛 韦格 伯德小姐 保罗 托马斯…
丛虫活动 能手 一个人的武林 江湖 刀光剑影 醉生梦死
混斗(FRQ)标记 电影 五百 求互关 关注 广告 刷评 无关

新窗口打开| 下载CSV


(2) 预标签生成

在数据预处理的基础上, 将话题数据作为社群文档集合W, 并将每个时间段的社群话题数据作为一个子文档集wi, i表示不同子文档集, 其中每一个文档都是一个话题。对分词编码, 并将每篇文档的分词结果用编码进行表示, 如表5所示。

表5   文档分词编码表示

文档原标签标签编码
D1最好 日本 电影 喜欢 日本 个人 日本 片子 松子燕尾蝶 唯一 一口气
岩井俊二 片子 恋空 三遍
3 4 0 5 4 6 4 7 8 9 10 11 7 12 13
D2求解 收藏 影人 关注 问题 关注 影人 收藏 关注 收藏 影人 关注
收藏 影人 app 收藏 影人 网页 收藏 捂脸
14 15 16 17 18 17 16 15 17 15 16 17 15 16 19 15 16
20 15 21
D32018奥斯卡 提名 最佳影片 请以你的名字呼唤我 至暗时刻 敦刻尔克
逃出绝命镇 伯德小姐 霓裳魅影 华盛顿邮报 水形物语 三块广告牌 导演
吉尔 莫德尔 托罗 水形物语 格蕾塔葛 韦格 伯德小姐 保罗 托马斯…
22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
33 39 40 30 41 42…
D4活动 能手 一个人的武林 江湖 刀光剑影 醉生梦死209 210 211 212 213 214
D5标记 电影 五百 求互关 关注 广告 刷评 无关215 0 216 217 17 218 219 220

新窗口打开| 下载CSV


利用Python编写程序对社群文档集合W进行BTM模型训练, 构建社群话题主题模型。根据公式(2)计算文档集wi不同主题数K的困惑度, 如表6所示, 可以看出不同主题模型的K值越大, 困惑度越低, 但困惑度只在0.001级别内进行波动, 并无较为显著的差异, 因此设置主题数K=1, 根据公式(1)在经过1000次的迭代之后得到每一子文档集下的主题-语词概率分布, 如表7所示。

表6   w1主题困惑度值

主题数$-\left\{ \sum\limits_{K}{P}({{Z}_{K}})\sum\nolimits_{i=1}^{{{N}_{K}}}{\mathrm{log}P({{W}_{i}}\text{ }\!\!|\!\!\text{ }{{Z}_{K}})} \right\}\text{/}N$主题困惑度主题数$-\left\{ \underset{K}{\mathop \sum }\,P({{Z}_{K}})\sum\nolimits_{i=1}^{{{N}_{K}}}{\mathrm{log}P({{W}_{i}}\text{ }\!\!|\!\!\text{ }{{Z}_{K}})} \right\}\text{/}N$主题困惑度
10.0183968301.018567094110.0153267891.015444847
20.0177160411.017873901120.0154656641.015585876
30.0171026831.017249771130.0151685731.015284200
40.0169677751.017112545140.0151007001.015215292
50.0164218361.016557415150.0150717421.015185894
60.0161352491.016266125160.0148554381.014966328
70.0157854201.015910668170.0150443061.015158041
80.0160710021.016200835180.0149274711.015039442
90.0157315181.015855909190.0146627231.014770748
100.0156692501.015792656200.0183968301.018567094

新窗口打开| 下载CSV


表7   子文档集主题-语词概率分布

语词概率语词概率语词概率语词概率语词概率语词概率
文档集w1文档集w2文档集w3文档集w4验证文档集w5验证文档集w6
电影0.032301电影0.056503电影0.032147电影0.029478电影0.013089孩子0.019891
水形物语0.009645推荐0.023672水形物语0.014985推荐0.010106影片0.005582工作0.006816
上映0.008626影片0.016057推荐0.010033160.008888故事0.004329电影0.006445
20180.008484劳拉0.010815黑帮0.00952020130.007673生活0.004076父母0.006057
敦刻尔克0.007489经典0.009270敦刻尔克0.008709故事0.006394时间0.004004水形物语0.005922
推荐0.006778游戏0.007725三块广告牌0.008282女主0.006075投影仪0.003975方式0.005686
喜欢0.006351爱情0.007449TVB0.007855喜欢0.005998上映0.003931老师0.004724
原创0.005972丽影0.007173至暗时刻0.007172美国0.005512美国0.003649方法0.004724
日期0.005972古墓0.007118银翼杀手20490.007130影片0.005346创作0.003569爸爸0.004707
三块广告牌0.00583020180.006622霓裳魅影0.006959导演0.004885小帅0.002918老板0.004252
语词概率语词概率词语概率词语概率词语概率
验证文档集w7验证文档集w8验证文档集w9验证文档集w10验证文档集w11
电影0.023764电影0.023439电影0.025442书籍0.083162买书0.036611
生活0.012067星座0.011123瑜伽0.021329买书0.030079书籍0.031007
王彩玲0.011156年龄0.010329喜欢0.008265书店0.012621京东0.025381
热爱0.008766歌舞片0.010329老师0.008226阅读0.012007活动0.023510
柏舟0.006517最近0.009676挽回0.005308优惠券0.011461自营0.020566
感动0.005578花名0.007945视频0.004936京东0.010916优惠券0.019501
影片0.005464100.007775分手0.004642宇宙0.010234参加0.018948
进群0.005408心情0.007151学习0.004524封面0.009551世界0.013345
喜欢0.005208110.006839济公0.004407外星0.009347名著0.010556
分享0.004668观影0.006498故事0.004309印刷0.009142中国0.010247

新窗口打开| 下载CSV


表7展示了“佳片推荐”5个时间段(w1-5)、“一个人看电影”4个时间段(w6-9)及“买书 读书 一起来吧”2个时间段(w10-11)子文档集的“主题-语词”概率分布, 其中每一行表示一个子文档集的主题-语词及其概率, 如第1行文档集w1中, 该主题下共有10个语词, 其中“电影”这一语词表征该文档集的主题概率为0.032301。通过对各文档子文档集的主题-语词概率进行比较, 发现“佳片推荐”社群中“电影”、“推荐”等语词的概率与其他语词相比具有较为明显的差别, 而文档集w10“书籍”、“买书”语词概率也具有显著区别, 且在同一社群不同的子文档集中概率都比较高, 较为稳定, 表征了社群的主要特征。

3.3 社群活跃成员兴趣动态预标签生成

(1) 成员兴趣标签频率统计整理并统计爬取的不同资源出现的频率及标签词频, 以“佳片推荐”1月25日数据举例, 如表8表9所示, 可以看到《无问西东》等新上映电影频次较高, 说明数据及时性较好, 能够较好地表征用户近期兴趣。

表8   1月25日资源频次统计部分结果

资源频次资源频次
无问西东8至爱梵高·星空之谜4
妖猫传6看不见的客人4
芳华5前任3:再见前任4
铁雨4

新窗口打开| 下载CSV


表9   标签词频统计部分结果

标签词频标签词频
美国196喜剧96
剧情194人性87
2017年123动作85
爱情122

新窗口打开| 下载CSV


(2) 构建资源-标签隶属矩阵

根据表2社群活跃用户近期资源标签数据及表8资源频次和表9标签词频, 利用R语言构建“资源-标签隶属矩阵”, 矩阵部分数据如表10所示。资源-标签隶属矩阵展现了用户标注某一资源的常用标签, 矩阵中行为资源, 列为用户标签, 矩阵中数值1表示该列标签是该行资源的用户常用标签, 数值0则表示用户并未使用该标签标注对应资源。通过构建“资源-标签隶属矩阵”将资源与其标签数据进行整合, 作为下一步构建“标签共现矩阵”的基础。

(3) 构建标签共现矩阵

表10的基础上, 根据同一资源中标签间的共现关系, 利用Matlab编写程序生成资源标签的共现矩阵, 以“佳片推荐”1月25日数据共859个标签为例, 部分结果如表11所示。行列均是资源标签, 数值1表示行列标签存在共现关系, 数值0则不存在。

表10   资源-标签隶属矩阵部分结果

美国剧情爱情2017年喜剧动作人性科幻文艺成长
圣鹿之死1101001000
我和厄尔以及将死的女孩1110100011
别让我走1110001110
欢乐谷1100001101
幻体: 续命游戏1100011100
生存回圈1100001100
猩球崛起3: 终极之战1101011100

新窗口打开| 下载CSV


表11   标签共现矩阵部分结果

西部美国动作牛仔2016年翻拍犯罪剧情悬疑人性中国大陆卑鄙的我
西部011111110100
美国101111111101
动作110111111110
牛仔111011110000
2016年111101111110
翻拍111110111000
犯罪111111011110
剧情111111101110
悬疑011011110110
人性111010111010
中国大陆001010111100
00
卑鄙的我010000000000

新窗口打开| 下载CSV


(4) 预标签生成

利用表11的共现矩阵绘制出资源标签网络, 如图2所示, 根据公式(3)计算出“佳片推荐”2018年1月25日标签网络中各标签的绝对中心度及标准化中心度, 如表12所示。

图2

图2   资源标签网络


表12   标签绝对中心度及标准化中心度部分结果

标签美国剧情2017年爱情喜剧犯罪电视剧悬疑
绝对中心度${{C}_{D}}({{N}_{i}})$313312279277229195185183
标准化中心度${{{C}'}_{D}}({{N}_{i}})$0.365230.364060.325550.323220.267210.227540.215870.21354

新窗口打开| 下载CSV


图2展示了社群活跃用户的资源标签网络, 其中共有858个资源标签, 10 139条标签的共现关系, 可以看到文字较大的标签位于整个网络的中心位置, 对标签网络的连通性起到非常重要的作用, 可以认为是整个标签网络的高Hub节点; 表12显示了该网络各标签节点的绝对中心度及标准化中心度值。

同时, 也对三个社群其他日期的成员兴趣标签数据进行处理, “佳片推荐”标签部分结果如表13所示, “一个人看电影”如表14所示, “买书 读书 一起来吧”如表15所示。

表13   “佳片推荐”不同时间段标签标准化中心度部分结果

17.1.25${{{C}'}_{D}}({{N}_{i}})$18.2.6${{{C}'}_{D}}({{N}_{i}})$18.2.20${{{C}'}_{D}}({{N}_{i}})$18.3.6${{{C}'}_{D}}({{N}_{i}})$.
美国0.504美国0.368美国0.450美国0.401
剧情0.447爱情0.338剧情0.383剧情0.302
2016年0.321剧情0.335爱情0.333喜剧0.278
人性0.313喜剧0.2502017年0.321爱情0.260
爱情0.3022017年0.249喜剧0.3082017年0.240
喜剧0.275动画0.227人性0.261香港0.204
经典0.225经典0.219经典0.258经典0.190
悬疑0.221人性0.214美国
电影
0.209中国0.182
美国
电影
0.206悬疑0.189动画0.202悬疑0.182
英国0.206美国电影0.186科幻0.201人性0.179

新窗口打开| 下载CSV


表14   “一个人看电影”不同时间点标签标准化中心度部分结果

18.1.25${{{C}'}_{D}}({{N}_{i}})$18.2.6${{{C}'}_{D}}({{N}_{i}})$18.2.20${{{C}'}_{D}}({{N}_{i}})$18.3.6${{{C}'}_{D}}({{N}_{i}})$
美国0.033剧情0.027美国0.034剧情0.028
剧情0.031美国0.025剧情0.028美国0.025
爱情0.029爱情0.024喜剧0.024爱情0.023
喜剧0.0232017年0.022爱情0.0242017年0.022
2017年0.021人性0.0182017年0.021喜剧0.022
人性0.017动画0.018英国0.020人性0.017
文艺0.015文艺0.017青春0.017电视剧0.015
经典0.014悬疑0.017人性0.016犯罪0.012
动作0.013喜剧0.016动作0.015香港0.012
英国0.013中国大陆0.014科幻0.014动画0.012

新窗口打开| 下载CSV


表15   “买书 读书 一起来吧”不同时间点标签标准化中心度部分结果

19.2.18${{{C}'}_{D}}({{N}_{i}})$19.3.6${{{C}'}_{D}}({{N}_{i}})$.
历史0.031文学0.032
文学0.019小说0.027
中国0.018外国文学0.026
外国文学0.018历史0.015
小说0.010随笔0.010
随笔0.011中国文学0.011
2018年0.011国学0.010
近代史0.010写作0.009
读库0.010古典文学0.009
文化0.009日本0.009

新窗口打开| 下载CSV


3.4 社群动态标签生成

将3.2节生成的社群话题动态标签与3.3节生成社群活跃成员兴趣动态标签进行整合, 生成社群动态标签。

分析3.2节生成的社群话题标签, 笔者认为在电影领域社群话题中概率大于0.01的语词与其他语词相比具有显著性差异, 且较为稳定。因此选取生成社群话题标签概率大于0.01标签作为话题预选标签, 如“佳片推荐”社群2018年1月25日话题预选标签为“电影”; 而书籍领域社群话题语词概率大于0.03则具有一定显著性。同时, 对于生成的社群活跃成员兴趣动态标签, 根据社群成员兴趣标签的标准化中心度排序, 如表13-表15所示, 由于国别、年份、资源类型(如中国、剧情、电视剧、经典)等标签对社群表征意义不大, 因此对这些标签予以剔除后选取Top10作为成员兴趣预选标签。

因此, 根据两类标签整合的分配比例, 由于豆瓣网小组标签规定为5个, 则本文社群话题标签选取2个, 社群成员兴趣标签选取3个, 根据表8表13及上述分析, 豆瓣电影兴趣小组“佳片推荐”(2018年1月25日)的社群话题标签概率超过0.01的仅有一个为“电影”; 社群活跃成员兴趣标签为标准化中心度最高的“爱情”、“喜剧”、“犯罪”、“悬疑”, 因此豆瓣电影兴趣小组“佳片推荐”在该时间段的动态标签生成结果为: 电影、爱情、喜剧、犯罪、悬疑。

而该小组原标签为: 电影、电视、导演、编剧、演员。通过两组标签的对比分析可以看到, 动态生成的标签既能够较为准确地反映出社群的特征, 同时对社群短期的兴趣也有较好的揭示, 方便用户的社群选择。

4 实证研究结果验证

本文抓取“佳片推荐” 5个时间点, “一个人看电影”4个时间点, “买书 读书 一起来吧”2个时间点, 同一社群不同时间点、同类型社群相同时间点及不同类型社群的豆瓣兴趣小组话题及活跃成员兴趣标签数据。比较分析这三种情况, 并验证模型效果。各社群动态标签生成结果如表16所示。

表16   社群标签动态生成结果

社群名称原标签数据日期社群动态标签
佳片推荐电影 电视 导演 编剧 演员2017.1.25电影人性爱情喜剧悬疑
2018.1.25电影爱情喜剧犯罪悬疑
2018.2.06电影推荐爱情喜剧动画
2018.2.20电影水形物语爱情喜剧人性
2018.3.06电影推荐喜剧爱情悬疑
一个人看电影电影 一个人 生活 单身2018.1.25孩子爱情喜剧人性文艺
2018.2.06电影生活爱情人性动画
2018.2.20电影星座喜剧爱情青春
2018.3.06电影瑜伽爱情喜剧人性
买书 读书 一起来吧买书 读书 聊天 书友 书讯2019.2.18书籍买书历史文学小说
2019.3.06买书书籍文学小说历史

新窗口打开| 下载CSV


通过表16可以发现, 不同类型社群间主要特征并不相同, “佳片推荐”与“一个人看电影”主要关注的是电影, 而“买书 读书 一起来吧”关注的是书籍与买书。其中, “佳片推荐”长期的兴趣点为爱情和喜剧电影, 但随着时间的变化, 社群的关注重点也会发生改变。如2017年较多关注“人性”方面的电影, 在2018年2月主要关注“水形物语”, 在3月除爱情喜剧外更多的关注“悬疑”主题电影。

查询2017年1月25日之前热映的电影, 结果如表17所示, 笔者发现自从2016年年中韩国电影《我们的世界》、《釜山行》热映, 引起观众对有关人性电影的喜爱热潮, 在2016年下半年, 陆续有如《血战钢锯岭》、《萨利机长》等拷问人性的著名电影上映, 使得社群成员持续关注人性电影, 因此在2017年1月的社群动态标签中“人性”标签突出。

表17   2017年1月25日前热映的电影

电影上映日期
我们的世界2016.06.16
釜山行2016.07.20
潘多拉2016.12.07
血战钢锯岭2016.12.08
萨利机长2016.12.09
太空旅客2017.01.13
降临2017.01.20

新窗口打开| 下载CSV


而2017年12月29日上映的热播电影 《前任3: 再见前任》引起观众对“爱情”电影的追捧, 之后爱情电影《水形物语》获第90届奥斯卡金像奖最佳影片, 因此在2018年1月“爱情”为主要标签, 2月“水形物语”、“爱情”为主要标签, 之后随着贺岁档喜剧片的开始, 社群主要标签在3月转变为“喜剧”。

同时, 根据同类型不同社群同一时间点的对比, 可以看出两个社群的关注点和兴趣点是有所不同的, “一个人看电影”更加关注“人性”方面的电影, 也更具生活气息, 如“孩子”、“生活”、“瑜伽”等标签, 都体现了这点。而针对不同类型的社群模型也能准确识别, “买书 读书 一起来吧”模型识别其主要特征为“书籍”、“买书”并在动态标签中将其社群成员对书籍的兴趣点进行表征。

综上所述, 本文所提模型将社群话题表征的社群长期特征与社群活跃成员兴趣标签表征的社群短期兴趣结合, 能够较好地揭示社群关注的特点。对社群标签的动态生成提高网络社群定义的及时性与准确性, 方便用户能够清楚地了解不同社群特点, 解决用户获取信息、选择社群困难等问题。但是, 由于豆瓣用户多是使用概括性或反映整体感受、评价的标签[17], 因此在表征社群成员兴趣时有些标签的区分度不高, 但依然能够依据现实情况及时对社群成员兴趣予以表征。经过上述分析有理由相信, 在数据更为合理的情况下, 模型能够为社群更准确及时地生成表征其特点兴趣的标签。

5 结 语

本文将社群作为标签的生成对象, 提出基于社群话题及社群成员兴趣的社群标签动态生成模型, 通过社群话题与社群成员兴趣标签网络挖掘社群特点及近期兴趣关注, 利用BTM模型对社群话题短文本进行主题抽取, 并采用社会网络的分析方法提取社群成员兴趣标签网络的中心节点即高Hub节点, 将两者综合表征社群的特点与兴趣。同时, 将提出的模型应用于真实数据集, 通过不同社群、不同时间间隔的社群标签生成结果, 证明了模型的有效性及准确性。

为更加清晰的描述模型, 本文并未从多个数据源的社群进行数据采集, 样本数据集具有一定局限性, 不能完全涵盖所有网络社群领域, 仅从豆瓣社群验证了模型的准确性与有效性。同时, 针对具体领域话题语词的提取概率阈值研究未来将进一步深入, 并收集更加细致的数据, 通过实证结果继续完善模型的相关算法, 提高模型的有效性与准确性, 促使模型从理论走向实际应用。

作者贡献声明

蒋武轩: 模型构建, 实证分析, 论文撰写和修订;

熊回香: 提出研究方向和方法;

叶佳鑫, 安宁: 论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: jiangchair@mails.ccnu.edu.cn。

[1] 蒋武轩, 熊回香. 实验数据集数据预处理数据.xlsx. 豆瓣小组话题数据.

[2] 蒋武轩, 熊回香. 实验数据集数据预处理数据.xlsx. 豆瓣小组成员兴趣标签数据.

[3] 蒋武轩, 熊回香. 实验数据及数据预处理数据.xlsx. 话题分词词频结果数据.

[4] 蒋武轩, 熊回香. 实验数据及数据预处理数据.xlsx. 话题去停用词词频结果数据.

[5] 蒋武轩, 熊回香. 社群话题处理数据.xlsx. BTM预处理数据.

[6] 蒋武轩, 熊回香. 社群话题处理数据.xlsx. BTM结果数据.

[7] 蒋武轩, 熊回香. 社群成员处理数据.xlsx. 成员兴趣标签统计.

[8] 蒋武轩, 熊回香. 社群成员处理数据.xlsx. 电影-标签隶属矩阵.

[9] 蒋武轩, 熊回香. 社群成员处理数据.xlsx. 标签共现矩阵.

[10] 蒋武轩, 熊回香. 社群成员处理数据.xlsx. 兴趣标签中 心度.

[11] 蒋武轩, 熊回香. 模型结果.xlsx. 各时间间隔小组标签动态生成结果.

参考文献

邓胜利, 胡吉明 .

Web 2.0环境下网络社群理论研究综述

[J]. 中国图书馆学报, 2010,36(5):90-95.

[本文引用: 1]

( Deng Shengli, Hu Jiming .

Review on Online Community Theory in Web 2.0 Environment

[J]. Journal of Library Science in China, 2010,36(5):90-95.)

[本文引用: 1]

Hiltz S R, Goldman R .

Learning Together Online: Research on Asynchronous Learning Networks

[M]. Routledge, 2004: 191-192.

[本文引用: 1]

Liu D, Hua X S, Yang L, et al.

Tag Ranking

[C]// Proceedings of the 18th International Conference on World Wide Web. ACM, 2009: 351-360.

[本文引用: 1]

陈烨, 邵健, 朱科 .

基于社群隐含主题挖掘和多社群信息融合的自动图像标注

[J]. 中国图象图形学报, 2010,15(6):944-950.

DOI:10.11834/jig.20100614      Magsci     [本文引用: 1]

在Flickr图像共享网站上,大量无标签或者缺少标签的图像往往会因为标签信息的不完整,以致无法被有效地利用和检索。为了有效地进行图像检索,从Flickr用户经常会根据上传图像所隐含的主题而将其推荐到多个相关社群的特点出发,提出了一种新颖的基于社群隐含主题挖掘和多社群信息融合的自动图像标注算法。与传统的自动图像标注方法不同,该算法首先采用隐Dirichlet分配模型(latent Dirichlet allocation,LDA)对单个社群里的隐含主题(topic)进行挖掘,并利用隐含主题对由相似图像标签传播产生的初始“噪音”标签进行过滤;然后对同属于多个社群的图像,通过多社群信息融合来生成最终标注结果。实验结果显示了该新算法的有效性。

( Chen Ye, Shao Jian, Zhu Ke .

Automatic Image Annotation Using Social Group Latent Topic Mining and Multi-Group Information Fusion

[J]. Journal of Image and Graphics, 2010,15(6):944-950.)

DOI:10.11834/jig.20100614      Magsci     [本文引用: 1]

在Flickr图像共享网站上,大量无标签或者缺少标签的图像往往会因为标签信息的不完整,以致无法被有效地利用和检索。为了有效地进行图像检索,从Flickr用户经常会根据上传图像所隐含的主题而将其推荐到多个相关社群的特点出发,提出了一种新颖的基于社群隐含主题挖掘和多社群信息融合的自动图像标注算法。与传统的自动图像标注方法不同,该算法首先采用隐Dirichlet分配模型(latent Dirichlet allocation,LDA)对单个社群里的隐含主题(topic)进行挖掘,并利用隐含主题对由相似图像标签传播产生的初始“噪音”标签进行过滤;然后对同属于多个社群的图像,通过多社群信息融合来生成最终标注结果。实验结果显示了该新算法的有效性。

吴丹, 向雪 .

社群环境下的协同信息检索行为实验研究

[J]. 现代图书情报技术, 2014(12):1-9.

[本文引用: 1]

( Wu Dan, Xiang Xue .

An Experimental Study on Collaborative Information Seeking Behavior in Community Environment

[J]. New Technology of Library and Information Service, 2014(12):1-9.)

[本文引用: 1]

滕广青, 贺德方, 彭洁 , .

基于“用户-标签”关系的社群知识自组织研究

[J]. 图书情报工作, 2014,58(20):106-111.

[本文引用: 1]

( Teng Guangqing, He Defang, Peng Jie , et al.

Study on Self-Organization of Community Knowledge Based on "User-Tag" Relationship

[J]. Library and Information Service, 2014,58(20):106-111.)

[本文引用: 1]

崔芳, 胡海华, 崔文田 .

基于快速“关系”的虚拟社群成员持续分享知识的动机研究

[J]. 情报杂志, 2017,36(12):186-192.

[本文引用: 1]

( Cui Fang, Hu Haihua, Cui Wentian .

The Motivations of Virtual Community Members’ Continuous Sharing of Knowledge, Based on Swift “Guanxi”

[J]. Journal of Intelligence, 2017,36(12):186-192.)

[本文引用: 1]

李文根 .

基于社区问答系统的中文短文本标签生成研究

[D]. 南京: 南京大学, 2017.

[本文引用: 1]

( Li Wengen .

Research on Tag Generation for Chinese Short Text Based on Community Question Answering System

[D]. Nanjing: Nanjing University, 2017.)

[本文引用: 1]

Cheng X, Yan X, Lan Y , et al.

BTM: Topic Modeling over Short Texts

[J]. IEEE Transactions on Knowledge & Data Engineering, 2014,26(12):2928-2941.

[本文引用: 1]

李雷, 朱玉婷, 施化吉 , .

社会网络中基于U_BTM模型的主题挖掘

[J]. 计算机应用研究, 2017,34(1):132-135.

[本文引用: 1]

( Li Lei, Zhu Yuting, Shi Huaji , et al.

Topic Mining Based on U_BTM Model in Social Networks

[J]. Application Research of Computers, 2017,34(1):132-135.)

[本文引用: 1]

李敬, 印鉴, 刘少鹏 , .

基于话题标签的微博主题挖掘

[J]. 计算机工程, 2015,41(4):30-35.

DOI:10. 3969/ j. issn. 1000-3428. 2015. 04. 006      Magsci     [本文引用: 1]

随着互联网的发展,微博已成为人们获取信息的主要平台,为从海量微博中挖掘出有价值的主题信息,结合微博中的会话、转发和话题标签,将微博划分为用户兴趣、用户互动和话题微博3 类,提出基于作者主题模型(ATM)的话题标签主题模型HC-ATM,使用Gibbs 抽样法对模型进行推导,获取微博主题结构。在Twitter 数据集上的实验结果表明,与ATM 模型和基于潜在狄利克雷分布的微博生成模型相比,HC-ATM 模型的主题困惑度更小、差异度更大,并且能有效挖掘出不同微博类型的主题分布。

( Li Jing, Yin Jian, Liu Shaopeng , et al.

Microblog Topic Mining Based on Hashtag

[J]. Computer Engineering, 2015,41(4):30-35.)

DOI:10. 3969/ j. issn. 1000-3428. 2015. 04. 006      Magsci     [本文引用: 1]

随着互联网的发展,微博已成为人们获取信息的主要平台,为从海量微博中挖掘出有价值的主题信息,结合微博中的会话、转发和话题标签,将微博划分为用户兴趣、用户互动和话题微博3 类,提出基于作者主题模型(ATM)的话题标签主题模型HC-ATM,使用Gibbs 抽样法对模型进行推导,获取微博主题结构。在Twitter 数据集上的实验结果表明,与ATM 模型和基于潜在狄利克雷分布的微博生成模型相比,HC-ATM 模型的主题困惑度更小、差异度更大,并且能有效挖掘出不同微博类型的主题分布。

Barabási A L, Albert R .

Emergence of Scaling in Random Networks

[J]. Science, 1999,286(5439):509-512.

[本文引用: 1]

Albert R, Barabási A L .

Statistical Mechanics of Complex Networks

[J]. Reviews of Modern Physics, 2002,74(1):47.

[本文引用: 1]

Bonacich P .

Factoring and Weighting Approaches to Status Scores and Clique Identification

[J]. Journal of Mathematical Sociology, 1972,2(1):113-120.

[本文引用: 1]

Freeman L C .

Centrality in Social Networks: Conceptual Clarification

[J]. Social Networks, 1978,1(3):215-239.

[本文引用: 1]

百度百科. 豆瓣网[EB/OL]. [2018-02-15]..

URL     [本文引用: 1]

( Baidu Baike. Douban[EB/OL]. [2018-02-15]..)

URL     [本文引用: 1]

林鑫, 周知 .

用户认知对标签使用行为的影响分析——基于电影社会化标注数据的实证分析

[J]. 情报理论与实践, 2015,38(10):85-88.

[本文引用: 1]

( Lin Xin, Zhou Zhi .

Analysis on the Influence of User Cognition on Label Use Behavior-An Empirical Analysis Based on the Social Labeling Data of Movies

[J]. Information Studies: Theory & Application, 2015,38(10):85-88.)

[本文引用: 1]

/