网络虚拟学习社区重要用户与核心主题联合分析*

doi:10.11925/infotech.2096-3467.2019.1104

网络虚拟学习社区重要用户与核心主题联合分析*

蔡永明^,^,¹, 刘璐¹, 王科唯²

¹济南大学商学院济南 250002

²内蒙古工业大学经济管理学院呼和浩特 010051

Identifying Key Users and Topics from Online Learning Community

Cai Yongming^,^,¹, Liu Lu¹, Wang Kewei²

¹Business School, University of Jinan, Jinan 250002, China

²School of Economics and Management, Inner Mongolia University of Technology, Huhhot 010051, China

通讯作者: 蔡永明, ORCID：0000-0001-7571-1761,E-mail:cymujn@163.com。

收稿日期: 2019-10-8 网络出版日期: 2020-06-25

基金资助:

*本文系国家社会科学基金项目“国家战略性新兴产业政策对关键核心技术创新影响机制与路径研究”.  19BGL038
内蒙古社会科学规划重大项目“内蒙古供给侧结构性改革与创新发展研究”.  2018ZDA003
内蒙古自治区自然科学基金项目“内蒙古绿色资源型企业动态能力对商业模式创新的作用机理研究”的研究成果之一.  2018LH07006

Received: 2019-10-8 Online: 2020-06-25

摘要

【目的】 自动分析网络虚拟学习社区的资源,解决信息过载选择困难问题。【方法】 本文提出一种基于“用户-文档-词汇”三维权重矩阵的超网络嵌入LDA模型,通过引入“用户-词汇”超网络分析,以超网络临近性信息修正LDA模型,加大超网络结构中连接紧密的词汇或用户在同一主题下的分配概率,提高主题凝聚性。【结果】 与传统社会网络分析的用户活跃程度不同,超网络嵌入LDA模型根据“用户-词汇”频度矩阵、“用户-主题”分布概率,发现论坛重要用户、核心主题以及两者的互动关系,分析用户兴趣偏好特征。【局限】 超网络分析技术目前并不成熟,本文加权无向超网络,未对虚拟学习社区的发帖回复等有向关系进一步深入研究。【结论】 超网络嵌入LDA模型是传统作者主题模型的改进,可以有效分析社区短文本主题,了解社区用户之间的互动主题关系,对参与社区学习者和论坛管理者都有重要意义。

关键词： 虚拟学习社区 ; 超网络嵌入LDA模型 ; 重要用户 ; 核心主题 ; 联合分析

Abstract

[Objective] This study automatically analyzes resources of a virtual learning community, aiming to address the issue of information overload. [Methods] We proposed a hyper-network LDA model based on the user-document-word cube. Then, we modified this LDA model with the help of word and user analysis. Finally, we improved the cohesiveness of topics in the hyper-network LDA model, through increasing the distribution probability of closely connected words or users for the same topics. [Results] Compared to the traditional social network analysis methods, the proposed LDA model can identify important users, key topics and the relationship among them, as well as user preferences with frequency matrix of user-vocabulary and distribution probability of user-topic. [Limitations] Hyper-network analysis theory is still developing and we only studied the weighted un-directed network, which does not include the relationship of posting and replying. [Conclusions] The hyper-network LDA model effectively analyzes topics of short texts and online interactions, which are of significance to users and online learning community managers.

Keywords： Virtual Learning Community ; Hyper-Network LDA Model ; Key Users ; Core Topics ; Joint Analysis

PDF (2438KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

蔡永明, 刘璐, 王科唯. 网络虚拟学习社区重要用户与核心主题联合分析*. 数据分析与知识发现[J], 2020, 4(6): 69-79 doi:10.11925/infotech.2096-3467.2019.1104

Cai Yongming. Identifying Key Users and Topics from Online Learning Community. Data Analysis and Knowledge Discovery[J], 2020, 4(6): 69-79 doi:10.11925/infotech.2096-3467.2019.1104

1 引言

在开放共享理念的影响下,基于网络的共同学习和共同创作的虚拟学习社区逐渐流行起来,已经成为一个集体学习空间,成员之间分享自己的经验和技能,交流问题与解决方案。这种虚拟学习社区包括网络公开课(如MOOC、Coursera、网易公开课等网络学习平台)、学术论坛(如经管之家、CSDN程序员论坛等专业论坛)、协同创作社区(如Linux开源软件开发社区)、公共资源协作维护社区(如Wikipedia、百度百科)等,这些虚拟社区为参与者提供了海量的信息资源、不受时空限制的交流渠道、优势互补的全球化合作途径。特别是对于新兴技术,虚拟学习社区有着传统图书馆不可比拟的优势。

在虚拟学习社区提供海量资源的同时,信息过载、结构杂乱现象很严重,用户难以找到需要的资源。文本挖掘、机器学习、社会网络分析等技术是信息获取与分析的有效工具,广泛应用于虚拟学习社区挖掘。其中,用户关系分析与论坛内容分析是虚拟学习社区挖掘的两项重要内容。用户关系分析主要通过研究用户之间的关注、转发和评论等行为,分析论坛的核心成员及其在论坛的社会网络关系;论坛内容分析是基于交流内容的文本挖掘,可以实现精确信息检索、快速主题发现、文本情感判断、知识抽取等。二者的结合可以有效构建社区整体的知识图谱,便于抽取用户与知识的关系。

2 研究现状

虚拟学习社区分析常用文本挖掘的主题模型提取评论主题,最经典的主题模型是潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)^[1]模型,以及考虑作者信息的作者主题模型(Author-Topic Model)^[2]。利用主题模型进行虚拟学习社区研究的包括：Tobarra等^[3]研究学生在虚拟社区中提问、回复的文本,通过分类算法,判断并推荐学生喜欢的主题;Jenders等^[4]通过机器学习方法提取作者特征和内容特征,寻找MOOC社区问题的最佳答案;孙传远等^[5]分析爱课程网的评论文本,用统计方法分析学习者对课程资源的正面或负面评价倾向;卢露等^[6]利用主题模型挖掘博客社区的热点内容。

近年,基于社交关系的知识分享与信息传递研究受到广泛关注。类似于学术文献的“作者-文档”关系,虚拟学习社区的内容是多个用户参与的生态系统,以网页形式存储的文本,也存在“用户-文本”关系,成员互动交流是社区的重要特征。因此,可以利用社会网络分析(Social Network Analysis,SNA)方法研究虚拟学习社区用户之间的社会关系,以及错综复杂的集体行为结构。单纯研究社区用户互动关系的文献较多,将用户社会网络关系与互动主题结合的研究是近年的研究热点。Li等^[7]利用社会网络社区发现算法分析社区主题和社区用户的结构变化;廖晓等^[8]以加权知识网络模型识别基于派系的各类知识创新模式。以超网络结合文本分析的研究主要包括：Deng等^[9]将超网络理论研究应用于文献分析,在研究人员和论文之间建立一个科学协作的超级网络,但该研究为引文网络的计量分析,没有涉及语义和主题等内容信息;郭秋萍等^[10]建立“作者-关键词-引文”三个子网的多重共现超网络模型,研究科技文献网络间的异质关联关系,但仅提出一个分析框架,并没有给出具体分析方法;Zhao等^[11]构建动态知识超网络模型,研究知识创造和知识扩散机制,该研究采用的是多智能体仿真模拟,并非真实数据。

综上所述,现有研究存在以下三个明显的弊端。

(1) 仅研究用户的关注、转发和评论关系是不够的。因为虚拟学习社区中的用户是因为某个主题才产生互动,一个用户可能对若干主题感兴趣,在多个板块发表意见,用户与主题(或用户使用的词汇)具有不同的属性和特征^[12],构建用户和主题的异质网络更为合适。

(2) 以文档为单位的粗粒度分析过于粗糙。“作者-主题”模型以文献全文或文献摘要作为一个文档,一篇学术文献一般只有一个主题,这种处理较为合适。而虚拟学习社区文本分析如果以一个帖子为单位,用户的回帖将被合并处理为一个文档,学术文献不同,虚拟学习社区的回帖内容主题杂乱,一个帖子会引发各种视角的讨论,即使针对同一问题的回复也会有不同技术方案。应用主题模型得出的主题分布概率不集中,用户参与某个帖子的讨论,但参与的主题可能不一样,所以以用户使用词汇的细粒度特征研究用户与参与主题的关系更为适合。

(3) 网络分析和文本挖掘技术并没有深度结合,现有研究大多是在同一数据集上分别进行用户或作者关系的社会网络分析和文本主题分析,虚拟学习社区用户互动交流目的主要是为了学习某种知识或解决某个问题,用户互动关系以及互动使用词汇等关联关系对主题分析具有较强的指导意义,二者的深度结合是有价值的。

本文以虚拟学习社区交流内容文本与用户互动关系为对象,引入超网络(Hyper-Network)结构信息^[13],提出一种超网络嵌入的LDA模型,在细粒度特征下研究用户与参与主题的关系。首先,将社区发帖与回复的内容切分为词汇,关联使用该词汇的用户,构建“用户-词汇”异质超网络,计算超网络重要节点和社区等结构信息,识别出社区内容主要提供者、核心主题,并展示两者之间的关系;接着,利用超网络结构信息嵌入主题模型,修正主题模型并提高主题凝聚性;最后,将修正后的主题信息反馈到用户社会网络,分析用户参与互动的主题。研究结果为社区用户提供更精准的内容信息,也为社区管理者更好把握社区主题方向提供参考。

3 “用户-词汇”超网络构建与分析

3.1 “用户-词汇”超网络构建与分解

本文提出的“用户-词汇”超网络嵌入LDA模型,以文档主题模型为基础,将虚拟学习社区作为一个临时的社会网络,建立跨越文档的词汇上下文关联关系,研究用户与发帖(或回复)内容的交互关系。如图1所示,定义两层超网络 $g (V, E, L)$ , $V$ 为节点集,分为两类： $V_{L = 1} = {u_{i}}$ 为用户节点集,表示虚拟学习社区用户网络节点; $V_{L = 2} = {w_{i}}$ 为词汇节点集,表示数据集下特征词汇(TF、TF-IDF、互信息MI、N-gram等标准)共现网络(Co-Occurrence Network)节点。交互关系为边集 $E$ ,分为三类：在 $i \neq j$ 的情况下, $E_{L = 1} = {e_{ij}^{1}}$ 为用户网络连边,表示用户之间的互相关注、回帖等互动关系; $E_{L = 2} = {e_{ij}^{2}}$ 为特征词汇网络连边,表示词汇之间的共现频率、上下文关系; $E_{L = 1,2} = {e_{ij}^{12}}$ 为用户使用特征词汇的网络超边。这个网络可以是有向网络,即考虑问与答的有向关系,也可以是赋权网络,即考虑双方的互动密集程度、词汇共现特征强度作为边权,也可以简化分析,仅考虑有无交互的无向无权网络。“用户-词汇”超网络可以分解为用户网络、词汇共现网络、用户-词汇二部图三个子网络,如图1所示。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 “用户-词汇”超网络结构分解

Fig.1 Structure Decomposition of User-Term Hyper-Network

3.2 “用户-词汇”超网络分析

“用户-词汇”网络是两层结构的超网络,既包含相似主题的词汇之间的共现网络,也包含生成这些词汇的用户之间评论、转发互动关系网络。超网络社区发现不仅可以实现用户群体互动关系的聚类,还可以发现用户使用词汇的习惯,在相似的用户互动与共同使用词汇习惯之间的交叉关系上,分析具有共同学习兴趣主题子群体,发现社区的重点词汇和主要参与者的互动话题。

传统单层网络节点重要性主要包括：基于节点中心性的方法,例如使用点度中心度(Degree Centrality)、介数中心度(Betweenness Centrality)、接近中心度(Closeness Centrality)等中心性描述节点的重要程度;基于链接重要性的方法,例如HITS算法(Hyperlink-Induced Topic Search)^[14]、EdgeRank算法^[15]等,按照链入和链出到高质量节点的数量进行重要性排序。超网络节点重要性不仅要考虑同层同质节点的重要性,更需要考虑跨层链路的重要性,目前较为流行的算法有CLDC(Cross-Layer Degree Centrality)算法^[16]和TaCMM(Tailoring Centrality Measures in Multiplex Networks)算法^[17]。本文选用相对成熟的CLDC算法分析超网络节点重要性。

社区是社会网络中普遍存在的模块结构特性,社区发现算法用来发现网络中的社区结构,分析网络内的凝聚子群。单层社会网络社区发现算法主要包括图分割的GN(Girvan-Newman)算法^[18]、基于优化的KL(Kernighan-Lin)算法^[19]等。超网络社区发现算法主要包括基于跨层边缘聚类系数(Cross-Layer Edge Clustering Coefficient,CLECC)算法^[20]、基于多层随机块模型(Multi-Layer Stochastic Block Model,MSBM)的多层社区发现算法^[21]、基于多层次模块度(Multilayer Modularity)的跨层社区发现算法^[22]。本文选用CLECC算法研究超网络社区结构。

4 超网络嵌入LDA模型

本文提出超网络嵌入LDA模型(Hyper-Network LDA),引入超网络节点“用户”重要性( $CLDC$ 值),将传统LDA模型的“文档-词汇”权重矩阵( $dt m_{ij}^{TF - IDF}$ )改为“用户-文档-词汇”三维权重矩阵( $udt m_{sij}^{TF - IDF}$ ),利用Gibbs分层采样生成主题的概率分布。模型的输出信息既包含互动文本的主题分析,又包含生成这些内容的用户之间的关系;同时,在生成主题时,将会加大超网络结构中连接紧密节点(词汇或用户)在同一主题下的分配概率,所得主题凝聚性更好。

4.1 “用户-词汇”超网络嵌入

超网络嵌入LDA模型是在传统LDA模型的“文档-主题-词汇”三层结构(如图2所示)的基础上,加入用户维度,转化成“用户-文档-主题-词汇”的4层结构(如图3所示)。“用户-文档-词汇”三维权重矩阵( $udt m_{sij}^{TF - IDF}$ )为模型输入信息,而用户与文档是一对多的确定关系,而且对应的数量不多,可以合并同一用户生成的文档,即构成“用户-词汇”超网络。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 传统LDA分解示意图

Fig.2 Decomposition Diagram of Traditional LDA Model

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 “用户-词汇”超网络嵌入LDA模型分解示意图

Fig.3 Decomposition Diagram of Hyper-Network LDA Model

由于超网络嵌入LDA模型加入了用户维度信息,模型的输入数据为“用户-文档-词汇”三维权重矩阵( $udt m_{sij}^{TF - IDF}$ )。该矩阵的权重计算为原“文档-词汇”权重矩阵( $dt m_{ij}^{TF - IDF}$ )与超网络节点重要性计算出的用户重要性和词汇重要性系数的乘积,如公式(1)所示。将“用户-主题-词汇”的联合概率分布分解为用户主题概率、词汇主题概率和文档主题概率三者的乘积( $P (u, z | w) = P (z | u) P (w | z) P (z | d)$ )。修正后的权重系数矩阵对“用户-词汇”超网络中重要节点赋予更高权重。

(1)

\begin{array}{l} udt m_{sij}^{TF - IDF} = CLDC (u_{s}, l_{1}) \times CLDC (w_{j}, l_{2}) \\ \times dt m_{ij}^{TF - IDF} \end{array}

超网络嵌入LDA模型在传统词共现分析的基础上,增加考虑用户间的社交关系,从超网络临近性角度考虑词汇之间的搭配关系,以及用户使用词汇的超边邻近关系,修正“文档-词汇”权重矩阵,能更好地应用于具有社交属性的文本主题分析。输出结果除了传统LDA模型的主题信息外,增加了“用户-主题”分布信息,有助于了解用户兴趣偏好特征,可以用于用户网络社区发现,实现基于参与主题的用户聚类。

4.2 用户与词汇的主题分布计算

LDA模型中,给定一个文档集合,文档的词汇独立可交换; $N$ 为数据集中所有不同的词汇个数, $K$ 为主题个数, $M$ 为语料库中的文档数;每篇文章下的主题分布 $P (z_{k} | d_{m})$ 是一个从参数为 $α$ 的Dirichlet先验分布中采样得到的多项式分布,每个主题下的词分布 $P (w_{n} | z_{k})$ 是一个从参数为 $β$ 的Dirichlet先验分布中采样得到的多项式分布。根据LDA模型的主题和词汇联合概率分布公式^[1],在超网络嵌入LDA模型中加入用户维度,其联合概率分布如公式(2)所示。

(2)

P (θ, Z, W, u | α, β) = P (w_{n} | u_{s}) (\sum_{u} (P (θ | α) \prod_{n = 1}^{N} P (z_{k} |θ) P (w_{n} | z_{k}, β)))

其中, $\sum_{u}$ 为同用户文档主题概率分布的合并; $W = {w_{1}, w_{2}, \dots, w_{n}}$ 、 $D = {d_{1}, d_{2}, \dots, d_{m}}$ 、 $U = {u_{1}, u_{2},$ $\dots, u_{s}}$ 、 $Z = {z_{1}, z_{2}, \dots, z_{k}}$ 是已知观察变量。由于用户和文档是确定的一对多关系,所以模型没有增加新的先验参数。

主题个数 $K$ 采用交叉验证(Cross Validation)方法获得,通过实验一系列的 $K$ 值,训练比较其困惑度(Perplexity)^[1]和对数似然值(Log Likelihood)^[23],在困惑度最小或对数似然值最大的 $K$ 值即为最佳主题数。超参数 $α$ 和 $β$ 可以根据经验确定(取 $α = 50 / K$ , $β = 0.01$ );每篇文档主题多项分布 $θ$ 、词汇主题多项分布 $ϕ$ 可采用Gibbs采样的方法估计^[24]。

5 实验分析

5.1 数据获取与预处理

本文以经管之家论坛“数据分析与数据挖掘”版块^①(https://bbs.pinggu.org/forum-133-1.html.)为例,该版块比较活跃,每天都有大量的学习互动。在经管之家论坛页面,利用R语言的rvest包,抓取最近50页发帖页面,提取版块主题和回复文本2万多条,经过清洗过滤的结构化数据如图4(a)所示,用户发帖和回帖互动关系如图4(b)所示。经过分词,去除重复词汇和停用词^②(②北京大学杨扬整理的1 598个停用词表, https://github.com/dongxiexidian.),以及网页非文字符号,生成后续分析的语料库。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 实验数据

Fig.4 Experimental Data

5.2 “用户-词汇”超网络分析

(1) 重要用户及其论坛互动关系分析

重要用户及其互动关系分析实质是超网络重要节点和关键链接分析。根据CLDC算法^[16]计算“用户-词汇”超网络中的重要用户节点(CLDC值),同时计算单层网络的用户节点重要性(度和中介中心度)。三种方法计算的社区超网络重要用户Top20结果如表1所示。

通过对这些用户及其发布的信息分析,在按照度、中介中心度等指标的节点重要性分析中,“Crsky7”和“jgchen1966”具有较高的重要性;而在“用户-词汇”超网络分析中,考虑论坛内容重点词汇具有交叉关系后,这两个用户并不那么重要。查看数据发现,“Crsky7”是该版块的版主,发布帖子大多为论坛管理公告,以及对发帖人的奖励或警告,在CLDC算法中仅排在274位;“jgchen1966”在论坛发言较为活跃,但发表内容与论坛主题相关性差,在CLDC算法中仅排在68位。“zyk20062964”“飞天玄舞6”“ydc129”“浪子彦青”“widen我的世界”等是论坛内容的重要提供者,特别是“wangfeng666”和“我的素质低”等一些度值不高,但CLDC值较高的用户,发帖回复的数量虽然不是很多,但质量却很高,发布的文档内容与论坛主题高度相关。

表1 社区超网络重要用户Top20

Table 1 Top20 Users of Hyper-Network Community

排序	用户	度	用户	中介中心度	用户	$\frac{CLDC (x, 1) + CLDC (x, 2)}{2}$
1	zyk20062964	93	zyk20062964	615 148.2	zyk20062964	8.728E-04
2	ydc129	62	jgchen1966	503 900.2	飞天玄舞6	8.403E-04
3	jgchen1966	61	china_cao1	433 808.2	ydc129	8.116E-04
4	widen我的世界	60	水天一色DIY	409 840.8	浪子彦青	8.040E-04
5	Crsky7	60	ydc129	346 632.8	widen我的世界	7.270E-04
6	水天一色DIY	57	420948492	344 053.3	franky_sas	6.709E-04
7	420948492	56	Crsky7	332 498.0	wangfeng666	6.309E-04
8	飞天玄舞6	52	410234198	314 516.4	我的素质低	5.884E-04
9	nightmarehelen	52	飞天玄舞6	261 111.4	tigerwolf	5.368E-04
10	wjj0913	52	浪子彦青	243 607.7	曲歌99	5.199E-04
11	资料狂人	44	kuangsir6	224 751.2	yangbenfa	4.864E-04
12	edward132	40	大家开心	222 211.5	410234198	4.264E-04
13	浪子彦青	40	梦若舞之官世强	195 902.9	nivastuli	4.110E-04
14	wwqqer	37	widen我的世界	189 873.0	数据分析闯天下	3.954E-04
15	数据分析闯天下	33	悬思苦索	184 142.5	Nicolle	3.499E-04
16	china_cao1	33	数据分析闯天下	163 175.3	wwqqer	1.770E-04
17	tigerwolf	32	davil2000	160 709.9	jjxm20060807	8.288E-05
18	劲量小兔888	30	franky_sas	156 655.9	woaiwojia9	5.793E-05
19	franky_sas	27	劲量小兔888	152 875.5	wh7064rg	4.854E-05
20	liucg9999	26	nightmarehelen	143 267.9	420948492	3.192E-05

新窗口打开| 下载CSV

传统社会网络分析中的重要节点,往往给予版务管理、灌水用户这类活跃人群高的重要性;而在超网络分析中找到的重要节点(用户),既是用户群体中与其他用户联系多的用户,也是“用户-词汇”交叉关系中,与重要词汇高度相关的用户,他们不一定是论坛里最活跃的人群,却是主题内容的重要提供者。

社区发现可以发现社会网络中关系密切的群体,同样,“用户-词汇”超网络社区发现也从共同使用重点词汇角度,倾向于将讨论共同主题的用户划分在一个社区,该结果对虚拟学习社区文本主题分析也有重要意义。根据CLECC算法^[20],计算获得该数据集中各用户的互动社区,如图5(a)所示,提取其中较小的一个社区展示如图5(b)所示。

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 基于CLECC算法的用户社区

Fig.5 User Community Based on CLECC Algorithm

分析CLECC算法在本数据集上运行的结果发现：用户层社区147个,词汇层社区783个,社区间重叠较为严重,说明该论坛用户互动关系较为复杂。

(2) 用户常用词汇关系分析

提取前5位重要用户“zyk20062964”“飞天玄舞6”“ydc129”“浪子彦青”“widen我的世界”及其常用高频词汇,生成“用户-词汇”子网络,如图6所示。

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 Top5重要用户的“用户-词汇”子网络

Fig.6 User-Term Sub Network of Top5 Users

通过观察并结合“用户-词汇”子网络度分布数据,可以发现：“飞天玄舞6”主要关联词汇为：“建模”“工具”“分析”等,可知该用户主要在论坛发布和回复数学建模相关问题;“ydc129”主要关联词汇为“挖掘”“算法”“学习”等,可知该用户为挖掘算法爱好者;“widen我的世界”主要关联词汇为“下载”“分享”等,可知该用户为重要的资料提供者。

5.3 超网络嵌入的用户参与主题分析

在简单的超网络结构分析后,笔者更希望能快速提取论坛的主题。超网络嵌入LDA模型可以分析所有发帖和回复的主题,并且在词汇细粒度层面上提供用户主要关注(参与)的主题。

在训练超网络嵌入LDA模型前,需要估计若干参数。根据困惑度和对数似然值交叉验证可得该数据集的最佳主题个数是12~18个,研究选择 $K = 12$ ; $α = \frac{50}{12 = 0.416 7}$ , $β = 0.01$ 。随机抽取30个词袋,观察其主题分布情况,如图7所示。大多数的词袋大概率落于某一主题上,说明该模型运行良好,主题划分比较明确。

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 随机抽取30个词袋的主题分布情况

Fig.7 Topic Distribution of Any 30 Bags of Words

(1) 核心主题与重点词分析

在虚拟学习社区分析任务中,由于发帖和回复大多较短,所以往往仅有一个主题。因此,可以假设一个用户发布的一篇文档只属于一个主题。通过加入用户这一隐变量,提高同一用户在同一主题下的混合权重,增强主题生成的词汇的精度。提取12个主题中最重要的词汇Top20(如表2所示),按照词汇重要权值,生成全部文档词云,如图8(a)所示;在超网络嵌入的用户主题建模后,生成各个主题下的重点词汇词云,如图8(b)所示。

图8

新窗口打开| 下载原图ZIP| 生成PPT

图8 论坛重点词汇词云

Fig.8 Word Cloud of Forum

表2 12个主题的重要Top20词汇

Table 2 Top20 Terms for 12 Topics

N	Topic1	Topic2	Topic3	Topic4	Topic5	Topic6	Topic7	Topic8	Topic9	Topic10	Topic11	Topic12
1	技术	统计	matlab	分析师	analytics	大数据	data	年	数据挖掘	问题	下载	数据挖掘
2	案例	年	数据分析	时代	data	商业智能	mining	数据挖掘	语言	求助	视频	客户
3	统计	年鉴	代码	前景	mining	发布	learning	概念	学习	回归	数据分析	数据
4	研究	中国	数学	了解	系列	独家	machine	数据	软件	数据	教学	序列
5	分享	2011	算法	国内	science	媒体	edition	技术	中文	模型	系列	中
6	系统	数据	课程	工程师	analysis	挖掘	statistical	跪求	算法	做	免费	时间
7	资料	经济	优秀论文	数据	经典	信息	business	论文	r	变量	数据挖掘	应用
8	方法	2010	分享	工作	big	互联网	analysis	月	经典	请问	软件	模型
9	入门	2012	竞赛	数据分析	matlab	文本	methods	求	论坛	小白	基于	大
10	免费	城市	建模	中国	教材	电子表格	models	中国	python	中	神经网络	数据库
11	软件	发展	资料	规则	modeler	smartbi	knowledge	ppt	统计	分析	分析	数据分析
12	下载	地区	神经网络	就业	代码	bi	intelligence	报告	书籍	求	成分	设计
13	教程	excel	weka	分析	示例	案例	applications	sharepoint	sas	值	问题	论文
14	介绍	工业	分析	企业	课程	解决方案	big	答案	教材	请教	中文	分析师
15	经典	产业	大学生	提升	statistics	分析	pattern	全国	入门	检验	求助	基于
16	论文	科技	教程	未来	handbook	运营	modeling	习题	商业智能	一个	区别	管理
17	spss	gdp	工具	问题	algorithms	应用	web	韩家	机器	不	建模	分析
18	数据分析	汇总	大全	科学家	computing	云	discovery	炜	支持向量机	sas	电子书	作者
19	模式	主要	全国	关联	business	网络	techniques	版	推荐	样本	预测	企业
20	代码	全国	模型	行业	handbook	电子商务	recognition	行业	网络	有人	计算	挖掘

(注：存在不同主题选取出相同的特征词的情况,带有底纹的词汇为重复词汇。)

新窗口打开| 下载CSV

观察表2和图8(b)可知,该版块主要有数据挖掘资料共享(Topic1)、统计年鉴等数据发布(Topic2)、数据建模(Topic3)、数据分析师培训(Topic4)、算法和代码(Topic9)、外文资料(Topic7)等主题。

(2) 重要用户参与主题分析

在超网络嵌入LDA模型分析中,输入“用户-文档-词汇”三维权重矩阵( $udt m_{sij}^{TF - IDF}$ )信息,将文档在特征词上的向量转换为该用户在主题上的概率分布,发掘用户在隐藏的“主题”上的兴趣偏好。同时,“用户-词汇”超网络节点之间的交叉关联信息的加入改善了文档主题分布。

仍以论坛中前5位重要用户“zyk20062964”“飞天玄舞6”“ydc129”“浪子彦青”“widen我的世界”为例,计算“用户-主题”分布概率,如图9所示。

图9

新窗口打开| 下载原图ZIP| 生成PPT

图9 5位重要用户参与主题概率分布

Fig.9 Topic Participation Probability Distribution of Top5 Users

其中,第1位和第3位用户(“zyk20062964”和“ydc129”)活跃在数据分析和数据挖掘技术主题方面(Topic4和Topic9),论坛活动参与范围较广,但第2位用户(“widen我的世界”)主要参与各种资料分享（Topic12）;第4位和第5位用户(“飞天玄舞6”和“浪子彦青”)的兴趣点与前三位用户明显不同,主要活跃在统计年鉴等数据分享（Topic2）与分析领域（Topic5）。

6 结语

本文通过网络爬虫获取虚拟学习社区分享互动的内容和关系等数据,利用超网络嵌入LDA模型实现了虚拟学习社区的重要用户与核心主题的联合分析,帮助社区学习者快速获取论坛知识结构,提高学习效率,也为社区管理者掌握社区主题和互动关系提供了新的手段。

虚拟学习社区交流文本是高稀疏特征的短文本,直接使用传统LDA模型分析的效果并不好。在传统LDA模型和作者主题模型的基础上,本文提出超网络嵌入LDA模型,除了提供用户与主题的交互分析外,通过加入用户维度信息,扩展模型的输入数据为“用户-文档-词汇”三维权重矩阵,并以超网络节点重要性修正提高重点词汇与核心用户的权重系数,加大了超网络结构中连接紧密节点(词汇或用户)在同一主题下的分配概率,所得主题凝聚性更好。这种方法属于元信息特征数据增强技术,如：上下文位置、同义词词典等,以及深度学习等数据加强技术都可以用于改善模型。另外,“用户-词汇”超网络采用加权无向网络,虚拟学习社区中的发帖、回复等有向互动关系也有实际意义,未来研究可以构建有向加权网络,更好地反映论坛交互关系。

作者贡献声明

蔡永明：提出研究问题,设计研究方案,负责核心算法实验,论文起草与修订;

刘璐：采集、清洗和分析数据,论文起草与修订;

王科唯：实验方法修正,论文修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据:

支撑数据由作者自存储,E-mail: cymujn@163.com。

[1]蔡永明. Content.csv.经管之家论坛“数据分析与数据挖掘”板块前50页发帖页面中主题和回复文本21061条.

[2] 蔡永明. UserIF.zip. 社区超网络重要用户计算表,包括度中心计算表、中介中心度计算表、超网络CLDC计算表.

[3] 蔡永明. Matrix.zip. 交互关系计算表,包括用户交互关系矩阵、用户文档关系矩阵、文档词汇关系矩阵、主题词汇关系矩阵、用户词汇关系矩阵.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Blei D

, Ng A

, Jordan M

Latent Dirichlet Allocation

[J]. Journal of Machine Learning Research, 2003,3:993-1022.

[本文引用: 3]

[2]

Rosen-Zvi

, Griffiths

, Steyvers

, et al.

The Author-Topic Model for Authors and Documents

[C]//Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence. 2004: 487-494.

[本文引用: 1]

[3]

Tobarra

, Robles-Gómez

, Ros

, et al.

Analyzing the Students’ Behavior and Relevant Topics in Virtual Learning Communities

[J]. Computers in Human Behavior, 2014,31:659-669.

DOI:10.1016/j.chb.2013.10.001 URL [本文引用: 1]

The constant development of new Internet platforms is shifting the users' role of such platforms, from viewers to main actors. In the field of education, faculty can take advantage of these new technologies for the design of pedagogical contents. The face-to-face observation of behavioral patterns allows faculty to detect and track new problems, and to apply possible corrections which would improve the learning/teaching process. However, with a distance methodology, these observations are not possible. When forums are created they are intended to discuss particular topics. It is relevant to monitor that the topics discussed are the intended ones in order to achieve course objectives. To tackle this shortcoming, our work studies the dynamics of relevant topics in on-line asynchronous discussion forums, and this is done by analyzing the large amount of students' interactions generated in the forums of our Learning Management System (LMS). In particular, we analyze the students' behavior patterns in the forums of a distance subject, and characterize the relevant topics and subtopics from the forums' messages belonging to two academic years. From the statistical and graphical results obtained, a set of valuable recommendations are also given. (C) 2013 Elsevier Ltd.

[4]

Jenders

, Krestel

, Naumann

Which Answer is Best?: Predicting Accepted Answers in Mooc Forums

[C]//Proceedings of the International Conference Companion on World Wide Web. 2016: 679-684.

[本文引用: 1]

[5]

孙传远, 刘玉梅.

中国大学视频公开课评价——基于爱课程网“精彩评论”的内容分析研究

[J]. 现代教育技术, 2013,23(12):91-95.

[本文引用: 1]

( Sun

Chuanyuan

, Liu

Yumei

The Evaluation of University Video Open Courses of China——Content Analysis of “Wonderful Comments” Based on I-Courses Web

[J]. Modern Educational Technology, 2013,23(12):91-95.)

[本文引用: 1]

[6]

卢露, 丁才昌.

社区中最具影响力博客的探测模型

[J]. 计算机科学, 2011,38(S1):165-168.

[本文引用: 1]

( Lu

, Ding

Caichang

Model of Identifying the Influentials in Blog Community

[J]. Computer Science, 2011,38(S1):165-168.)

[本文引用: 1]

[7]

Li D

, Ding

, Sugimoto

, et al.

Modeling Topic and Community Structure in Social Tagging: The TTR-LDA-Community Model

[J]. Journal of the Association for Information Science Technology, 2011,62(9):1849-1866.

[本文引用: 1]

[8]

廖晓, 李志宏, 席运江.

基于加权知识网络分析的企业社区创新用户专家知识发现方法

[J]. 系统工程理论与实践, 2016,36(5):1268-1279.

[本文引用: 1]

( Liao

Xiao

, Li

Zhihong

, Xi

Yunjiang

Knowledge Discovery Methods on User-Experts in Enterprise Virtual Communities Based on Weighted Knowledge Network

[J]. Systems Engineering-Theory & Practice, 2016,36(5):1268-1279.)

[本文引用: 1]

[9]

Deng

, Wang

Degree Centrality in Scientific Collaboration Supernetwork

[C]//Proceedings of the International Conference on Information Science & Technology, Nanjing, China. 2011: 259-262.

[本文引用: 1]

[10]

郭秋萍, 梁梦丽, 刘秀丽, 等.

基于作者—关键词—引文多重共现的超网络知识关联研究

[J]. 情报理论与实践, 2016,39(7):20-26.

[本文引用: 1]

( Guo

Qiuping

, Liang

Mengli

, Liu

Xiuli

, et al.

Research on Knowledge Correlation in Hypernetwork Based on Author-Keyword-Citation Multiple Co-occurrence

[J]. Information Studies: Theory & Application, 2016,39(7):20-26.)

[本文引用: 1]

[11]

Zhao L

, Zhang H

, Wu W

Cooperative Knowledge Creation in an Uncertain Network Environment Based on a Dynamic Knowledge Supernetwork

[J]. Scientometrics, 2019,119(2):657-685.

DOI:10.1007/s11192-019-03049-4 URL [本文引用: 1]

[12]

蔡永明, 长青.

共词网络LDA模型的中文短文本主题分析

[J]. 情报学报, 2018,37(3):305-317.

[本文引用: 1]

( Cai

Yongming

, Chang

Qing

Chinese Short Text Topic Analysis by Latent Dirichlet Allocation Model with Co-word Network Analysis (CA-LDA)

[J]. Journal of the China Society for Scientific and Technical Information, 2018,37(3):305-317.)

[本文引用: 1]

[13]

Denning

The Science of Computing: Supernetworks

[J]. American Scientist, 1985,73(3):225-227.

[本文引用: 1]

[14]

Kleinberg J

Authoritative Sources in a Hyperlinked Environment

[J]. Journal of the ACM, 1999,46(5):604-632.

DOI:10.1145/324133.324140 URL [本文引用: 1]

[15]

Birkbak

, Carlsen H

The World of Edgerank: Rhetorical Justifications of Facebook’s News Feed Algorithm

[J]. Computational Culture, 2016(5):1-24.

[本文引用: 1]

[16]

Bródka

, Skibicki

, Kazienko

, et al.

A Degree Centrality in Multi-Layered Social Network

[C]//Proceedings of the International Conference on Computational Aspects of Social Networks. 2011: 19-21.

[本文引用: 2]

[17]

Spatocco

, Stilo

, Domeniconi

, et al.

A New Framework for Centrality Measures in Multiplex Networks

[OL]. arXiv Preprint, arXiv: 1801. 08026.

[本文引用: 1]

[18]

Girvan

, Newman M

Community Structure in Social and Biological Networks

[J]. Proceedings of the National Academy of Sciences, 2002,99(12):7821-7826.

DOI:10.1073/pnas.122653799 URL [本文引用: 1]

[19]

Newman M E

Detecting Community Structure in Networks

[J]. European Physical Journal B, 2004,38:321-330.

DOI:10.1140/epjb/e2004-00124-y URL [本文引用: 1]

[20]

Bródka

, Filipowski

, Kazienko

An Introduction to Community Detection in Multi-Layered Social Network

[A]// Lytras M D, Ruan D, Tennyson R D, et al. Information Systems,E-Learning, and Knowledge Management Research[M]. Springer Berlin Heidelberg, 2013: 185-190.

[本文引用: 2]

[21]

Wilson J

, Palowitch

, Bhamidi

, et al.

Community Extraction in Multilayer Networks with Heterogeneous Community Structure

[J]. Journal of Machine Learning Research, 2017,18(1):5458-5506.

[本文引用: 1]

[22]

Amelio

, Mangioni

, Tagarelli

Modularity in Multilayer Networks Using Redundancy-Based Resolution and Projection-Based Inter-Layer Coupling

[J]. IEEE Transactions on Network Science and Engineering. DOI: 10.1109/TNSE.2019.2913325.

DOI:10.1109/TNSE.2016.2537545 URL PMID:28435844 [本文引用: 1]

Multilayer networks are a useful data structure for simultaneously capturing multiple types of relationships between a set of nodes. In such networks, each relational definition gives rise to a layer. While each layer provides its own set of information, community structure across layers can be collectively utilized to discover and quantify underlying relational patterns between nodes. To concisely extract information from a multilayer network, we propose to identify and combine sets of layers with meaningful similarities in community structure. In this paper, we describe the

[23]

Jordan

Learning in Graphical Models

[M]. Netherlands: Springer, 1998.

[本文引用: 1]

[24]

Griffiths T

, Steyvers

Finding Scientific Topics

[J]. Proceedings of the National Academy of Sciences, 2004,101(1):5228-5235.

DOI:10.1073/pnas.0307752101 URL [本文引用: 1]

Latent Dirichlet Allocation

2003

... 虚拟学习社区分析常用文本挖掘的主题模型提取评论主题,最经典的主题模型是潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)^[1]模型,以及考虑作者信息的作者主题模型(Author-Topic Model)^[2].利用主题模型进行虚拟学习社区研究的包括：Tobarra等^[3]研究学生在虚拟社区中提问、回复的文本,通过分类算法,判断并推荐学生喜欢的主题;Jenders等^[4]通过机器学习方法提取作者特征和内容特征,寻找MOOC社区问题的最佳答案;孙传远等^[5]分析爱课程网的评论文本,用统计方法分析学习者对课程资源的正面或负面评价倾向;卢露等^[6]利用主题模型挖掘博客社区的热点内容. ...

... LDA模型中,给定一个文档集合,文档的词汇独立可交换;

N

为数据集中所有不同的词汇个数,

K

为主题个数,

M

为语料库中的文档数;每篇文章下的主题分布

P (z_{k} | d_{m})

是一个从参数为

α

的Dirichlet先验分布中采样得到的多项式分布,每个主题下的词分布

P (w_{n} | z_{k})

是一个从参数为

β

的Dirichlet先验分布中采样得到的多项式分布.根据LDA模型的主题和词汇联合概率分布公式^[1],在超网络嵌入LDA模型中加入用户维度,其联合概率分布如公式(2)所示. ...

... 主题个数

K

采用交叉验证(Cross Validation)方法获得,通过实验一系列的

K

值,训练比较其困惑度(Perplexity)^[1]和对数似然值(Log Likelihood)^[23],在困惑度最小或对数似然值最大的

K

值即为最佳主题数.超参数

α

和

β

可以根据经验确定(取

α = 50 / K

β = 0.01

);每篇文档主题多项分布

θ

、词汇主题多项分布

ϕ

可采用Gibbs采样的方法估计^[24]. ...

The Author-Topic Model for Authors and Documents

2004

Analyzing the Students’ Behavior and Relevant Topics in Virtual Learning Communities

2014

Which Answer is Best?: Predicting Accepted Answers in Mooc Forums

2016

中国大学视频公开课评价——基于爱课程网“精彩评论”的内容分析研究

2013

中国大学视频公开课评价——基于爱课程网“精彩评论”的内容分析研究

2013

社区中最具影响力博客的探测模型

2011

社区中最具影响力博客的探测模型

2011

Modeling Topic and Community Structure in Social Tagging: The TTR-LDA-Community Model

2011

... 近年,基于社交关系的知识分享与信息传递研究受到广泛关注.类似于学术文献的“作者-文档”关系,虚拟学习社区的内容是多个用户参与的生态系统,以网页形式存储的文本,也存在“用户-文本”关系,成员互动交流是社区的重要特征.因此,可以利用社会网络分析(Social Network Analysis,SNA)方法研究虚拟学习社区用户之间的社会关系,以及错综复杂的集体行为结构.单纯研究社区用户互动关系的文献较多,将用户社会网络关系与互动主题结合的研究是近年的研究热点.Li等^[7]利用社会网络社区发现算法分析社区主题和社区用户的结构变化;廖晓等^[8]以加权知识网络模型识别基于派系的各类知识创新模式.以超网络结合文本分析的研究主要包括：Deng等^[9]将超网络理论研究应用于文献分析,在研究人员和论文之间建立一个科学协作的超级网络,但该研究为引文网络的计量分析,没有涉及语义和主题等内容信息;郭秋萍等^[10]建立“作者-关键词-引文”三个子网的多重共现超网络模型,研究科技文献网络间的异质关联关系,但仅提出一个分析框架,并没有给出具体分析方法;Zhao等^[11]构建动态知识超网络模型,研究知识创造和知识扩散机制,该研究采用的是多智能体仿真模拟,并非真实数据. ...

基于加权知识网络分析的企业社区创新用户专家知识发现方法

2016

基于加权知识网络分析的企业社区创新用户专家知识发现方法

2016

Degree Centrality in Scientific Collaboration Supernetwork

2011

基于作者—关键词—引文多重共现的超网络知识关联研究

2016

基于作者—关键词—引文多重共现的超网络知识关联研究

2016

Cooperative Knowledge Creation in an Uncertain Network Environment Based on a Dynamic Knowledge Supernetwork

2019

共词网络LDA模型的中文短文本主题分析

2018

... (1) 仅研究用户的关注、转发和评论关系是不够的.因为虚拟学习社区中的用户是因为某个主题才产生互动,一个用户可能对若干主题感兴趣,在多个板块发表意见,用户与主题(或用户使用的词汇)具有不同的属性和特征^[12],构建用户和主题的异质网络更为合适. ...

共词网络LDA模型的中文短文本主题分析

2018

The Science of Computing: Supernetworks

1985

... 本文以虚拟学习社区交流内容文本与用户互动关系为对象,引入超网络(Hyper-Network)结构信息^[13],提出一种超网络嵌入的LDA模型,在细粒度特征下研究用户与参与主题的关系.首先,将社区发帖与回复的内容切分为词汇,关联使用该词汇的用户,构建“用户-词汇”异质超网络,计算超网络重要节点和社区等结构信息,识别出社区内容主要提供者、核心主题,并展示两者之间的关系;接着,利用超网络结构信息嵌入主题模型,修正主题模型并提高主题凝聚性;最后,将修正后的主题信息反馈到用户社会网络,分析用户参与互动的主题.研究结果为社区用户提供更精准的内容信息,也为社区管理者更好把握社区主题方向提供参考. ...

Authoritative Sources in a Hyperlinked Environment

1999

... 传统单层网络节点重要性主要包括：基于节点中心性的方法,例如使用点度中心度(Degree Centrality)、介数中心度(Betweenness Centrality)、接近中心度(Closeness Centrality)等中心性描述节点的重要程度;基于链接重要性的方法,例如HITS算法(Hyperlink-Induced Topic Search)^[14]、EdgeRank算法^[15]等,按照链入和链出到高质量节点的数量进行重要性排序.超网络节点重要性不仅要考虑同层同质节点的重要性,更需要考虑跨层链路的重要性,目前较为流行的算法有CLDC(Cross-Layer Degree Centrality)算法^[16]和TaCMM(Tailoring Centrality Measures in Multiplex Networks)算法^[17].本文选用相对成熟的CLDC算法分析超网络节点重要性. ...

The World of Edgerank: Rhetorical Justifications of Facebook’s News Feed Algorithm

2016

A Degree Centrality in Multi-Layered Social Network

2011

... 重要用户及其互动关系分析实质是超网络重要节点和关键链接分析.根据CLDC算法^[16]计算“用户-词汇”超网络中的重要用户节点(CLDC值),同时计算单层网络的用户节点重要性(度和中介中心度).三种方法计算的社区超网络重要用户Top20结果如表1所示. ...

A New Framework for Centrality Measures in Multiplex Networks

1801

Community Structure in Social and Biological Networks

2002

... 社区是社会网络中普遍存在的模块结构特性,社区发现算法用来发现网络中的社区结构,分析网络内的凝聚子群.单层社会网络社区发现算法主要包括图分割的GN(Girvan-Newman)算法^[18]、基于优化的KL(Kernighan-Lin)算法^[19]等.超网络社区发现算法主要包括基于跨层边缘聚类系数(Cross-Layer Edge Clustering Coefficient,CLECC)算法^[20]、基于多层随机块模型(Multi-Layer Stochastic Block Model,MSBM)的多层社区发现算法^[21]、基于多层次模块度(Multilayer Modularity)的跨层社区发现算法^[22].本文选用CLECC算法研究超网络社区结构. ...

Detecting Community Structure in Networks

2004

An Introduction to Community Detection in Multi-Layered Social Network

2013

... 社区发现可以发现社会网络中关系密切的群体,同样,“用户-词汇”超网络社区发现也从共同使用重点词汇角度,倾向于将讨论共同主题的用户划分在一个社区,该结果对虚拟学习社区文本主题分析也有重要意义.根据CLECC算法^[20],计算获得该数据集中各用户的互动社区,如图5(a)所示,提取其中较小的一个社区展示如图5(b)所示. ...

Community Extraction in Multilayer Networks with Heterogeneous Community Structure

2017

Modularity in Multilayer Networks Using Redundancy-Based Resolution and Projection-Based Inter-Layer Coupling

Learning in Graphical Models

1998

... 主题个数

K

采用交叉验证(Cross Validation)方法获得,通过实验一系列的

K

值,训练比较其困惑度(Perplexity)^[1]和对数似然值(Log Likelihood)^[23],在困惑度最小或对数似然值最大的

K

值即为最佳主题数.超参数

α

和

β

可以根据经验确定(取

α = 50 / K

β = 0.01

);每篇文档主题多项分布

θ

、词汇主题多项分布

ϕ

可采用Gibbs采样的方法估计^[24]. ...

Finding Scientific Topics

2004

... 主题个数

K

采用交叉验证(Cross Validation)方法获得,通过实验一系列的

K

值,训练比较其困惑度(Perplexity)^[1]和对数似然值(Log Likelihood)^[23],在困惑度最小或对数似然值最大的

K

值即为最佳主题数.超参数

α

和

β

可以根据经验确定(取

α = 50 / K

β = 0.01

);每篇文档主题多项分布

θ

、词汇主题多项分布

ϕ

可采用Gibbs采样的方法估计^[24]. ...

〈

〉

检索词推荐：