面向地域的网络话题识别方法*
Finding Geographic Locations of Popular Online Topics
通讯作者: 刘玉文,ORCID: 0000-0002-2572-5863,E-mail:lywzyfy@163.com。
收稿日期: 2019-06-11 修回日期: 2019-08-5 网络出版日期: 2020-02-25
基金资助: |
|
Received: 2019-06-11 Revised: 2019-08-5 Online: 2020-02-25
【目的】 挖掘网络话题的地域分布,为舆情管控和社会管理提供决策依据。【方法】 通过引入网络签到功能,将用户评论的位置参数引入到LDA模型中,提出一种面向地域的网络话题识别模型(Regional Oriented Latent Dirichlet Allocation, RO-LDA)。该模型将每个文本词都打上位置标签,联合建模文本、话题、位置和词汇,生成文本-话题、话题-特征词和(话题,地域)-位置三个分布矩阵。通过话题-特征词分布识别出网络话题,再通过(话题,地域)-位置分布识别出话题的流行区域。【结果】 在真实数据集上验证RO-LDA模型,F值达80.05%,高于其他对比模型。【局限】 文本位置标签的概化由人工设定,标签概化范围的大小对话题的地域识别精度具有一定程度的影响。【结论】 将位置参数和LDA模型融合,实现了话题地域特征识别,为话题的线下挖掘提供了新思路。
关键词:
[Objective] This paper analyzes the geographic distributions of popular online topics, aiming to provide decision-making support for public opinion management and social governance.[Methods] First, we introduced location parameters of comments into the LDA model, and proposed a region-oriented topic recognition model (RO-LDA). Then, we used this model to label texts, topics, locations and vocabularies with location tags. Third, we created text-topics, topic-words and topic-locations matrices. Finally, we identified trending topics and their geographic distributions with the help of topic-words and topic-locations distributions.[Results] We examined the proposed model with real data set. The F value reached 80.05%, which is higher than the existing models.[Limitations] The location tags were set manually, which impacted the accuracy of region recognition.[Conclusions] The proposed method could identify geographic features of trending topics effectively.
Keywords:
本文引用格式
刘玉文, 王凯.
Liu Yuwen, Wang Kai.
1 引 言
随着网络交互技术和自媒体技术的快速发展,网络上充斥着大量的社会热点话题。网络话题[1]大致分为两类:一类是广泛性话题,这类话题覆盖面广,受众人数多,社会影响大;另一类是地域性话题,这类话题只在小范围内被热烈讨论,具有很强的地域特征。虽然地域性话题范围小,但具有以下特点:小范围内强度大;反映事件的地方性质,凸显社会矛盾的细节;具有演化成广泛性话题的可能,是广泛性话题的一种源头。所以,地域性话题识别对深层次了解社会动态及掌控社会舆情发展脉络具有十分重要的意义。当前的话题识别方法主要集中在挖掘广泛性话题上[2],不具备地域性话题识别功能,其挖掘结果的弊端是“事后性”,即话题已经发展为广泛的社会舆情事件后才被发现,没有第一时间发现事件的苗头。另外,由于地域性话题文本量相对较小,广泛性话题挖掘方法很难对其有效识别,所以深入开展地域性话题的挖掘研究十分必要。
1996年,话题检测与跟踪 (Topic Detection and Tracking, TDT)技术开始兴起,该项技术旨在帮助人们应对日益严重的网络信息爆炸问题[3]。其主要功能是对网络媒体信息流进行话题识别和动态跟踪。话题检测与跟踪技术衍生出两个研究方向:一是基于特征度量的聚类方法;另一类是基于概率选择的生成方法。聚类方法假设话题在时间上是顺序排列的,时间是话题的分界线,所以这种方法在连续的话题流模式下挖掘效果较好,但不适合层次化的话题识别。如文献[4]提出一种基于卷积神经网络话题模型CNN-TTM,该模型建立了两层卷积网络,以词向量作为输入,追踪短文本特征,解决了微博中特征稀疏以及话题界限模糊对特征抽取影响的问题。文献[5]提出一种基于时间流的合并聚类方法,该方法根据特征词的频度、分布和持续时间建立评估函数,对文本流所属话题进行分类。文献[6]对时事时滞关系与热点话题进行统计,采用Ward方法对话题情感进行聚类,绘制出8类话题情感演化曲线,最后对情感曲线进行关联分析,识别出话题情感的极性临界点。
为解决复杂网络环境下多话题识别问题,众多学者提出基于概率选择的话题检测识别方法,该方法假设文本、话题和词汇三者之间存在条件依赖关系,以话题作为隐变量,将隐狄利克雷分布作为话题分布的先验分布,用可观测词汇对话题分布进行训练。该方法承认话题是共存的,打破了聚类算法的话题连续假设。如文献[7]将LDA模型与生命周期理论相结合,通过维度分析、角色分析和层次分析计算出文档中的主题特征词,有效地挖掘出传播周期内热点主题分布。文献[8]提出词嵌入概率主题模型WTM,该方法定义了词嵌入和主题向量条件概率,并最小化分布函数KL散度方式,很好地解决了主题模型缺乏语义信息的难题。文献[9]利用LDA模型对每个聚类文本集进行话题建模,并从词长、词跨度和词频三个维度综合计算话题中词的权值,将权重最大的词作为话题标签,同时对话题进行标签去重处理,最后通过话题热度识别热点话题和一般话题。
当前的话题识别研究中,无论是聚类方法还是概率生成方法都只针对全局性话题进行识别,且语料库越大挖掘效果越好,没有考虑到话题的地域和文本量小的情况,无法有效识别地域性话题。针对这个问题,本文将用户的签到信息引入主题模型,提出一种面向地域的网络话题识别方法(Regional Oriented Latent Dirichlet Allocation, RO-LDA),该方法将文本、话题、签到位置及词汇进行联合建模,建立4者之间的依赖关系,生成文本-话题、话题-词汇和(话题,地域)-位置三个分布矩阵。运用吉布斯方法对观测值词汇W和位置R进行迭代采样,直到三个分布达到稳定的收敛状态为止。最后,从话题-词汇分布中识别出话题,从(话题,地域)-位置分布中识别出话题地域。另外,该方法将词汇和地域建立约束关系,提高词汇在语料库中的相对比例,实现了小文本量下的话题挖掘。
2 隐狄利克雷分布模型
2.1 模型原理
图1
其中,θ是K维主题分布矩阵,φ是N维词汇分布矩阵,Z表示主题向量,W表示词汇向量。Z是隐含变量,W是可观测值。LDA生成一个K维θ分布,然后生成N维φ分布,再生成文档的N个词汇的联合概率如公式(1)[10]所示。
求解W的边缘分布,消去θ和Z两个维度,得到词汇w的一维生成概率,如公式(2)[10]所示。
LDA运用吉布斯采样训练出文档-主题分布θ和主题-词汇分布φ,最后利用最大期望(Expectation-Maximization, EM)算法对参数进行估计[11]。
2.2 最优主题数求解
公式(3)中,Γ()是标准伽玛函数,
3 面向地域的网络话题识别方法
位置服务(Location Based Services, LBS)[13]是通信运营商为终端用户提供的与位置有关的服务总称,其核心服务是定位与导航。目前,移动通讯端和计算机终端都具有定位功能。所以,民众在网上表达意见观点时,文本信息中会含有位置属性。位置信息为地域性网络话题挖掘带来了便利,如文献[14]提出基于位置的话题识别方法,该方法将网络文本按照区域位置进行划分,再对每个划分内的文档进行话题识别。在该方法中,地域划分是靠人工实现的,划分不当容易造成话题被分割、无话题等情况,使得挖掘效果不佳。所以,本文利用LDA优秀的话题建模能力,在LDA中引入文本位置参数,建立面向地域的网络话题生成模型(RO-LDA)。
3.1 RO-LDA模型建立
设
(1) 定义1 文档-话题矩阵
对于D中任意文本
(2) 定义2 话题-词汇矩阵
对任意话题
(3) 定义3 (话题,地域)-位置矩阵
对任意(话题,地域)
RO-LDA模型的生成过程是:从文档-话题矩阵中抽取一个话题,再从话题-词汇矩阵中抽取一个词汇,最后从(话题,地域)-位置矩阵中抽取一个位置。反复迭代上述过程,直至生成所有词汇及位置。生成过程及变量之间的依赖关系如图2所示。
图2
RO-LDA模型在LDA模型中加了一个(话题,地域)层,建立词汇w与位置r的生成关系。由于话题层与地域层是平行的,所以,RO-LDA仍然是一个三层贝叶斯网络,话题z和l是隐变量,词汇w和位置r是可观测值,各变量表示的含义如表1所示。
表1 RO-LDA模型参数说明
Table 1
变量 | 说明 |
---|---|
α | 文本-话题矩阵A的超参 |
β | 话题-词汇矩阵B的超参 |
η | (话题,地域)-位置矩阵H的超参 |
A | 文档-话题矩阵 |
B | 话题-词汇矩阵 |
H | (话题,地域)-位置矩阵 |
z | 话题 |
l | (话题,地域) |
w | 文本词汇 |
r | 词汇的位置 |
K | 话题数量 |
N | 语料库中词汇总数 |
M | 语料库中文本数量 |
G | 文本中位置标签数量 |
3.2 模型推导及参数估计
由于RO-LDA模型中存在两个隐含变量z和l,文本-话题A、话题-词汇B和地域-位置H三个分布参数无法使用最大似然法估计,只能先求出可观测量w和r的后验概率,再通过EM算法对实际值进行采样估计出参数的分布状态。
(1) 求解w和r的后验概率
文本di可看作是一个服从狄利克雷分布的话题多项式混合,记为
①从文本-话题分布
②从话题-词汇分布
③从(话题,地域)-位置分布
所以,文本d、话题z、词汇w、(话题,地域)l、位置r的吉布斯采样的联合概率如公式(8)所示。
其中,
对公式(9)的右边部分继续分解如公式(10)-公式(12)所示。
其中,
其中,
其中,
(2) 参数估计
RO-LDA模型中,α,β,γ是超参,分别作为A,B,H三个分布的先验,初始值一般取经验值[15],通过马尔可夫链的多步转移,A,B,H逐步收敛。由于马尔科夫链的初始状态对收敛结果没有影响,所以只须对参数A,B,H进行估计。每次采样中,A,B,H的更新公式如公式(14)-公式(16)所示。
对公式(13)进行多步迭代转移,A,B,H达到稳定状态后,得到最终的A,B,H分布结果。
3.3 算法描述
RO-LDA模型的核心是利用文本、话题、词汇、位置4者之间隐含的依赖关系,建立贝叶斯网络,将狄利克雷分布作为贝叶斯网络的先验分布,通过吉布斯采样,获取稳定的A,B,H状态矩阵,RO-LDA模型的迭代过程描述如下。
输入:α, β, γ,位置阈值δ
输出:A, B, H
① A, B, H初始化
初始化文本-话题矩阵,使得A~Dir(α);
初始化话题-词汇矩阵,使得B~Dir(β);
初始化(话题,地域)-位置矩阵,使得H~Dir(η);
② For i=1 to M
For j=1 to N
在矩阵A中抽取一个话题zdn~Multi(θdi);
话题与地域建立映射关系zdn~ lz;
For each w∈di
在矩阵B中抽取一个词wi~Multi(zdn);
End For
For each r∈li and Pr > δ
在矩阵H中抽取一个位置ri~Multi(lzn);
End For
End For
End For
4 实 验
4.1 数据来源及预处理
随机抽取2019年5月1日-5月15日新浪微博数据,共计103 982条。使用分词软件ICTCLAS对微博文本逐条进行分词,对分词结果进行清洗,去除停用词、介词、语气词、转折词等,建立文本-分词语料矩阵
4.2 实验结果分析
RO-LDA模型中,话题数K的值由话题优化函数返回得到,最优话题K的值为122。超参α= β/K, β = 0.01, η = 0.01。话题位置的生成概率阈值设定为0.010,且位置个数最大设置为18,以上参数设置均为经验最优[15]。RO-LDA模型在文本-分词矩语料阵
(1) 地域性话题识别
表2 话题特征词及位置识别结果
Table 2
序号 | 话题特征词及生成概率 | 话题位置及生成概率 |
---|---|---|
1 | 危险0.00095; 废物0.00086; 垃圾0.00083; 罚款0.00075; 成都0.00072; 10万0.00071; 分类0.00069; 规定0.00069; 收集点0.00066; 混入0.00065; 生活0.00063; 新规0.00063; 单位0.00061; 个人0.00061; 5月0.00059; | r134 0.032; r141 0.030; r136 0.030; r137 0.029; r143 0.029; r156 0.027; r144 0.025; r139 0.025; r152 0.023; r146 0.022; r138 0.022; r141 0.021;r145 0.020; r135 0.020; r142 0.019; r146 0.017; r149 0.017; r148 0.015; |
2 | 机动车0.00103; 交通0.00098; 违法0.00096; 行为0.00091; 天津0.00086; 项0.00086; 举报0.00085; 奖励0.00077; 影响0.00073; 20万0.00069; 行驶0.00068; 事故0.00062; 道路0.00062; 每起0.00057; 安全0.00055; | r196 0.027; r200 0.025; r201 0.025; r205 0.023; r195 0.020; r203 0.020; r194 0.017; r210 0.017; r216 0.016; r212 0.016; r208 0.016; r197 0.015; r199 0.015; r215 0.013; r221 0.012; r190 0.012; r207 0.011; r211 0.011; |
3 | 网约车0.00062; 交通0.00061; 安全0.00057; 道路0.00056; 条例0.00052; 平台0.00052; 处罚0.00051; 派单0.00049; 南京0.00049; 面临0.00046; 公司0.00044; 治理0.00043; 乘客0.00043; 合法0.00041; 监管0.00041; | r108 0.031; r103 0.028; r112 0.028; r105 0.027; r115 0.025; r116 0.023; r101 0.022; r120 0.022; r117 0.020; r113 0.019; r100 0.019; r120 0.018; r98 0.015; r108 0.015; r102 0.012; r122 0.012; r111 0.010; r106 0.010; |
4 | 医院0.00051; 三甲0.00051; 顺序0.00049; 急症0.00049; 先来后到0.00046; 急诊0.00046; 分级0.00045; 北京0.00044; 专业0.00039; 就诊0.00038; 优先0.00038; 危重0.00036; 患者0.00033; 医护0.00033; 改变0.00032; | r220 0.022; r219 0.022; r217 0.018; r218 0.018; r225 0.017; r223 0.017; r230 0.016; r237 0.015; r231 0.015; r229 0.014; r222 0.014; r225 0.012; r232 0.012; r226 0.011; r228 0.011; r235 0.011; r233 0.011; r227 0.010; |
5 | 小学0.00151; 上饶0.00144; 杀人0.00136; 刀0.00128; 班主任0.00119; 刘帅0.00111; 血0.00104; 何琛0.00102; 老师0.00101; 王某建0.00101; 第五0.00098; 语文0.00096; 卫生间0.00085; 医生0.00077; 校长0.00068; | r88 0.019; r87 0.019; r85 0.018; r92 0.018; r83 0.018; r77 0.018; r134 0.017; r219 0.016; r75 0.016; r70 0.016; r8 0.015; r97 0.015; r152 0.015; r146 0.014; r160 0.014; r141 0.014; r2 0.013; r179 0.013; |
6 | 保险0.00085; 养老0.00085; 城镇0.00083; 职工0.00083; 人社部0.0081; 比例0.0080; 缴费0.00080; 医疗费0.00077; 单位0.00075; 降低0.00072; 社保0.00068; 失业0.00067; 调整0.00061; 工伤0.00058; 政策0.00057; | r220 0.020; r134 0.018; r196 0.018; r108 0.017; r223 0.017; r231 0.016; r146 0.016; r70 0.016; r77 0.016; r219 0.015; r205 0.015; r108 0.015; r37 0.015; r6 0.015; r194 0.015; r207 0.014; r69 0.014; r118 0.014; |
7 | 西甲0.00078; 武磊0.00077; 西班牙0.00073; 跑位0.00071; 吹0.0071; 希望0.00068; 首发0.00066; 足球0.00065; 球王0.00065; 单刀 0.0063; 中国0.00060; 欧战0.00060; 孤立0.00059; 速度0.00059; 替换0.0056; | r2 0.025; r8 0.025; r219 0.025; r223 0.023; r141 0.023; r71 0.023; r78 0.023; r169 0.022; r38 0.022; r227 0.022; r188 0.022; r192 0.022; r49 0.021; r201 0.021; r105 0.021; r83 0.012; r152 0.020; r78 0.019; |
8 | 五一0.00131; 爆满0.00130; 旅游0.00127; 酒店0.00126; 西湖0.00122; 北京0.00121; 客流0.00117; 飞机0.00112; 携程0.00111; 黄山0.00108; 高峰0.00108; 出境0.00099; 景区0.00092; 游客0.00087; 人多0.00085; | r86 0.023; r219 0.023; r16 0.022; r25 0.022; r133 0.022; r217 0.022; r156 0.021; r193 0.021; r158 0.021; r112 0.021; r104 0.021; r51 0.020; r28 0.020; r163 0.020; r179 0.020; r199 0.019; r46 0.019; r229 0.017; |
根据表2中的话题特征词,使用人工方法对8个话题进行概括,话题内容概括如下:①话题1:成都市危险废物混入垃圾,将被罚款10万元;②话题2:天津市有奖举报交通违法行为;③话题3:南京市网约车进入道路交通安全条例;④话题4:北京三甲医院实行急诊分级,危重患者优先;⑤话题5:江西省上饶第五小学学生被杀事件;⑥话题6:城镇职工基本养老保险单位缴费比例降低;⑦话题7:武磊出战西甲联赛;⑧话题8:五一旅游。
根据话题生成的位置信息识别出话题的地域,以话题1为例,首先将话题位置代码映射为实际位置。利用每个位置上的话题文本量除以该位置上的总文本量,得到话题在位置上的强度(保留两位小数),话题1的位置映射结果以及话题1在各位置上的强度信息如表3所示。
表3 话题1的位置映射结果及其在位置上的强度
Table 3
序号 | 位置 编号 | 位置 名称 | 话题 强度 | 序号 | 位置 编号 | 位置 名称 | 话题强度 |
---|---|---|---|---|---|---|---|
1 | r134 | 锦江区 | 0.11 | 10 | r139 | 双流区 | 0.05 |
2 | r141 | 青羊区 | 0.10 | 11 | r152 | 金堂县 | 0.04 |
3 | r136 | 金牛区 | 0.10 | 12 | r146 | 郫县 | 0.04 |
4 | r137 | 武侯区 | 0.09 | 13 | r138 | 大邑县 | 0.04 |
5 | r143 | 成华区 | 0.08 | 14 | r141 | 浦江县 | 0.03 |
6 | r156 | 龙泉驿区 | 0.07 | 15 | r145 | 新津县 | 0.03 |
7 | r156 | 青白江区 | 0.06 | 16 | r135 | 广汉市 | 0.02 |
8 | r140 | 新都区 | 0.05 | 17 | r149 | 简阳市 | 0.01 |
9 | r144 | 温江区 | 0.05 | 18 | r148 | 崇州市 | 0.01 |
根据表3可知,话题1的发生区域在成都市,话题中心在成都市区,强度随着位置范围的增大而逐渐减弱,可以判断话题1是地域性话题。同样,按照此方法得出话题2、3、4均是地域性话题。话题2的地域在天津,话题3的地域在南京,话题4的地域在北京。
按照上述步骤,话题5的位置映射结果以及话题5在各位置上的强度信息如表4所示。
表4 话题5位置映射结果及其在位置上的强度
Table 4
序号 | 位置 编号 | 实际 名称 | 话题 强度 | 序号 | 位置 编号 | 位置 名称 | 话题 强度 |
---|---|---|---|---|---|---|---|
1 | r88 | 信州区 | 0.08 | 10 | r70 | 西湖区 | 0.05 |
2 | r87 | 广丰区 | 0.08 | 11 | r8 | 白云区 | 0.05 |
3 | r85 | 上饶县 | 0.08 | 12 | r97 | 蜀山区 | 0.05 |
4 | r92 | 南昌县 | 0.06 | 13 | r152 | 金水区 | 0.05 |
5 | r83 | 青山湖区 | 0.06 | 14 | r146 | 黄陂区 | 0.04 |
6 | r77 | 浦东新区 | 0.05 | 15 | r160 | 万州区 | 0.04 |
7 | r134 | 朝阳区 | 0.05 | 16 | r141 | 鼓楼区 | 0.04 |
8 | r219 | 海淀区 | 0.05 | 17 | r2 | 福田区 | 0.04 |
9 | r75 | 闵行区 | 0.05 | 18 | r179 | 章丘区 | 0.04 |
(2) 话题强度对比
图3
图3显示,广泛性话题5-话题8的强度明显高于地域性话题1-话题4,可以判断出话题强度与地域有关,地域越大,话题热度也就越高。原因是地域性话题文本量较少,所以总强度相对较低。这个特征使得基于强度的话题识别方法难以识别地域性话题。
(3) 话题密度对比
图4
4个子图中,只有广泛性话题5的密度与其他地域性话题相当,其余广泛性话题的密度均明显小于地域性话题。说明地域性话题虽然总体文本量较少,但小范围内的强度较强,民众讨论热度较高。
4.3 模型评价
表5 各模型之间的评价指标对比(%)
Table 5
数据集 | TF-IDF | LDA | CNN-TTM | WTM | RO-LDA |
---|---|---|---|---|---|
准确率 | 74.65 | 75.32 | 73.98 | 77.17 | 82.15 |
召回率 | 75.73 | 78.41 | 78.62 | 81.58 | 78.06 |
F值 | 75.19 | 76.83 | 76.23 | 79.31 | 80.05 |
在表5中,RO-LDA模型的综合F值最大,说明其话题识别性能最好。
5 结 语
本文在LDA模型三层框架结构的基础上增加了(话题,地域)层,建立基于地域的话题检测模型RO-LDA。该模型根据语料库中文本、话题、位置、词汇4者之间的依赖关系,推导得到位置、词汇的生成概率。通过对观测词汇和位置的多次采样,生成文档-话题、话题-词汇、(话题,地域)-位置三个稳定的分布矩阵,具备了话题位置识别能力。经过实验验证,并与其他模型进行对比,RO-LDA模型在话题的地域分布识别上达到了良好效果。
由于文本位置标签概化由人工提前设定,标签概化的合理性对话题的地域识别精度具有一定程度的影响,所以,如何找到最优的位置标签是下一步主要的研究方向。
作者贡献声明
刘玉文:论文构思,模型建立,论文撰写;
王凯:实验及结果分析,模型验证。
利益冲突声明
所有作者声明不存在利益冲突关系。
支撑数据
支撑数据由作者自存储,E-mail: lywzyfy@163.com。
[1] 刘玉文.Comment.txt.用户评论分词结果.
[2] 刘玉文.Location.xls.位置映射关系.
参考文献
Unsupervised Latent Dirichlet Allocation for Supervised Question Classification
[J]. ,
结合卷积神经网络和Topic2Vec的新闻主题演变分析
[J]. ,
Analyzing News Topic Evolution with Convolutional Neural Networks and Topic2Vec
[J].
Topic Detection and Tracking on Heterogeneous Information
[J]. ,
基于卷积神经网络和用户信息的微博话题追踪模型
[J]. ,
Convolutional Neural Network and User Information Based Model for Microblog Topic Tracking
[J].
一种网络话题的内容焦点迁移识别方法
[J]. ,
A Method for Identifying the Evolutionary Focuses of Online Social Topics
[J].
微博热点话题情感趋势研究
[J]. ,
Research on the Emotional Tendency of Hot Topics in Micro-blogs
[J].
微博舆情传播周期中不同传播者的主题挖掘与观点识别
[J]. ,
Topic Mining and Viewpoint Recognition of Different Communicators in the Transmission Cycle of Micro-blog Public Opinion
[J].
基于词嵌入与概率主题模型的社会媒体话题识别
[J]. ,
Social Media Topic Recognition Based on Word Embedding and Probabilistic Topic Model
[J].
基于LDA模型的移动投诉文本热点话题识别
[J]. ,
Identifying Hot Topics from Mobile Complaint Texts
[J].
基于潜在主题的混合上下文推荐算法
[J]. ,
Hybrid Context Recommendation Algorithm Based on Latent Topic
[J].
Supervised Topic Models with Weighted Words: Multi-Label Document Classification
[J]. ,
基于位置服务隐私自关联的隐私保护方案
[J]. ,
Privacy Self-Correlation Privacy-Preserving Scheme in LBS
[J].
基于主题模型的位置感知订阅发布系统
[J]. ,
Location-awareness Publication Subscription System Based on Topic Model
[J].
Multi-Document Summarization Using K-Means and Latent Dirichlet Allocation (LDA)-Significance Sentences
[J]. ,
Patch-based Topic Model for Group Detection
[J]. ,
/
〈 | 〉 |