面向地域的网络话题识别方法*

图1 LDA模型生成示意^[10]

Fig.1 Graphical Representation of LDA Model^[10]

其中,θ是K维主题分布矩阵,φ是N维词汇分布矩阵,Z表示主题向量,W表示词汇向量。Z是隐含变量,W是可观测值。LDA生成一个K维θ分布,然后生成N维φ分布,再生成文档的N个词汇的联合概率如公式(1)^[10]所示。

(1)

P (θ, Z, W | α, β) = P (θ | α) \overset{N}{\prod_{n = 1}} P (z_{n} | θ) P (w_{n} | z_{n}, β)

求解W的边缘分布,消去θ和Z两个维度,得到词汇w的一维生成概率,如公式(2)^[10]所示。

(2)

P (w | α, β) = \int P (θ | α) (\overset{N}{\prod_{n = 1}} \sum_{z_{n}} P (z_{n} | θ) P (w_{n} | z_{n}, β)) dθ

LDA运用吉布斯采样训练出文档-主题分布θ和主题-词汇分布φ,最后利用最大期望(Expectation-Maximization, EM)算法对参数进行估计^[11]。

2.2 最优主题数求解

LDA模型最大的局限性是运算结果严重依赖话题参数K。K是人工设定的,设置过大会造成主题粒度过细;设置过小会造成主题融合。为解决此问题,众多学者提出主题数优化方法^[12],其中最具代表性的是基于贝叶斯方法,该方法的核心是信息熵理论,计算方法如公式(3)和公式(4)^[12]所示。

(3)

P (w | z) = {(\frac{Γ (Nβ)}{Γ {(β)}^{N}})}^{K} \overset{K}{\sum_{k = 1}} \frac{\prod_{w} Γ (β + n_{z}^{w})}{Γ (Nβ + n_{z}^{•})}

(4)

\frac{M}{P (w | K)} = \overset{M}{\sum_{m = 1}} \frac{1}{P (w | z^{m})}

公式(3)中,Γ()是标准伽玛函数, $n_{z}^{w}$ 代表词汇w选择主题z的次数, $n_{z}^{•}$ 代表z中词汇总数。公式(4)中,M代表吉布斯采样次数,采用P(w|K)近似代表P(w|z)的均值,K最优当且仅当P(w|K)最大。

3 面向地域的网络话题识别方法

位置服务（Location Based Services, LBS）^[13]是通信运营商为终端用户提供的与位置有关的服务总称,其核心服务是定位与导航。目前,移动通讯端和计算机终端都具有定位功能。所以,民众在网上表达意见观点时,文本信息中会含有位置属性。位置信息为地域性网络话题挖掘带来了便利,如文献[14]提出基于位置的话题识别方法,该方法将网络文本按照区域位置进行划分,再对每个划分内的文档进行话题识别。在该方法中,地域划分是靠人工实现的,划分不当容易造成话题被分割、无话题等情况,使得挖掘效果不佳。所以,本文利用LDA优秀的话题建模能力,在LDA中引入文本位置参数,建立面向地域的网络话题生成模型(RO-LDA)。

3.1 RO-LDA模型建立

设 $D = {d_{1}, d_{2}, \cdot \cdot \cdot, d_{M}}$ 为网络文本语料库,D中的话题数为K。 $V = {w_{1}, w_{2}, \dots, w_{N}}$ 是D中所有单词组成的集合, $R = {r_{1}, r_{2}, \dots, r_{G}}$ 是D中文本位置标签集合。RO-LDA假设文本以一定的概率选择话题、话题以一定的概率选择词汇、词汇以一定概率选择位置。词汇有位置标签,能对话题与地域进行映射,形成话题的地域性分布。所以,文本、话题、词汇、位置4者之间形成条件概率依赖关系。文本可看作是符合狄利克雷分布的话题多项式混合,话题可看作是符合狄利克雷分布的词汇多项式混合,话题地域可以看作是符合二维高斯分布的位置多项式混合。RO-LDA模型中,话题和地域是隐变量,词汇和位置是可观测值。根据模型假设,定义以下关系。

（1）定义1 文档-话题矩阵

对于D中任意文本 $d_{m}$ ,生成k维话题的矩阵向量 $A_{d} = < p_{z 1}, p_{z 2}, \cdot \cdot \cdot, p_{zk} >$ , $p_{zi} = n_{zi} / n$ 表示生成话题 $z_{i}$ 的概率, $n_{zi}$ 表示文本 $d_{m}$ 中话题 $z_{i}$ 所对应特征词的数量, $n$ 是文本 $d_{m}$ 所包含的词汇总数。根据定义1,话题 $z_{i}$ 在语料库中的生成概率如公式(5)所示。

(5)

P (z_{i}) = \overset{M}{\sum_{m = 1}} P (z_{i} | d_{m} = m) P (d_{m} = m)

（2）定义2 话题-词汇矩阵

对任意话题 $z_{k}$ ,生成n维词汇的矩阵向量 $B_{z} = < p_{w 1}, p_{w 2}, \cdot \cdot \cdot, p_{wn} >$ ,其中 $p_{wi} = n_{wi} / n$ 表示话题 $z_{k}$ 生成词汇 $w_{i}$ 的概率,n_wi表示分配给话题 $z_{k}$ 的V中第i个词数目,n表示所有分配给话题 $z_{k}$ 的词的总数。根据定义2,词汇 $w_{i}$ 在文本中的生成概率如公式(6)所示。

(6)

P (w_{i}) = \overset{K}{\sum_{k = 1}} P (w_{i} | z_{k} = k) P (z_{k} = k)

（3）定义3 (话题,地域)-位置矩阵

对任意(话题,地域) $l_{g}$ ,生成各位置的矩阵向量 $H_{z} = < p_{r 1}, p_{r 2}, \cdot \cdot \cdot, p_{rn} >$ ,其中 $p_{ri} = n_{ri} / n$ 表示(话题,地域) $l_{g}$ 生成位置 $r_{i}$ 的概率, $n_{ri}$ 表示位置 $r_{i}$ 在 $l_{g}$ 中出现的次数,n表示位置 $r_{i}$ 在位置标记中出现的总次数。根据定义3,位置在(话题,地域)中的生成概率如公式(7)所示。

(7)

P (r_{i}) = \overset{G}{\sum_{g = 1}} P (r_{i} | l_{g} = g) P (l_{g} = g)

RO-LDA模型的生成过程是：从文档-话题矩阵中抽取一个话题,再从话题-词汇矩阵中抽取一个词汇,最后从(话题,地域)-位置矩阵中抽取一个位置。反复迭代上述过程,直至生成所有词汇及位置。生成过程及变量之间的依赖关系如图2所示。

图2

图2 RO-LDA模型生成示意

Fig.2 Graphical Representation of RO-LDA Model

RO-LDA模型在LDA模型中加了一个（话题,地域）层,建立词汇w与位置r的生成关系。由于话题层与地域层是平行的,所以,RO-LDA仍然是一个三层贝叶斯网络,话题z和l是隐变量,词汇w和位置r是可观测值,各变量表示的含义如表1所示。

表1 RO-LDA模型参数说明

Table 1 Intruction About Variables in RO-LDA

变量	说明
α	文本-话题矩阵A的超参
β	话题-词汇矩阵B的超参
η	(话题,地域)-位置矩阵H的超参
A	文档-话题矩阵
B	话题-词汇矩阵
H	(话题,地域)-位置矩阵
z	话题
l	（话题,地域）
w	文本词汇
r	词汇的位置
K	话题数量
N	语料库中词汇总数
M	语料库中文本数量
G	文本中位置标签数量

3.2 模型推导及参数估计

由于RO-LDA模型中存在两个隐含变量z和l,文本-话题A、话题-词汇B和地域-位置H三个分布参数无法使用最大似然法估计,只能先求出可观测量w和r的后验概率,再通过EM算法对实际值进行采样估计出参数的分布状态。

（1）求解w和r的后验概率

文本d_i可看作是一个服从狄利克雷分布的话题多项式混合,记为 $A_{d}$ 。每个话题z可以看作是一个服从狄利克雷分布的词汇多项式混合,记为 $B_{z}$ 。由于每个词汇都有位置标签,所以,每个（话题,地域）都与位置的一个多项式混合相对应,记为 $H_{z}$ , $H_{z}$ 是一个P维向量,服从参数为μ和σ的高斯分布。根据文本、话题、地域、词汇、位置之间的概率依赖关系,词汇w和位置r的生成过程如下：

①从文本-话题分布 $A_{d}$ 中随机选择一个话题;

②从话题-词汇分布 $B_{z}$ 中选择一个词;

③从(话题,地域)-位置分布 $H_{z}$ 中选择一个位置。

所以,文本d、话题z、词汇w、（话题,地域）l、位置r的吉布斯采样的联合概率如公式(8)所示。

(8)

P (z_{i} = z, l_{i} = l | z_{- i}, l_{- i}, w, r, α, β, η)

其中, $z_{- i}$ 和 $l_{- i}$ 分别表示除了文本d中第i个词汇和第i个位置以外,其他词汇和位置所对应的话题和（话题,地域）,公式(8)进一步分解如公式（9）所示。

(9)

P (w, r, l, z, d) = P (w, r | l, z, d) P (l | z, d) P (z | d)

对公式(9)的右边部分继续分解如公式（10）-公式（12）所示。

(10)

\begin{array}{l} P (w, r | l, z, d) = \int P (w, r | l, z, d, A) P (A | α) dA = \\ \overset{G}{\prod_{g = 1}} \overset{K}{\prod_{k = 1}} \overset{M}{\prod_{m = 1}} {(\frac{Γ (αN)}{{[Γ (α)]}^{N}})}^{G \times K \times M} \times \frac{\overset{G}{\prod_{g = 1}} \overset{N}{\prod_{n = 1}} Γ (α + x_{(w, r)})}{Γ (x + αN)} \end{array}

其中, $x_{(w, r)}$ 表示词汇位置r内的词汇w同时分配给（话题,地域）l、话题z和文本d的数量,x表示同时分配给（话题,地域）l、话题z和文本d的词汇总数,Γ()是标准伽玛函数。

(11)

\begin{array}{l} P (l | z, d) = \int P (l | z, d, H) P (H | η) dH = \\ \overset{K}{\prod_{k = 1}} \overset{M}{\prod_{m = 1}} \frac{\overset{L}{\prod_{l = 1}} Γ (η + y_{l})}{Γ (y + ηG)} \times {(\frac{Γ (ηG)}{[Γ {(η)]}^{G}})}^{K \times M} \end{array}

其中, $y_{l}$ 表示文本d中分配给主题z的地域数量,y表示文本d中话题z对应的地域总数。

(12)

\begin{array}{l} P (z, d) = \int P (z | d, B) P (B | β) dB \\ = \overset{M}{\prod_{m = 1}} \frac{\overset{K}{\prod_{k = 1}} Γ (β + t_{z})}{Γ (t + βK)} \times (\frac{Γ (βK)}{[Γ {(β)]}^{K}}) \end{array}

其中, $t_{z}$ 表示文本d中话题z出现的次数,t表示语料库中文本总数。由公式(10)-公式(12)得到吉布斯采样的联合概率公式如公式(13)所示。

(13)

P (z_{i} = z, l_{i} = l | z_{- i}, l_{- i}, w, r, α, β, η) \propto

\{\begin{array}{l} \frac{x_{(w, r)} + α}{\overset{N}{\sum_{w = 1}} \overset{G}{\sum_{g = 1}} x_{_{(w, r)}} + αK} \times \frac{y_{l} + η}{\overset{L}{\sum_{l = 1}} y_{l} + ηG} \times \frac{t_{z} + β}{\overset{K}{\sum_{k = 1}} t_{k} + βW} \\ \frac{x_{w} + α}{\overset{N}{\sum_{w = 1}} x_{w} + αK} \times \frac{t_{z} + β}{\overset{K}{\sum_{k = 1}} t_{k} + βW} \end{array}

（2）参数估计

RO-LDA模型中,α,β,γ是超参,分别作为A,B,H三个分布的先验,初始值一般取经验值^[15],通过马尔可夫链的多步转移,A,B,H逐步收敛。由于马尔科夫链的初始状态对收敛结果没有影响,所以只须对参数A,B,H进行估计。每次采样中,A,B,H的更新公式如公式(14)-公式(16)所示。

(14)

A_{m, z} = \frac{α_{z} + x_{m}^{z}}{α_{z} K + \overset{K}{\sum_{z = 1}} n_{m}^{z}}

(15)

B_{z, n} = \frac{β_{n} + x_{z}^{n}}{β_{n} V + \overset{V}{\sum_{n = 1}} n_{z}^{n}}

(16)

H_{z, g} = \frac{η_{g} + n_{z}^{g}}{η_{g} G + \overset{G}{\sum_{g = 1}} n_{z}^{g}}

对公式(13)进行多步迭代转移,A,B,H达到稳定状态后,得到最终的A,B,H分布结果。

3.3 算法描述

RO-LDA模型的核心是利用文本、话题、词汇、位置4者之间隐含的依赖关系,建立贝叶斯网络,将狄利克雷分布作为贝叶斯网络的先验分布,通过吉布斯采样,获取稳定的A,B,H状态矩阵,RO-LDA模型的迭代过程描述如下。

输入：α, β, γ,位置阈值δ

输出：A, B, H

① A, B, H初始化

初始化文本-话题矩阵,使得A~Dir(α);

初始化话题-词汇矩阵,使得B~Dir(β);

初始化(话题,地域)-位置矩阵,使得H~Dir(η);

② For i=1 to M

For j=1 to N

在矩阵A中抽取一个话题z_dn~Multi(θ_di);

话题与地域建立映射关系z_dn~ l_z;

For each w∈d_i

在矩阵B中抽取一个词w_i~Multi(z_dn);

End For

For each r∈l_i and P_r > δ

在矩阵H中抽取一个位置r_i~Multi(l_zn);

End For

4 实验

4.1 数据来源及预处理

随机抽取2019年5月1日-5月15日新浪微博数据,共计103 982条。使用分词软件ICTCLAS对微博文本逐条进行分词,对分词结果进行清洗,去除停用词、介词、语气词、转折词等,建立文本-分词语料矩阵 $M_{D}$ ,“行”代表文本 $d_{i}$ ,“列”代表词汇 $w_{i}$ 。最后,对微博地址信息进行概化,抽取文本地址信息里的“县/区/旗/县级市”字段作为微博发表的位置信息,共计238个位置。为了模型运行方便,按“从南到北,从东到西”的原则将位置符号化为r₁-r₂₃₈,并为每条微博重置位置标签。

4.2 实验结果分析

RO-LDA模型中,话题数K的值由话题优化函数返回得到,最优话题K的值为122。超参α= β/K, β = 0.01, η = 0.01。话题位置的生成概率阈值设定为0.010,且位置个数最大设置为18,以上参数设置均为经验最优^[15]。RO-LDA模型在文本-分词矩语料阵 $M_{D}$ 上进行运算,达到稳定状态后,得到A、B、H三个分布。

（1）地域性话题识别

在B分布中,选取生成概率TOP15的词汇作为话题特征词。在H分布中,选择生成概率大于阈值的位置编号作为话题位置。话题特征词及位置信息如表2所示。由于话题数较多,表2仅列出8个具有代表性的话题。

表2 话题特征词及位置识别结果

Table 2 Recognition Results About Feature Words and Positions of Topics

序号	话题特征词及生成概率	话题位置及生成概率
1	危险0.00095; 废物0.00086; 垃圾0.00083; 罚款0.00075; 成都0.00072; 10万0.00071; 分类0.00069; 规定0.00069; 收集点0.00066; 混入0.00065; 生活0.00063; 新规0.00063; 单位0.00061; 个人0.00061; 5月0.00059;	r₁₃₄ 0.032; r₁₄₁ 0.030; r₁₃₆ 0.030; r₁₃₇ 0.029; r₁₄₃ 0.029; r₁₅₆ 0.027; r₁₄₄ 0.025; r₁₃₉ 0.025; r₁₅₂ 0.023; r₁₄₆ 0.022; r₁₃₈ 0.022; r₁₄₁0.021;r₁₄₅ 0.020; r₁₃₅ 0.020; r₁₄₂ 0.019; r₁₄₆ 0.017; r₁₄₉ 0.017; r₁₄₈ 0.015;
2	机动车0.00103; 交通0.00098; 违法0.00096; 行为0.00091; 天津0.00086; 项0.00086; 举报0.00085; 奖励0.00077; 影响0.00073; 20万0.00069; 行驶0.00068; 事故0.00062; 道路0.00062; 每起0.00057; 安全0.00055;	r₁₉₆ 0.027; r₂₀₀ 0.025; r₂₀₁ 0.025; r₂₀₅ 0.023; r₁₉₅ 0.020; r₂₀₃ 0.020; r₁₉₄ 0.017; r₂₁₀ 0.017; r₂₁₆ 0.016; r₂₁₂ 0.016; r₂₀₈ 0.016; r₁₉₇ 0.015; r₁₉₉ 0.015; r₂₁₅ 0.013; r₂₂₁ 0.012; r₁₉₀ 0.012; r₂₀₇ 0.011; r₂₁₁ 0.011;
3	网约车0.00062; 交通0.00061; 安全0.00057; 道路0.00056; 条例0.00052; 平台0.00052; 处罚0.00051; 派单0.00049; 南京0.00049; 面临0.00046; 公司0.00044; 治理0.00043; 乘客0.00043; 合法0.00041; 监管0.00041;	r₁₀₈ 0.031; r₁₀₃ 0.028; r₁₁₂ 0.028; r₁₀₅ 0.027; r₁₁₅ 0.025; r₁₁₆ 0.023; r₁₀₁ 0.022; r₁₂₀ 0.022; r₁₁₇ 0.020; r₁₁₃ 0.019; r₁₀₀ 0.019; r₁₂₀ 0.018; r₉₈ 0.015; r₁₀₈ 0.015; r₁₀₂ 0.012; r₁₂₂ 0.012; r₁₁₁ 0.010; r₁₀₆ 0.010;
4	医院0.00051; 三甲0.00051; 顺序0.00049; 急症0.00049; 先来后到0.00046; 急诊0.00046; 分级0.00045; 北京0.00044; 专业0.00039; 就诊0.00038; 优先0.00038; 危重0.00036; 患者0.00033; 医护0.00033; 改变0.00032;	r₂₂₀ 0.022; r₂₁₉ 0.022; r₂₁₇ 0.018; r₂₁₈ 0.018; r₂₂₅ 0.017; r₂₂₃ 0.017; r₂₃₀ 0.016; r₂₃₇ 0.015; r₂₃₁ 0.015; r₂₂₉ 0.014; r₂₂₂ 0.014; r₂₂₅ 0.012; r₂₃₂ 0.012; r₂₂₆ 0.011; r₂₂₈ 0.011; r₂₃₅ 0.011; r₂₃₃ 0.011; r₂₂₇ 0.010;
5	小学0.00151; 上饶0.00144; 杀人0.00136; 刀0.00128; 班主任0.00119; 刘帅0.00111; 血0.00104; 何琛0.00102; 老师0.00101; 王某建0.00101; 第五0.00098; 语文0.00096; 卫生间0.00085; 医生0.00077; 校长0.00068;	r₈₈ 0.019; r₈₇0.019; r₈₅0.018; r₉₂0.018; r₈₃0.018; r₇₇0.018; r₁₃₄ 0.017; r₂₁₉ 0.016; r₇₅0.016; r₇₀0.016; r₈0.015; r₉₇0.015; r₁₅₂ 0.015; r₁₄₆ 0.014; r₁₆₀0.014; r₁₄₁ 0.014; r₂0.013; r₁₇₉0.013;
6	保险0.00085; 养老0.00085; 城镇0.00083; 职工0.00083; 人社部0.0081; 比例0.0080; 缴费0.00080; 医疗费0.00077; 单位0.00075; 降低0.00072; 社保0.00068; 失业0.00067; 调整0.00061; 工伤0.00058; 政策0.00057;	r₂₂₀ 0.020; r₁₃₄ 0.018; r₁₉₆ 0.018; r₁₀₈ 0.017; r₂₂₃ 0.017; r₂₃₁ 0.016; r₁₄₆ 0.016; r₇₀0.016; r₇₇0.016; r₂₁₉ 0.015; r₂₀₅ 0.015; r₁₀₈ 0.015; r₃₇ 0.015; r₆0.015; r₁₉₄ 0.015; r₂₀₇ 0.014; r₆₉0.014; r₁₁₈ 0.014;
7	西甲0.00078; 武磊0.00077; 西班牙0.00073; 跑位0.00071; 吹0.0071; 希望0.00068; 首发0.00066; 足球0.00065; 球王0.00065; 单刀 0.0063; 中国0.00060; 欧战0.00060; 孤立0.00059; 速度0.00059; 替换0.0056;	r₂0.025; r₈0.025; r₂₁₉ 0.025; r₂₂₃ 0.023; r₁₄₁ 0.023; r₇₁0.023; r₇₈0.023; r₁₆₉ 0.022; r₃₈0.022; r₂₂₇ 0.022; r₁₈₈ 0.022; r₁₉₂ 0.022; r₄₉0.021; r₂₀₁ 0.021; r₁₀₅ 0.021; r₈₃0.012; r₁₅₂ 0.020; r₇₈ 0.019;
8	五一0.00131; 爆满0.00130; 旅游0.00127; 酒店0.00126; 西湖0.00122; 北京0.00121; 客流0.00117; 飞机0.00112; 携程0.00111; 黄山0.00108; 高峰0.00108; 出境0.00099; 景区0.00092; 游客0.00087; 人多0.00085;	r₈₆ 0.023; r₂₁₉ 0.023; r₁₆ 0.022; r₂₅ 0.022; r₁₃₃ 0.022; r₂₁₇ 0.022; r₁₅₆ 0.021; r₁₉₃ 0.021; r₁₅₈ 0.021; r₁₁₂ 0.021; r₁₀₄ 0.021; r₅₁0.020; r₂₈ 0.020; r₁₆₃ 0.020; r₁₇₉ 0.020; r₁₉₉ 0.019; r₄₆ 0.019; r₂₂₉ 0.017;

根据表2中的话题特征词,使用人工方法对8个话题进行概括,话题内容概括如下：①话题1：成都市危险废物混入垃圾,将被罚款10万元;②话题2：天津市有奖举报交通违法行为;③话题3：南京市网约车进入道路交通安全条例;④话题4：北京三甲医院实行急诊分级,危重患者优先;⑤话题5：江西省上饶第五小学学生被杀事件;⑥话题6：城镇职工基本养老保险单位缴费比例降低;⑦话题7：武磊出战西甲联赛;⑧话题8：五一旅游。

根据话题生成的位置信息识别出话题的地域,以话题1为例,首先将话题位置代码映射为实际位置。利用每个位置上的话题文本量除以该位置上的总文本量,得到话题在位置上的强度(保留两位小数),话题1的位置映射结果以及话题1在各位置上的强度信息如表3所示。

表3 话题1的位置映射结果及其在位置上的强度

Table 3 Position Mapping Results of Topic 1 and Its Strength in Position

序号	位置编号	位置名称	话题强度	序号	位置编号	位置名称	话题强度
1	r₁₃₄	锦江区	0.11	10	r₁₃₉	双流区	0.05
2	r₁₄₁	青羊区	0.10	11	r₁₅₂	金堂县	0.04
3	r₁₃₆	金牛区	0.10	12	r₁₄₆	郫县	0.04
4	r₁₃₇	武侯区	0.09	13	r₁₃₈	大邑县	0.04
5	r₁₄₃	成华区	0.08	14	r₁₄₁	浦江县	0.03
6	r₁₅₆	龙泉驿区	0.07	15	r₁₄₅	新津县	0.03
7	r₁₅₆	青白江区	0.06	16	r₁₃₅	广汉市	0.02
8	r₁₄₀	新都区	0.05	17	r₁₄₉	简阳市	0.01
9	r₁₄₄	温江区	0.05	18	r₁₄₈	崇州市	0.01

根据表3可知,话题1的发生区域在成都市,话题中心在成都市区,强度随着位置范围的增大而逐渐减弱,可以判断话题1是地域性话题。同样,按照此方法得出话题2、3、4均是地域性话题。话题2的地域在天津,话题3的地域在南京,话题4的地域在北京。

按照上述步骤,话题5的位置映射结果以及话题5在各位置上的强度信息如表4所示。

表4 话题5位置映射结果及其在位置上的强度

Table 4 Position Mapping Results of Topic 5 and Its Strength in Position

序号	位置编号	实际名称	话题强度	序号	位置编号	位置名称	话题强度
1	r₈₈	信州区	0.08	10	r₇₀	西湖区	0.05
2	r₈₇	广丰区	0.08	11	r₈	白云区	0.05
3	r₈₅	上饶县	0.08	12	r₉₇	蜀山区	0.05
4	r₉₂	南昌县	0.06	13	r₁₅₂	金水区	0.05
5	r₈₃	青山湖区	0.06	14	r₁₄₆	黄陂区	0.04
6	r₇₇	浦东新区	0.05	15	r₁₆₀	万州区	0.04
7	r₁₃₄	朝阳区	0.05	16	r₁₄₁	鼓楼区	0.04
8	r₂₁₉	海淀区	0.05	17	r₂	福田区	0.04
9	r₇₅	闵行区	0.05	18	r₁₇₉	章丘区	0.04

从表4中可知,话题5位置分布在全国各地,位置之间比较松散,关联性不强。话题强度在各位置上呈现类均匀分布,只在江西省上饶及周边位置上强度偏大,可以判断出话题5是广泛性话题,话题的中心在上饶市,且在全国范围内引起强烈的讨论,这种话题叫做“冲击波型”话题^[14],即由地域性话题发展而成的广泛性话题。用同样的方法判断出话题6-话题8均是广泛性话题,但从话题的生成强度来看,话题6-话题8属于普通型话题,即它们没有中心点,话题在信息的接受范围内同时爆发,爆发点之间没有关联。

（2）话题强度对比

话题的文本数量占语料库文本总量的比值表示话题强度^[15]。话题强度反映民众对话题事件的关注程度。在文本-主题分布A中,“行”代表文本d_i,“列”代表d_i生成K个话题的概率,每列的概率加权平均可表示该列话题的强度。8个话题的强度对比如图3所示。

图3

图3 话题强度对比

Fig.3 Topics Strength Comparison

图3显示,广泛性话题5-话题8的强度明显高于地域性话题1-话题4,可以判断出话题强度与地域有关,地域越大,话题热度也就越高。原因是地域性话题文本量较少,所以总强度相对较低。这个特征使得基于强度的话题识别方法难以识别地域性话题。

（3）话题密度对比

话题密度^[16]是区域内话题文本数与区域内文本总数的比值,刻画单位面积上话题强度。表2中4个地域性话题与其余广泛性话题在重叠区域上的密度对比如图4所示。

图4

图4 地域性话题与广泛性话题的密度对比

Fig.4 Density for Regional Topics and Wide Topics

4个子图中,只有广泛性话题5的密度与其他地域性话题相当,其余广泛性话题的密度均明显小于地域性话题。说明地域性话题虽然总体文本量较少,但小范围内的强度较强,民众讨论热度较高。

4.3 模型评价

为验证RO-LDA模型的有效性,采用准确率、召回率、F值作为评价指标,以TF-IDF算法、LDA算法、CNN-TTM算法^[4]、WTM算法^[8]作为对比,在相同的数据集上依次运行这些算法。然后将各模型识别出的话题与新浪微博标注的话题进行对比,评价结果如表5所示。

表5 各模型之间的评价指标对比(%)

Table 5 Performances of Models(%)

数据集	TF-IDF	LDA	CNN-TTM	WTM	RO-LDA
准确率	74.65	75.32	73.98	77.17	82.15
召回率	75.73	78.41	78.62	81.58	78.06
F值	75.19	76.83	76.23	79.31	80.05

在表5中,RO-LDA模型的综合F值最大,说明其话题识别性能最好。

5 结语

本文在LDA模型三层框架结构的基础上增加了（话题,地域）层,建立基于地域的话题检测模型RO-LDA。该模型根据语料库中文本、话题、位置、词汇4者之间的依赖关系,推导得到位置、词汇的生成概率。通过对观测词汇和位置的多次采样,生成文档-话题、话题-词汇、（话题,地域）-位置三个稳定的分布矩阵,具备了话题位置识别能力。经过实验验证,并与其他模型进行对比,RO-LDA模型在话题的地域分布识别上达到了良好效果。

由于文本位置标签概化由人工提前设定,标签概化的合理性对话题的地域识别精度具有一定程度的影响,所以,如何找到最优的位置标签是下一步主要的研究方向。

作者贡献声明

刘玉文：论文构思,模型建立,论文撰写;

王凯：实验及结果分析,模型验证。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail: lywzyfy@163.com。

[1] 刘玉文.Comment.txt.用户评论分词结果.

[2] 刘玉文.Location.xls.位置映射关系.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Momtazi

Unsupervised Latent Dirichlet Allocation for Supervised Question Classification

[J]. Information Processing and Management, 2018,54(3):380-393.

[2]

徐月梅, 吕思凝, 蔡连侨 , 等.

结合卷积神经网络和Topic2Vec的新闻主题演变分析

[J]. 数据分析与知识发现, 2018,2(9):31-41.

( Xu

Yuemei

, Lv

Sining

, Cai

Lianqiao

, et al.

Analyzing News Topic Evolution with Convolutional Neural Networks and Topic2Vec

[J]. Data Analysis and Knowledge Discovery, 2018,2(9):31-41.)

[3]

Chen

, Zhang H

, Jose J

, et al.

Topic Detection and Tracking on Heterogeneous Information

[J]. Journal of Intelligent Information Systems, 2018,51(1):115-137.

[4]

付鹏, 林政, 袁凤程 , 等.

基于卷积神经网络和用户信息的微博话题追踪模型

[J]. 模式识别与人工智能, 2017,30(1):73-80.

( Fu

Peng

, Lin

Zheng

, Yuan

Fengcheng

, et al.

Convolutional Neural Network and User Information Based Model for Microblog Topic Tracking

[J]. Pattern Recognition and Artificial Intelligence, 2017,30(1):73-80.)

[5]

周亚东, 刘晓明, 杜友田 , 等.

一种网络话题的内容焦点迁移识别方法

[J]. 计算机学报, 2015,38(2):261-271.

( Zhou

Yadong

, Liu

Xiaoming

, Du

Youtian

, et al.

A Method for Identifying the Evolutionary Focuses of Online Social Topics

[J]. Chinese Journal of Computers, 2015,38(2):261-271.)

[6]

何跃, 朱灿, 朱婷婷 , 等.

微博热点话题情感趋势研究

[J]. 情报理论与实践, 2018,41(7):155-160.

( He

Yue

, Zhu

Can

, Zhu

Tingting

, et al.

Research on the Emotional Tendency of Hot Topics in Micro-blogs

[J]. Information Studies: Theory & Application, 2018,41(7):155-160.)

[7]

廖海涵, 王曰芬, 关鹏 .

微博舆情传播周期中不同传播者的主题挖掘与观点识别

[J]. 图书情报工作, 2018,62(19):77-85.

( Liao

Haihan

, Wang

Yuefen

, Guan

Peng

Topic Mining and Viewpoint Recognition of Different Communicators in the Transmission Cycle of Micro-blog Public Opinion

[J]. Library and Information Service, 2018,62(19):77-85.)

[8]

余冲, 李晶, 孙旭东 , 等.

基于词嵌入与概率主题模型的社会媒体话题识别

[J]. 计算机工程, 2017,43(12):184-191.

( Yu

Chong

, Li

Jing

, Sun

Xudong

, et al.

Social Media Topic Recognition Based on Word Embedding and Probabilistic Topic Model

[J]. Computer Engineering, 2017,43(12):184-191.)

[9]

方小飞, 黄孝喜, 王荣波 , 等.

基于LDA模型的移动投诉文本热点话题识别

[J]. 数据分析与知识发现, 2017,1(2):19-27.

( Fang

Xiaofei

, Huang

Xiaoxi

, Wang

Rongbo

, et al.

Identifying Hot Topics from Mobile Complaint Texts

[J]. Data Analysis and Knowledge Discovery, 2017,1(2):19-27.)

[10]

Blei D

, Ng A

, Jordan M

Latent Dirichlet Allocation

[J]. Journal of Machine Learning Research, 2003,3:993-1022.

[本文引用: 5]

[11]

李平, 张路遥, 曹霞 , 等.

基于潜在主题的混合上下文推荐算法

[J]. 电子与信息学报, 2018,40(4):957-963.

( Li

Ping

, Zhang

Luyao

, Cao

Xia

, et al.

Hybrid Context Recommendation Algorithm Based on Latent Topic

[J]. Journal of Electronics and Information Technology, 2018,40(4):957-963.)

[12]

Zou Y

, Ouyang J

, Li X

Supervised Topic Models with Weighted Words: Multi-Label Document Classification

[J]. Frontiers of Information Technology & Electronic Engineering, 2018,19(4):513-523.

[13]

李维皓, 曹进, 李晖 .

基于位置服务隐私自关联的隐私保护方案

[J]. 通信学报, 2019,40(5):57-66.

( Li

Weihao

, Cao

Jin

, Li

Hui

Privacy Self-Correlation Privacy-Preserving Scheme in LBS

[J]. Journal on Communications, 2019,40(5):57-66.)

[14]

鲜学丰, 崔志明, 赵朋朋 , 等.

基于主题模型的位置感知订阅发布系统

[J]. 计算机科学, 2018,45(3):167-172.

( Xian

Xuefeng

, Cui

Zhiming

, Zhao

Pengpeng

, et al.

Location-awareness Publication Subscription System Based on Topic Model

[J]. Computer Science, 2018,45(3):167-172.)

[15]

Twinandilla

, Adhy

, Surarso

, et al.

Multi-Document Summarization Using K-Means and Latent Dirichlet Allocation (LDA)-Significance Sentences

[J]. Procedia Computer Science, 2018,135:663-670.

[本文引用: 3]

[16]

Chen M

, Wang

, Li

X L

Patch-based Topic Model for Group Detection

[J]. Science China Information Sciences, 2017, 60: Article No. 113101.