基于EM-LDA综合模型的电商微博热点话题发现

[an error occurred while processing this directive]

引用本文

伍万坤, 吴清烈, 顾锦江. .基于EM-LDA综合模型的电商微博热点话题发现[J]. 现代图书情报技术, 2015,31(11): 33-40
Wu Wankun, Wu Qinglie, Gu Jinjiang. .Hot Topic Extraction from E-commerce Microblog Based on EM-LDA Integrated Model. New Technology of Library and Information Service,2015,31(11): 33-40 复制到剪切板

Permissions

《现代图书情报技术》编辑部

基于EM-LDA综合模型的电商微博热点话题发现

伍万坤¹, 吴清烈¹, 顾锦江^1,²

¹东南大学经济管理学院南京 211189

²江苏经贸职业技术学院信息技术学院南京 211168

伍万坤, ORCID: 0000-0002-7872-6536, E-mail: wuwankunseu@qq.com。

基金:*本文系江苏省高校哲学与社会科学重点项目“江苏网络经济发展现状与对策研究”(项目编号:2013ZDIXM017)的研究成果之一

摘要

目的在社交营销环境下, 准确且有效地挖掘电商微博中的热点话题。方法提出一种综合模型EM-LDA对电商微博文本数据进行主题挖掘。EM-LDA综合模型包含两个子模型: ET-LDA模型和IT-LDA模型, 前者对含有哈希标签的微博进行主题挖掘, 后者对不含有哈希标签的微博进行主题挖掘。结果在确定合适的主题个数之后, 标准LDA模型和EM-LDA综合模型均被用来挖掘电商微博文本数据的热点话题, 与标准LDA模型相比, EM-LDA综合模型的热词挖掘准确率和有效性均较高, 且能提高主题可解释性。【局限】在ET-LDA模型中, 未考虑微博联系人之间的关联关系, 即模型中未引入用户特征; 在IT-LDA模型中没有考虑如何处理那些既是转发式又是对话式的电商微博。结论 EM-LDA综合模型根据数据的特点, 改进了标准LDA模型, 能够提升电商微博热点话题识别的准确性。

关键词: 电商微博; 热点话题挖掘; 哈希标签; EM-LDA

中图分类号:TP393 G356

Hot Topic Extraction from E-commerce Microblog Based on EM-LDA Integrated Model

Wu Wankun¹, Wu Qinglie¹, Gu Jinjiang^1,²

¹School of Economics and Management, Southeast University, Nanjing 211189, China

²(Department of Information Technology, Jiangsu Institute of Commerce, Nanjing 211168, China

Abstract

[Objective] Extract hot topics from e-commerce microblog in social marketing. [Methods] This paper proposes an integrated model, EM-LDA (E-commerce Microblog-LDA) to extract hot topics from e-commerce microblog. The integrated model contains two submodels, that is, ET-LDA model and IT-LDA model. The former is to extract hot topics from those e-commerce microblog with Hashtag, and the latter is to extract hot topics from those e-commerce microblog without Hashtag. [Results] The standard LDA model and EM-LDA integrated model are both used to extract hot topics from e-commerce microblog text after the number of topics is determined. Compared with the standard LDA model, EM-LDA model extract hot topics more accurately and effectively, also can improve interpretability. [Limitations] ET-LDA model is not considered about the relationship between microblog contacts, that is, user feature is neglected. IT-LDA model does not concern how to deal with those e-commerce microblog both belong to conversation and retweet. [Conclusions] According to the special features of e-commerce microblog text, EM-LDA integrated model ameliorates the standard LDA model to improve the accuracy of hot topic extraction from e-commerce microblog.

Keyword: E-commerce; microblog; Hot; topic; extraction; Hashtag; EM-LDA

Show Figures

1 引言

2011年京东商城与新浪微博合作推出了“ 微购物” , 合作创造的W-Commerce模式, 与Facebook推出的F-Commerce具有异曲同工之妙。目前主流电商企业都想方设法利用微博进行营销宣传, 微博是广大网民沟通的即时平台, 它本身所具有的特点就决定了如果利用微博做营销宣传, 一旦成功则会产生惊人的效果。如果将微博所带来的口碑营销、人际传播等效应引入到商业应用中, 则能够为企业的社交营销带来意想不到的效果。在社交营销领域, 电商企业发布的营销微博往往被众多的“ 噪音” 微博淹没, 错综复杂的关注关系和杂乱无章的微博环境使得电商企业无法向特定用户传递商务信息, 如新品宣传、活动推广、产品促销等, 同时用户在有限的时间内也无法在浩如烟海的微博中发现自己感兴趣的信息, 因此对电商微博的主题挖掘就显得十分重要。

2 相关研究

LDA模型是主题建模中的一个公认的标准, 且应用于多个领域, 如社会网络、社交媒体^[1]。LDA主题模型具有优秀的降维能力和扎实的概率理论基础, 所以LDA模型在微博主题挖掘中具有很大的潜力^{[2, 3]}。近年来, 为了提高LDA模型主题挖掘的效率和准确性, 出现很多对LDA模型的改进方法, 可归纳为纵向的过程扩展和横向的模型扩展^[4]。

一方面, 针对微博文本篇幅较短的局限, 基于操作过程扩展的方法考虑将微博文本进行适当的聚集, 这样短文本被聚集成相对适合挖掘的长文本。Weng等^[5]采用同一微博用户的所有微博文本聚集成一篇长文档的策略, 利用LDA模型进行主题挖掘。Hong等^[6]出基于训练的用户模式(User Scheme)建模和基于术语模式(Term Scheme)建模。另一方面, 为了适应微博短文本的主题挖掘, 规避短文本数据噪声大的影响, 基于模型扩展的方法优化LDA模型, 典型的改进模型包括ATM^[7]、Twitter-LDA^[8]、Labeled-LDA^[9]、MB- LDA^[2]、HLDA^[10]以及MA-LDA^[11]。Zhao等^[8]提出一种Twitter-LDA模型挖掘整个Twitter文本中具有代表性的文本主题。Ramage等^[9]提出Labeled-LDA, 这是一个基于标签的主题模型。张晨逸等^[2]提出一种微博生成模型MB-LDA, 该模型综合考虑了微博的文本关联关系和联系人关联关系, 这两种关系可以辅助微博的主题挖掘。对于LDA模型的纵向和横向改进方法的比较如表1所示:

表1 改进LDA主题建模方法比较^[4]

3 EM-LDA综合模型建模过程与模型求解

3.1 标准LDA模型

LDA模型是一种典型的用于话题提取的概率潜语义模型, 由Blei等^[12]提出, 是一种具有文本主题表达能力的无指导学习模型, 如图1所示。LDA模型可以随机生成一篇由若干个主题组成的文档。假设文档集有D篇文档, 每篇文档看作是由K个主题混合产生, 每个主题k由词上的多项式分布形成。w_dn表示第d个文档的第n个词, w_dn∈ V, V是词的词语集; z_dn表示产生w_dn的主题; α 是文档集的主题先验分布超参数; θ _d是文档d在主题上的分布比例, 对于每篇文档d, θ _d服从参数为α 的Dirichlet分布, 即θ _d ~Dir(α ); 一个主题Φ _k是词语集V中词的分布; 图中模型包含K个主题在词上的分布Φ _1:K, N是文档d的总词数。

	Figure Option View Download New Window
	图1 LDA模型^[16]

3.2 基于EM-LDA综合模型的电商微博热点话题发现技术流程

电商微博文本中的哈希标签(Hashtag)是一种用于简化搜索、索引和趋势发现的用户自定义标签, 格式为“ #话题名称#” , 这种标签具有用户特征和日期属性等。将含有哈希标签的微博归为一类, 称为显式话题微博; 剩余不含哈希标签的微博归为隐式话题微博, 此类微博还可以按照不同的消息发布方式细分为广播式、对话式和转发式微博, 其定义如下:

(1) 显式话题(Explicit Topic, ET)微博是指在电商微博中存在以“ #话题名称#” (称为哈希标签)的形式显式地表达所要发布的主题信息或热点话题, 这类微博具有重要的用户特征和日期属性。

(2) 隐式话题(Implicit Topic, IT)微博是指不含哈希标签的微博, 按照消息发布方式其主要分为三类: 广播式微博、对话式微博和转发式微博, 这三类微博分别表征了联系人与文本之间的关联关系, 联系人之间的关联关系以及微博之间的文本关联关系。

(3) 广播式(Broadcast)微博比较简单, 即发布者首创并以简短的文字、图片、音频、视频、超链接等形式实现即时分享的一种微博。

(4) 对话式(Conversation)微博是指微博的联系人之间以“ @微博名……” 形式表达关联关系的微博, 这种关联关系指的是带有“ @” 的微博与@的联系人之间存在潜在的语义关联。一般来说, 与同一个联系人存在关联的微博, 他们的主题往往也是相关的。

(5) 转发式(Retweet)微博是指微博的文本以“ ……//@微博名……” 形式表达关联关系的微博, 这种关联关系指的是带有“ //@” 的微博与原微博之间存在潜在的语义关联, 其中“ //@” 之前的是原创内容, 有时可以省略, “ //@” 之后的是转发内容。

由于电商微博文本数据包含大量可供参考的标签信息, 因此分别建立两种主题挖掘模型: 将含有哈希标签的微博归为显式话题微博, 并用ET-LDA模型进行主题挖掘, 在模型中引入日期属性, 并利用标签信息增加标签词在主题中出现的概率, 这样使得主题挖掘结果更容易被解释; 将不含哈希标签的微博归为隐式话题微博, 对于一条微博, 其必然是广播式微博, 抑或是转发式微博, 抑或是对话式微博, 由于转发式微博具有联系人关联关系, 对话式微博具有文本关联关系, 所以可以利用这两种关系进行整合建模, 从而建立IT-LDA模型, 该模型挖掘主题词的结果比标准LDA模型更加准确。本文的研究对象是电商微博(E-commerce Microblog), 基于EM-LDA(E-commerce Microblog-LDA)综合模型的电商微博热点话题识别流程如图2所示:

	Figure Option View Download New Window
	图2 基于EM-LDA综合模型的电商微博热点话题发现技术流程

3.3 面向显式话题微博的ET-LDA模型

对于显式话题微博有一个重要的关于日期的特征, 那就是此类微博往往在某个特殊的日期前后高频率的出现, 比如各大电商发起的“ 年中大促” 、“ 双十一” 、“ 双十二” 、“ * * 周年店庆” , 因此挖掘这类微博的热点话题, 日期属性是非常重要且有价值的。本文将日期属性作为一个变量引入模型中, 同时标签也被结合到LDA模型中, 标签主要是调节话题出现的概率, 让那些出现在标签中的热点词的概率增大。在显式话题微博中, 虽然存在一些标签标注了话题, 但是这些话题并不都是热点话题, 对于那些短时间内不被很多人关注的微博, 将其视为非热点话题处理。

ET-LDA(Explicit Topic-LDA)模型是对MA-LDA模型^[11]的改进, 对日期变量给出更加严格的定义, 标签变量是可观测到的数据, 所以纳入模型中以灰色表示, 据此给出ET-LDA模型的贝叶斯网络图, 如图3所示:

	Figure Option View Download New Window
	图3 面向显式话题的ET-LDA模型的贝叶斯网络图^{[9, 11]}

当对每个文档生成主题分布时, 引入一个二值变量λ , 此变量用于决定当前的词语是来自于非热点主题θ _g(λ =0)还是热点主题θ _h(λ =1)。λ 值由另外两个变量决定, 它们是关于词语的日期分布的二值变量λ _w和关于文本的日期分布的二值变量λ _d。对于词表中的一个词w_i, 其λ _w值的计算过程可以描述为: 从微博数据集中随机地选取一部分文本, 将这部分文本发表的日期分为T个时间段, 一个时间段可以被定义为一天(T≥ 15), 也可以被定义为其他值, 计算词w_i在每个时间段t中出现的频数f_t(w_i)。假设第t个时间段中包含m个微博文本, 每个微博文本包含词w_i的频数是f(w_i, d_j), 则f_t(w_i)可以被定义为: 。词w_i的日期分布可以由如下公式得到:

公式(1)是在朱颖^[11]提出公式的基础上进行的修改, 其中。S(w_i)值可以描述词w_i的日期特征, 一个热点词的S (w_i)值要比其他词的S (w_i)值大, 其含义可以理解为词w_i在某个日期t内大量出现, 而在其他日期不出现, 这符合热点词的基本定义。根据朱颖^[11]的研究, 当S (w_i)值大于0.5时, 基本上所有热点词都能被识别出来, 所以本文采用相同的做法:

考虑到电商微博文本的稀疏性, 假设在一个文本中, 存在两个或两个以上的词, 其λ _w值等于1, 那么令λ _d; 否则, λ _d=0。根据λ _w、λ _d的值, 可以确定λ 取值, 即λ =λ _w • λ _d, 只有当λ _w和λ _d的值都为1时, λ 值才为1, 这样处理的原因是为了更加有效地挖掘热点话题。

在模型建立完成以后, 需要对ET-LDA模型中的潜在变量进行求解, 本文采用Gibbs抽样方法。在词语t的λ 值等于1时, 词语t将从热点主题中生成, 其主题分布概率如下:

其中, 表示除去当前赋值, 词语t赋给热点主题h的次数; 表示除去当前赋值, 赋给热点主题h的词语总数; 表示除去当前赋值, 文本d中赋给热点主题h的词语数量; 表示除去当前这个词语, 文档d中赋给热点主题h的词语总数。当词语t将从非热点话题中生成, 其概率P(z_{g, i}|λ ^t=0, z_{g, -i}, • )的计算公式与公式(3)类似。在完成Gibbs抽样后, 可以得到模型中的参数计算公式如下:

在得到热点话题的参数矩阵之后, 选择每个主题下概率值排最前面的词组成话题。判断词是否来自于标签, 如果来自于标签, 则在其出现的次数上加N_tag (N_tag为所有热点词在微博文本集中出现的平均数), 从而提出改进后的变量取值公式如下:

这样所有标签词在主题中的概率增加, 排序也将增加, 而且标签词更容易让人理解, 对热点词也相对比较重要。

3.4 面向隐式话题微博的IT-LDA模型

对于隐式话题的电商微博, 本文从微博类型出发, 对三种类型的微博进行整合建模, 形成一种适合于主题挖掘的模型— — IT-LDA(Implicit Topic-LDA)模型, 其贝叶斯网络图如图4所示:

	Figure Option View Download New Window
	图4 面向隐式话题的IT-LDA模型的贝叶斯网络图

在IT-LDA模型关联的微博文本, 如果首先出现的是“ @……” 则认定为对话式微博, 从以t₁为参数的伯努利分布中抽取二值变量c, 决定从参数为α _c的Dirichlet分布中抽取对话式微博中的主题分布θ _c, 赋值给θ _d, 微博与主题间关系应该由θ _c决定, 从而给出θ 的概率分布如下:

P(θ |α , α _c, c)=P(θ _c|α _c)^cP(θ _d|α )^1-c (8)

同理, 如果首次出现的是“ //@……” 则认定为转发式微博, 从以t₂为参数的伯努利分布中抽取二值变量r决定从参数为α _r的Dirichlet分布中抽取对话式微博中的主题分布θ _r, 并赋值给θ _d, 微博与主题间关系应该由θ _r决定。若c=0且r=0, 表示这是广播式微博, 直接从参数为α 的Dirichlet分布中抽取出该微博d与各个主题之间的关系θ _d。类似于对话式微博, 给出转发式微博对应θ 的概率分布如下:

P(θ |α , α _r, r)=P(θ _r|α _r)^rP(θ _d|α )^1-r (9)

对于隐式话题微博, 所有单词与其所属主题的联合概率分布可以表示为:

P(w, z|α , β , θ )=P(θ |α )P(z|θ )P(w|z, β )=P(θ |α , α _c, c)^cP(θ |α , α _r, r)^rP(z|θ )P(w|z, β ) (10)

对面向隐式话题的IT-LDA模型, 同样采用Gibbs抽样的方法对模型进行求解。通过条件概率, 抽样出词i最新的主题, 可以推导得到:

其中, 和分别是V× K和D× K的矩阵, 前者代表词w_i的主题是j的次数, 后者代表微博文本d中主题是j的词的数目。公式(12)右边分为两部分, 前者可以看成词w是主题j的概率, 后者则是主题j在微博文本d中的分布情况。一旦w_i被认为是主题j, 则会加大其他词是主题j的概率。同样, 如果主题j在微博文本d中频繁出现, 那么文本中词w是主题j的概率相应增大。

根据多项式分布, 可以估计θ _d和Φ _z的结果为:

同样, 通过抽样分别得到对话式和转发式微博文本的主题分布θ _c和θ _r:

根据参数值就能求出每条微博关于各个主题的概率分布以及主题关于每个词语的概率分布, 对整个微博集进行分析, 根据概率值可以识别出每条微博最可能属于哪个主题、每个主题最具代表性的词语。

4 实验过程及结果分析

4.1 实验数据集及预处理

本文利用数据堂^{[17, 18]}和新浪API提供的数据, 通过人工收集与整理, 得到新浪微博上粉丝数和影响力均较大的几家电商企业在2013年11月30日至2015年1月10日之间发布的微博作为实验数据集, 收集到的微博数据集共涵盖40多家电商企业, 共89 847条微博。微博数据存储于事务数据库中, 每条微博对应一条事务或者一个元组, 并对每个元组进行编码, 将其作为主属性。另外, 收集到的微博信息包括微博账号、微博文本、哈希标签、日期时间、转发数、评论数、点赞数、收藏数等, 这些信息作为元组的属性集合。

选用中国科学院计算技术研究所中文分词工具ICTCLAS^①( ①http://ictclas.nlpir.org/.), 对每个元组的微博文本属性进行预处理, 即对微博文本语料进行分词、词性标注和去除停用词处理。同时还要抽取标签, 即微博中“ #……#” 之间的内容, 并且根据是否存在标签对微博进行分类, 将含有哈希标签的微博归入“ Explicit Topic Database” 数据库中, 给每个元组增加一个“ 标签信息” 属性, 即将经过文本预处理后的标签内容放入此属性中。对于不含哈希标签的微博归入“ Implicit Topic Database” 数据库中, 给每个元组增加一个“ 微博类型” 属性, 在文本预处理阶段, 扫描每个元组的微博文本属性, 若首次遇到“ @” 符号, 则此元组的“ 微博类型” 属性值为1, 表示对话式微博; 若首次遇到“ //@” 符号, 则此元组的“ 微博类型” 属性值为2, 表示转发式微博; 否则为0, 表示广播式微博。

4.2 模型主题个数选取实验

实验前需要确定模型参数和主题个数, 根据文献[19]的研究, 对于ET-LDA模型, 取经验值α =50/K, β =0.01, 对于IT-LDA模型, 取经验值α =50/K, α _c=α _r=1, β =0.01, 其中K为主题个数。由于主题个数影响EM-LDA综合模型对微博文本集的拟合性能, 因此需要确定主题个数的最佳值。本文采用目前常用的评价标准“ 困惑度(Perplexity)” 确定最佳主题个数, 困惑度是从模型泛化能力衡量LDA模型对于文本的预测能力, 通常情况下, 困惑度越小, 说明模型的泛化能力越强, 模型的推广性也就越好^[20]。计算公式如下:

其中, M为文档个数, N_i为文档d_i的长度, P(d_i)表示模型产生文档d_i的概率。

为了确定最佳主题个数, 令K取不同的值, 在各种不同的值下运行Gibbs抽样, 分析困惑度的变化, 实验结果如图5和图6所示:

	Figure Option View Download New Window
	图5 ET-LDA模型不同主题数下的困惑度

	Figure Option View Download New Window
	图6 IT-LDA模型不同主题数下的困惑度

从图5可以看出, 对于ET-LDA模型, 当主题数 K选择80时, ET-LDA模型的困惑度最低, 这时模型的性能最好; 从图6可以看出, 对于IT-LDA模型, 当主题数K设置为50时, IT-LDA模型的困惑度最低, 所以将ET-LDA模型的主题数设置为80, 将IT-LDA模型的主题数设置为50。

4.3 EM-LDA综合模型的热点主题挖掘实验

实验选择R语言实现EM-LDA综合模型的任务, R语言提供了很多用于文本挖掘的程序包, 如tm包、XML包、Rwordseg包, 对于LDA模型还有专门的LDA程序包。利用LDA模型直接对存储于事务数据库中的电商微博进行主题挖掘, 得到LDA模型运行结果, 经过处理后的结果如图7所示; 其次利用R语言编程实现事先建立好的ET-LDA模型和IT-LDA模型, 并分别将“ Explicit Topic Database” 数据库和“ Implicit Topic Database” 数据库关联到R语言程序中, 根据上面的工作, 规定两个模型的各参数值, 运行程序得到EM-LDA综合模型的部分主题分布如图8所示:

	Figure Option View Download New Window
	图7 标准LDA模型的主题分布

	Figure Option View Download New Window
	图8 EM-LDA综合模型的主题分布

图7和图8均显示了两个模型各自主题上的热词, 并按照热词间的概率降序排列。可以看出, EM-LDA综合模型的热词挖掘准确率高于标准LDA模型, 且EM-LDA综合模型挖掘出的热点词均是数据集中的热点词, 而LDA模型挖掘出的结果并非都是热点词, 所以EM-LDA综合模型可以更加准确且有效地挖掘各个主题下的热点词。

5 结语

本文提出的EM-LDA综合模型是对标准LDA模型的扩展, 主要结论包括:

(1) 对于电商微博文本数据, 根据其是否含有哈希标签进行分类处理, 区别于标准LDA模型直接应用到原始数据的弊端, 根据数据特征分别建立适合主题挖掘的模型。

(2) 将日期特征引入LDA模型, 从而建立面向显式话题微博的ET-LDA模型, 其可以有效且准确地挖掘出显式话题微博中的热点话题, 提高挖掘出的热点话题的可解释性。

(3) IT-LDA模型充分考虑了电商微博中的结构化和非结构化信息, 结合转发式微博和对话式微博特点整合建模, 主题挖掘结果比LDA模型更准确。

由于需要对电商微博文本数据进行分类处理, 所以需要预先进行人工干预, 在整个主题挖掘时效性上要低于标准LDA模型; ET-LDA模型没有考虑到用户特征, 只将日期特征引入模型中; IT-LDA模型没有考虑如何处理那些既是转发式又是对话式的微博。在后期的研究中, 可以将用户特征、标签信息等作为变量引入ET-LDA模型中, 同时更加深入地细分微博类型, 综合考虑多种类型的微博, 并建立一个综合的适合主题挖掘的模型, 以提高结果的可解释性和挖掘结果的准确率。

参考文献

View Option

[1]	Wei X, Croft W B. LDA-based Document Models for Ad-hoc Retrieval [C]. In: Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2006: 178-185. [本文引用:1]
[2]	张晨逸, 孙建伶, 丁轶群. 基于MB-LDA模型的微博主题挖掘[J]. 计算机研究与发展, 2011, 48(10): 1795-1802. (Zhang Chenyi, Sun Jianling, Ding Yiqun. Topic Mining for Microblog Based on MB-LDA Model[J]. Journal of Computer Research and Development, 2011, 48(10): 1795-1802. ) [本文引用:3]
[3]	张晓艳, 王挺, 梁晓波. LDA模型在话题追踪中的应用[J]. 计算机科学, 2011, 38(10A): 136-139, 152. (Zhang Xiaoyan, Wang Ting, Liang Xiaobo. Use of LDA Model in Topic Tracking[J]. Computer Science, 2011, 38(10A): 136-139, 152. ) [本文引用:1]
[4]	张培晶, 宋蕾. 基于LDA的微博文本主题建模方法研究述评[J]. 图书情报工作, 2012, 56(24): 120-126. (Zhang Peijing, Song Lei. Overview on Topic Modeling of Microblogs Text Based on LDA[J]. Library and Information Service, 2012, 56(24): 120-126. ) [本文引用:1]
[5]	Weng J, Lim E P, Jiang J, et al. TwitterRank: Finding Topic-sensitive Influential Twitterers [C]. In: Proceedings of the 3rd ACM International Conference on Web Search and Data Mining. ACM, 2010: 261-270. [本文引用:1]
[6]	Hong L, Davison B D. Empirical Study of Topic Modeling in Twitter [C]. In: Proceedings of the 1st Workshop on Social Media Analytics. ACM, 2010: 80-88. [本文引用:1]
[7]	Rosen-Zvi M, Griffiths T, Steyvers M, et al. The Author-topic Model for Authors and Documents [C]. In: Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence. AUAI Press, 2004: 487-494. [本文引用:1]
[8]	Zhao W X, Jiang J, Weng J, et al. Comparing Twitter and Traditional Media Using Topic Models [C]. In: Proceedings of the 33rd European Conference on Informatin Retrieval. Springer Berlin Heidelberg, 2011: 338-349. [本文引用:2]
[9]	Ramage D, Hall D, Nallapati R, et al. Labeled LDA: A Supervised Topic Model for Credit Attribution in Multi-labeled Corpora [C]. In: Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. 2009: 248-256. [本文引用:2]
[10]	唐晓波, 向坤. 基于LDA模型和微博热度的热点挖掘[J]. 图书情报工作, 2014, 58(5): 58-63. (Tang Xiaobo, Xiang Kun. Hotspot Mining Based on LDA Model and Microblog Heat[J]. Library and Information Service, 2014, 58(5): 58-63. ) [本文引用:1]
[11]	朱颖. 基于微博的热点话题发现[D]. 重庆: 西南大学, 2014. (Zhu Ying. Hot Topic Extraction from Microblogs [D]. Chongqing: Southwest University, 2014. ) [本文引用:4]
[12]	Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022. [本文引用:1]
[13]	Rosen-Zvi M, Chemudugunta C, Griffiths T, et al. Learning Author-topic Models from Text Corpora [J]. ACM Transactions on Information Systems, 2010, 28(1): Article No. 4. [本文引用:1]
[14]	Zhao W X, Jiang J, He J, et al. Topical Keyphrase Extraction from Twitter [C]. In: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. 2011: 379-388. [本文引用:1]
[15]	Ramage D, Dumais S T, Liebling D J. Characterizing Microblogs with Topic Models [C]. In: Proceedings of the 4th International Conference on Weblogs and Social Media. 2010. [本文引用:1]
[16]	王星. 大数据分析: 方法与应用[M]. 北京: 清华大学出版社, 2013: 287-289. (Wang Xing. Big Data Analysis: Methods and Applications [M]. Beijing: Tsinghua University Press, 2013: 287-289. ) [本文引用:1]
[17]	数据堂. 50条热门微博的所有转发和评论[EB/OL]. [2015-03-29]. http: //www. datatang. com/data/46423. (Datatang. All Retweets and Comments of 50 Hot Microblogs [EB/OL]. [2015-03-29]. http://www.datatang.com/data/46423 [本文引用:1]
[18]	数据堂. 63641个用户的新浪微博数据集[EB/OL]. [2015- 03-30]. http: //www. datatang. com/data/46758. (Datatang. Sina Microblog Datasets of 63641 Users [EB/OL]. [2015-03-30]. http://www.datatang.com/data/46758 [本文引用:1]
[19]	Toyabe T, Asai S. Analytical Models of Threshold Voltage and Breakdown Voltage of Short-channel MOSFET’s Derived from Two-dimensional Analysis[J]. IEEE Transactions on Electron Devices, 1979, 26(4): 453-461. [本文引用:1]
[20]	Cao J, Xia T, Li J, et al. A Density-based Method for Adaptive LDA Model Selection[J]. Neurocomputing, 2009, 72(7-9): 1775-1781. [本文引用:1]

2006

0.0

... 2 相关研究LDA模型是主题建模中的一个公认的标准, 且应用于多个领域, 如社会网络、社交媒体^[1] ...

2011

0.0

. 2011, 48(10):1795-1802

Topic Mining for Microblog Based on MB-LDA Model

基于MB-LDA模型的微博主题挖掘

Zhang Chenyi , Sun Jianling , Ding Yiqun.

张晨逸, 孙建伶, 丁轶群

As microblog grows more popular, services like Twitter have become information providers on a web scale. Early work on microblog focused more on its user relationship and community structure, without considering the value of content. So the research on microblog requires a change from solely user’s relationship analysis to its content mining. Although traditional text mining methods have been studied well, no algorithm is designed specially for microblog data, which contain structured information on social network besides plain text. In this paper, we propose a novel probabilistic generative model based on LDA, called MB-LDA, which is suitable to model the microblog data and takes both contact relation and document relation into consideration to help topic mining in microblog. We present a Gibbs sampling implementation for inference of our model, and find not only the topics of microblog, but also the topics focused by contactors according to the final results. Besides, our model can be extended to many texts associated with social networking such as E-mails and forum posts. Experimental results on actual dataset show that MB-LDA model can offer an effective solution to topic mining for microblog.

随着微博的日趋流行,Twitter等微博网站已成为海量信息的发布体,对微博的研究也需要从单一的用户关系分析向微博本身内容的挖掘进行转变.在数据挖掘领域,尽管传统文本的主题挖掘已经得到了广泛的研究,但对于微博这种特殊的文本,因其本身带有一些结构化的社会网络方面的信息,传统的文本挖掘算法不能很好地对它进行建模.提出了一个基于LDA的微博生成模型MB-LDA,综合考虑了微博的联系人关联关系和文本关联关系,来辅助进行微博的主题挖掘.采用吉布斯抽样法对模型进行推导,不仅能挖掘出微博的主题,还能挖掘出联系人关注的主题.此外,模型还能推广到许多带有社交网络性质的文本中.在真实数据集上的实验表明,MB-LDA模型能有效地对微博进行主题挖掘.

... LDA主题模型具有优秀的降维能力和扎实的概率理论基础, 所以LDA模型在微博主题挖掘中具有很大的潜力^[2,3] ...

... 另一方面, 为了适应微博短文本的主题挖掘, 规避短文本数据噪声大的影响, 基于模型扩展的方法优化LDA模型, 典型的改进模型包括ATM^[7]、Twitter-LDA^[8]、Labeled-LDA^[9]、MB- LDA^[2]、HLDA^[10]以及MA-LDA^[11] ...

... 张晨逸等^[2]提出一种微博生成模型MB-LDA, 该模型综合考虑了微博的文本关联关系和联系人关联关系, 这两种关系可以辅助微博的主题挖掘 ...

2011

0.0

. 2011, 38(10A):136-139, 152

Use of LDA Model in Topic Tracking

LDA模型在话题追踪中的应用

Zhang Xiaoyan , Wang Ting , Liang Xiaobo.

张晓艳, 王挺, 梁晓波

摘　要：随着对LDA模型的研究越来越深入,文本表示和挖掘能力进一步提高。＂话题＂是LDA模型中一个非常重要的概念,是特征集合的一个多项式概率分布。话题追踪是根据少数已知相关信息在未知报道流中追踪一个话题,找出与该话题相关的所有报道。把 LDA模型用于话题追踪,目的有两个：（一）检验LDA话题对追踪话题的表示能力;（二）检验LDA模型在挖掘训练数据中的追踪话题时,LDA话题和追踪话题之间的关系。实验表明：相对于经典的向量空间模型和一元语言模型,以及专门针对追踪话题提出的事件模型,基于LDA模型的追踪性能更好,但由于粒度不同,LDA模型中的话题和追踪话题并没有直接的一一对应的关系,实现可定制话题的LDA模型是下一步工作的目标。

... LDA主题模型具有优秀的降维能力和扎实的概率理论基础, 所以LDA模型在微博主题挖掘中具有很大的潜力^[2,3] ...

2012

0.0

. 2012, 56(24):120-126

Overview on Topic Modeling of Microblogs Text Based on LDA

基于LDA的微博文本主题建模方法研究述评

Zhang Peijing , Song Lei.

张培晶, 宋蕾

Based on the development process of probability topic model and basic principle of its representing model-LDA, this paper analyzes the characteristics of LDA and advantage of microblogs network text mining. Then it introduces and comments the existing text topic modeling methods based on LDA in microblogs environment, and compares their expanded mode and modeling effect.Finally it prospects the development direction of microblogs text topic modeling.

在介绍概率主题模型发展过程以及概率主题模型的代表性模型LDA基本原理的基础上,分析LDA模型的特征及其用于微博类网络文本挖掘的优势;介绍和评述微博环境下现有的基于LDA模型的文本主题建模方法,并对其扩展方式和建模效果进行总结和比较;最后对微博文本主题建模的发展方向进行展望。

... 近年来, 为了提高LDA模型主题挖掘的效率和准确性, 出现很多对LDA模型的改进方法, 可归纳为纵向的过程扩展和横向的模型扩展^[4] ...

2010

0.0

... Weng等^[5]采用同一微博用户的所有微博文本聚集成一篇长文档的策略, 利用LDA模型进行主题挖掘 ...

2010

0.0

... Hong等^[6]出基于训练的用户模式(User Scheme)建模和基于术语模式(Term Scheme)建模 ...

2004

0.0

2011

0.0

... Zhao等^[8]提出一种Twitter-LDA模型挖掘整个Twitter文本中具有代表性的文本主题 ...

2009

0.0

... Ramage等^[9]提出Labeled-LDA, 这是一个基于标签的主题模型 ...

2014

0.0

. 2014, 58(5):58-63 DOI:doi:10.13266/j.issn.0252-3116.2014.05.010

Hotspot Mining Based on LDA Model and Microblog Heat

基于LDA模型和微博热度的热点挖掘

Tang Xiaobo , Xiang Kun.

唐晓波, 向坤

摘　要：分析传统LDA模型在进行微博热点挖掘时所得概率结果抽象且难以结合实际解释的缺点；考虑到微博本身的数据特点和信息论中信息量的观点，提出微博热度的概念，并将其引入到LDA模型的热点挖掘研究中，构建基于微博热度的LDA模型；通过API采集微博数据上的实验，证明新方法与旧方法具有相同的性能，而且能得到更直观的微博热度表，并得出更具有说服力的挖掘结论。

2014

0.0

. 2014, :-

Hot Topic Extraction from Microblogs [D].

基于微博的热点话题发现[D]

Zhu Ying.

朱颖

随着网络信息技术的发展,互联网数据及资源大幅增加,并呈现出海量特性。为了有效地管理和利用这些海量分布的信息,基于内容的信息检索和数据挖掘近年逐渐成为倍受关注的领域。其中,基于语义的文本主题分析在近年来成为信息检索和文本挖掘的热点研究方向,其主要任务是根据文本中已知的“文档-单词”分布生成“文档-主题”和“主题-单词”两个分布,从而提取出文档中隐含的主题信息。主题分析模型在文本分类聚类、信息组织与管理、热点话题挖掘等领域都有着广泛的应用。近年来,随着Web2.0的兴起,社会网络,比如人人网、Facebook、Twitter、新浪微博等非常流行,逐渐成为人与人联系的重要方式。社交网络中80%以上的数据为自然语言文本,海量的用户产生数据(UGC),充斥着网络空间。为了使用户能更快捷,更方便地了解热门话题并参与到当前话题的讨论之中,对微博热点话题的挖据显得非常重要。但是因为社会网络中的文本有其自身的特点,传统的针对长文本的主题分析模型并不能取得很好的效果。社会网络中的文本有几个显著特点：高维性、稀疏性、不规范性、主题分布不均。换言之,微博中每分钟都会有大量的消息文本产生,这些消息文本很可能产生上万维的向量,这对于主题分析模型来说太耗时,导致效率低下；而对于长文本来说,它的关键词少,特征稀疏,很难抽取有效特征,更难以挖掘特征相互之间的关联性；用语不规范和流行语多,是网络文本的最大特点,也为这类主题挖掘带来了诸多难点；另外,发布的消息主题类型完全依赖于用户自己的兴趣,在微博中,绝大多数消息都是关于日常生活的,比如天气,心情等,因此仅仅根据单词出现的次数来判断其是否为热点话题相关的单词的做法不足可取。用传统的主题分析方法对微博中的文本进行热点话题挖掘,一方面识别不出热点话题相关的信息,会导致准确率较低：另一方面,文本太多,使得主题分析效率很低。近年来,有很多针对微博中热点话题挖掘进行的研究。鉴于微博中文本存在的特点及针对该文本进行热点话题挖掘所存在的问题,本文首先对,利用外部数据集进行了深入地探讨；另外,利用微博中自身属性也是一个研究方向,微博中的属性包括发布时间,标签,转发数和评论数等,这些属性对于热点话题挖掘非常有用, 本文探讨了如何对此加以利用,提高热点话题的预测准确率。本论文的贡献如下： 1)根据基于实体的相似性算法将每个用户所发布的相似消息合并为一个文档,增加文档信息；然后将多个外部数据集作为知识背景,用LDA (Latent Dirichlet Allocation)模型对数据集进行热点话题挖掘。 2)提出一个新的主题分析模型MA-LDA (Multi-Attribute Latent Dirichlet Allocation),这个模型将文本中单词的时间分布和标签结合到LDA模型之中。通过时间变量来判断当前分析的单词属于热点话题,还是一般话题；通过增加标签词汇的权重,使得实验结果中标签词汇排名更靠前,提高了结果的表达性。实验结果表明,本文提出的方法既提高了热点话题挖掘的准确率,也显著地提高了主题分析模型的效率。

... ET-LDA(Explicit Topic-LDA)模型是对MA-LDA模型^[11]的改进, 对日期变量给出更加严格的定义, 标签变量是可观测到的数据, 所以纳入模型中以灰色表示, 据此给出ET-LDA模型的贝叶斯网络图, 如图3所示: ...

... 公式(1)是在朱颖^[11]提出公式的基础上进行的修改, 其中 ...

... 根据朱颖^[11]的研究, 当S (w_i)值大于0 ...

2003

0.0

... 1 标准LDA模型LDA模型是一种典型的用于话题提取的概率潜语义模型, 由Blei等^[12]提出, 是一种具有文本主题表达能力的无指导学习模型, 如图1所示 ...

2010

0.0

2011

0.0

2010

0.0

2013

0.0

2015

0.0

... 1 实验数据集及预处理本文利用数据堂^[17,18]和新浪API提供的数据, 通过人工收集与整理, 得到新浪微博上粉丝数和影响力均较大的几家电商企业在2013年11月30日至2015年1月10日之间发布的微博作为实验数据集, 收集到的微博数据集共涵盖40多家电商企业, 共89 847条微博 ...

2015

0.0

1979

0.0

2009

0.0

... 确定最佳主题个数, 困惑度是从模型泛化能力衡量LDA模型对于文本的预测能力, 通常情况下, 困惑度越小, 说明模型的泛化能力越强, 模型的推广性也就越好^[20] ...