融合主题模型及多时间节点函数的用户兴趣预测研究

引用本文

桂思思, 陆伟, 黄诗豪, 周鹏程. .融合主题模型及多时间节点函数的用户兴趣预测研究[J]. 现代图书情报技术, 2015,31(9): 9-16
Gui Sisi, Lu Wei, Huang Shihao, Zhou Pengcheng. .User Interest Prediction Combing Topic Model and Multi-time Function. New Technology of Library and Information Service,2015,31(9): 9-16 复制到剪切板

Permissions

《现代图书情报技术》编辑部

融合主题模型及多时间节点函数的用户兴趣预测研究

桂思思¹, 陆伟^1,², 黄诗豪¹, 周鹏程¹

¹武汉大学信息管理学院武汉 430072

²武汉大学信息资源研究中心武汉 430072

作者贡献声明：桂思思: 提出研究命题, 设计实施方案, 数据分析处理, 论文起草与修订;陆伟: 设计研究方案, 论文最终版本修订;黄诗豪: Sogou数据集预处理, 使用主题模型生成用户兴趣;周鹏程: 在Sogou数据集上实现基于记忆的用户兴趣模型、基于遗忘曲线的用户兴趣度多阶段量化模型。

摘要

目的针对用户兴趣随时间推移不断变化的问题, 利用主题模型及时间节点函数预测用户兴趣。方法使用主题模型生成用户兴趣, 针对用户的所有兴趣, 分别利用多时间节点函数对每个兴趣的每次出现进行加权, 用以预测用户兴趣在下一个时间节点的分布情况。结果在Sogou搜索日志上, 与基于记忆的用户兴趣模型、基于遗忘曲线的用户兴趣度多阶段量化模型进行对比实验, 余弦相似度及KL(Kullback-Leibler)距离均表明本文方法能较准确地预测用户兴趣。【局限】仅在Sogou搜索日志上进行实验测试, 还需在其他数据集上进一步检验。结论充分考虑用户历史数据中每一个时间点可更准确地对用户兴趣进行预测。

关键词: 主题模型; 时间函数; 用户兴趣; 预测

中图分类号:TP393

User Interest Prediction Combing Topic Model and Multi-time Function

Gui Sisi¹, Lu Wei^1,², Huang Shihao¹, Zhou Pengcheng¹

¹ School of Information Management, Wuhan University, Wuhan 430072, China

² Center for the Studies of Information Resources, Wuhan University, Wuhan 430072, China

Abstract

[Objective] User interest is not static and it changes dynamically as time goes by, this paper proposes a user interest prediction model based on topic model and multi-time function.[Methods] Generate user interests by topic model, and calculate the weights of each user interest at every time point by applying multi-time function in order to predict user interest at next time point.[Results] Compared with memory-based user profile model and multi-step user profile model, cosine similarity and Kullback-Leibler divergence of the experimental results on search engine log data provided by Sogou Lab show that this model can predict user interests more effectively. [Limitations] The proposed method is only tested on search engine log data provided by Sogou Lab, and it need further examination on other data sets.[Conclusions] It is more effective to take every time point of user history data into consideration for user interest prediction.

Keyword: Topic model; Time function; User interest; Prediction

Show Figures

1 引言

用户兴趣建模是从能够体现用户兴趣偏好的信息(如浏览行为、浏览内容、知识背景等)中归纳出可计算的用户兴趣模型的过程^[1]。用户兴趣建模能为个性化信息服务提供可信赖的用户信息, 有效改善个性化信息服务的服务质量, 是个性化信息服务有效开展的基础与核心。

用户兴趣可根据用户行为进行预测, 例如协同过滤(Collaborative Filtering)利用用户自身或相似用户的历史行为预测用户兴趣。但是用户兴趣并非一成不变, 而是随着时间的推移不断变化。协同过滤模型更偏重用户间或资源间的相似性, 却忽略了用户兴趣随时间变化的过程。时间窗口模型和遗忘模型能够反映用户的兴趣变化^[2]。但是时间窗口模型不仅不能反映用户兴趣衰减, 还容易忽略窗口之外的数据; 遗忘模型虽能合理利用历史数据, 但只考虑了历史记录中的初始时间点、最近时间点数据。

本文认为用户的某类兴趣在某个时间点出现后, 会对当前时间点以及下一个时间节点的该类兴趣权重的计算产生影响, 因此预测用户兴趣时需考虑历史记录中每一个时间点的用户兴趣数据。在这个假设前提下, 本文提出一个新的用户兴趣预测模型, 该模型使用主题模型生成用户兴趣, 随后针对用户所有兴趣, 分别利用多时间节点函数对每个兴趣的每次出现进行加权, 用于预测下一个时间节点的用户兴趣分布情况。利用该模型在Sogou实验室发布的用户查询需求日志上进行实验, 结果表明本文提出的模型具有较好的预测效果, 优于其他模型。

2 相关研究

2.1 基于主题模型的用户兴趣表示

主题模型在用户兴趣表示上已有部分研究成果。Ahmed等^[3]认为用户兴趣是主题的集合, 用户检索时先确定主题, 再选用能表示该主题的查询词进行检索, 并在此基础上提出基于主题模型的用户模型构建框架。Veningston等^[4]在研究个性化检索问题时, 认为用户兴趣可以表示为用户u提交查询q时检索主题T的概率分布, 并认为主题模型是一个较好的实现工具。在研究基于用户兴趣的推荐系统时, Sakamoto等^[5]、Pennacchiotti等^[6]、Liu等^[7]及Mao等^[8]采用< 用户-项目-兴趣> 用户兴趣三层表示模型, 并将其与主题模型中的< 文档-词-主题> 相对应, 使用主题模型抽取用户兴趣。

与传统聚类方式相比, 主题模型有较好的聚类效果。Ding等^[9]从主题识别及主题演化两个维度将主题模型法与基于词共现、基于引文共现等传统聚类算法相比较, 综合比较后发现主题模型法在主题识别及主题演化方面优于其他两种聚类方法。

前人的研究成果表明主题模型可用于用户兴趣的表示、生成, 且在划分用户兴趣时, 优于一般聚类方法。

2.2 用户兴趣预测方法研究

用户兴趣预测可采用协同过滤的思想, 但是基于传统协同过滤的用户兴趣预测方法更偏重用户间或资源间的相似性, 容易忽略用户兴趣随时间动态变化的过程。为了准确地预测用户兴趣, 必须考虑时间因素的影响。Lee等^{[10, 11]}以移动电子商务推荐系统为例, 考虑用户购买时间、评论时间、商品上线时间、上述时间的时间差以及各种时间组合, 并证明考虑时间因素能有效提高推荐准确度。

基于协同过滤的个人兴趣预测改进法是利用时间因素, 描述用户兴趣动态变化的过程, 对协同过滤得到的用户兴趣结果集合进行加权排序。常见的方法有时间窗口法^{[12, 13]}、遗忘模型法以及混合模型法^{[14, 15]}。时间窗口法容易忽略时间窗口之外的历史数据, 这些窗口外的数据也可能反映出用户的一些常规需求, 不应随意剔除。Maloof等^[16]针对该问题, 专门探讨了历史数据的选择问题。遗忘模型法认为用户兴趣衰减与自然遗忘规律相似, 提出一个用于模拟用户兴趣遗忘规律的时间函数^{[17, 18]}。Chen等^[19]虽未在文中明确提出一个时间函数, 但采用遗忘模型法思想, 根据用户的评分时间在[0, 1]取值并分段赋值; 其他研究者常选用一个单调递减函数作为时间函数, 例如指数函数^{[20, 21, 22]}、逻辑函数^[23]、线性函数^[24]、幂函数^[25]、复合函数^[26]等。利用时间函数加权重主要有以下方式:

(1) Zhang等^[21]、于洪等^[25]利用项目初始评分时间点与最后一次评分时间点之间的时间差;

(2) Chen等^[19]、邢春晓等^[24]、Wu等^[26]利用项目初始评分时间点与整个时间段的最后时间点之间的时间差;

(3) Karahodza 等^[22]、Wang等^[23]在上述基础上还区分了不同用户对同一个项目评分的差异性, 利用某项目最后一次被评分时间点与该项目被某单个用户最后一次评分时间点之间的时间差。

不考虑协同过滤, 单纯利用时间因素描述用户兴趣变化过程的研究成果相对较少。例如, Liu等^[27]、Cheng等^[28]选用指数函数作为时间函数, 利用遗忘模型描述博客上用户兴趣演化过程。Rybak等^[29]选用线性函数作为时间函数, 描述一段时间内专家专长的变化情况。Wu等^[30]提出基于记忆的用户模型(Memory-based User Profile), 简记为Memory-UP, 该模型同时考虑了用户学习、遗忘的过程, 并以在线新闻网站用户日志中的点击数据为例, 对用户兴趣进行预测^[31]。于洪涛等^[32]提出基于遗忘曲线的用户兴趣度多阶段量化模型(简记为Multi-Step-UP), 该模型把整个时间段分成多个阶段, 认为每一个阶段都是一个新的遗忘过程, 并在腾讯微博数据上验证模型的预测效果。

由上述分析可知, 基于协同过滤法的用户兴趣预测在考虑时间因素时, 仅考虑了项目的初始评分时间点、最后评分时间点以及整个时间段的最后时间点, 忽略了项目初始评分时间点与整个时间段的最后时间点之间的其他时间点; 不考虑协同过滤的用户兴趣预测法研究成果较少。本文在上述研究成果的基础上, 利用遗忘模型思想, 提出一个多时间节点函数对兴趣的每次出现进行加权并预测, 并在用户日志中的查询数据集上与Memory-UP模型和Multi-Step-UP模型效果进行对比。

3 研究方法

本文使用主题模型生成用户兴趣, 针对用户所有兴趣, 分别利用多时间节点函数对每个兴趣的每次出现进行加权, 用于预测下一个时间节点的用户兴趣分布情况。

3.1 基于主题模型的用户兴趣模型构建

网络日志(Web Log)记载了用户访问某网站的完整记录, 包括大量用户行为以及用户IP、访问时间等数据, 这些数据可潜在反映用户兴趣。

为方便实验, 本文不区分单个用户的兴趣, 将全体用户的兴趣作为研究对象, 因此查询日志中的记录可简化为如下形式, 表示在time_i时, 用户向搜索引擎提交查询query_i。

$Log = < {time}_{1} : {query}_{1}, {time}_{2} : {query}_{2}, \cdot \cdot \cdot, {time}_{n} : {query}_{n} >$

本文认为用户向搜索引擎提交的查询词是用户兴趣的表现, 查询词构成的潜在主题集合Z是用户真正的兴趣, 该主题需要使用主题模型生成。主题模型是一种用来发现文档集合中隐含主题的统计模型, 常见的有PLSI^[33]与LDA^[34], 它认为文档集合中的每篇文档是由多个主题按照一定比例组合而成的, 且每个主题可以表示为词表中词的分布。

由于LDA相比LSI与PLSI而言, 具有较好的建模能力及相对较低的计算复杂度^[35], 因此使用LDA求得 $P (w | z)$ 。

3.2 基于多时间节点函数的兴趣预测

(1) 时间函数

由2.2节可知, 指数函数、逻辑函数、线性函数、幂函数、复合函数等均可作为时间函数, 但是以函数本身的变化趋势而言, 指数函数优于逻辑函数^[36], 所以本文的多时间节点函数如下:

$f_{{word}_{i}} (τ, Z_{j}) = e^{- λ_{Z_{j}} τ} τ = t_{n} - t_{n - 1}$ (1)

公式(1)表示属于主题Z_j的查询词word_i的时间函数, 它随 $τ$ 的增大而逐渐降低, 其取值范围为(0, 1]。 $τ$ 为时间差, 是 ${word}_{i}$ 第n次与第 $n - 1$ 次出现的时间差。 $λ$ 是遗忘因子, 表示用户对某主题失去兴趣的快慢程度, 在此处, $λ_{Z_{j}}$ 表示用户对主题Z_j失去兴趣的快慢程度: $λ_{Z_{j}}$ 越大, 函数图像变化得越快, 表示用户对主题 $Z_{j}$ 遗忘得越快, 即失去兴趣的速率越快; 否则反之。

(2) 遗忘因子

遗忘因子 $λ$ 对刻画用户兴趣度尤为关键。本文以全体用户为研究对象, 探讨整体用户的兴趣变化情况, 涉及资源范围领域广, 确定半衰期较为困难, 故在Zhang等^[21]提出的遗忘因子计算方法的基础上做出相应改进: 对于主题 $Z_{j}$ , 遗忘因子 $λ_{Z_{j}}$ 计算公式如下:

$λ_{Z_{j}} = a^{{(\frac{N_{Z_{j}}}{N})}^{\frac{1}{m}}} 0 < a < 1$ (2)

其中, $N_{Z_{j}}$ 表示用户在某个时间段内查询属于主题Z_j的查询词个数, N表示用户在该时间段内查询所有查询词的个数; a, m均为参数。 $λ_{Z_{j}}$ 是一个关于 $N_{Z_{j}}$ 的减函数, 当 $N_{Z_{j}}$ 增大时(用户对主题 $Z_{j}$ 查询次数增多), $λ_{Z_{j}}$ 减小, 因此时间函数变化较平缓(用户对其兴趣保持相对水平, 不会很快减弱)。为了保证通过时间函数计算后多数查询词权重不为0, 且分布相对散开, 在粗略尝试后, a, m初始取值如下: $a = 0.38$ , $m = 100$ 。

(3) 查询词权重计算

研究一段时间中某个时间点状态时, 需综合考虑该时间点之前的情况以及该时间点新增的情况。该思想在Rybak等^[29]以及Wu等^[30]的论文中采用过。

本文认为用户每向搜索引擎提交一次查询, 都会改变该查询词在当前时间点的权重。因此, 在考虑某个时间点查询词权重时, 需要综合考虑该时间点之前该查询词的权重, 以及该时间点因查询操作而新产生的权重。某个时间点的查询词权重计算公式如下:

$w_{{word}_{i}}^{(n)} = f_{{word}_{i}}^{(n)} (τ, Z_{j}) + g_{{word}_{i}}^{(n - 1)}$	(3)
$f_{{word}_{i}}^{(n)} (τ, Z_{j}) = e^{- λ_{Z_{j}} τ} τ = t_{n} - t_{n - 1}$	(4)
$g_{{word}_{i}}^{(n - 1)} = \{\begin{matrix} \frac{1}{n - 1} \sum_{k=1}^{n-1} w_{{word}_{i}}^{(k)} n \geq 2 \\ 0 n = 1 \end{matrix}$	(5)

$w_{{word}_{i}} 表示某个时间点查询词 {word}_{i}$ 的权重, $w_{{word}_{i}}^{(n)}$ 表示查询词 ${word}_{i}$ 第 $n$ 次查询时在该时间点的权重, $f_{{word}_{i}}^{(n)} (τ, Z_{j})$ 是因第n次查询操作而新产生的权重, $g_{{word}_{i}}^{(n - 1)}$ 是前 $n - 1$ 次查询操作对本查询词 ${word}_{i}$ 的累计权重。

当 ${word}_{i}$ 第一次出现时( $n = 1$ ), $w_{{word}_{i}}^{(1)}$ =1, 即认为在此时间点的权重为1; 当 ${word}_{i}$ 第二次出现时( $n = 2$ ), 相当于用户第二次查询该词, 此时权重应在第一次查询权重的基础上加上本次查询产生的新权重, 即:

$g_{{word}_{i}}^{(1)} = \frac{1}{2 - 1} \sum_{k=1}^{1} w_{{word}_{i}}^{(k)} = w_{{word}_{i}}^{(1)} = 1$

w_{{word}_{i}}^{(2)} = f_{{word}_{i}}^{(2)} (τ, Z_{j}) + 1 τ = t_{n} - t_{n - 1}

(4) 主题权重计算

本文认为文本主题可用加权树表示, 查询词为叶子节点, 主题为非叶子节点, 每一个主题(非叶子节点)可划分出多个查询词(叶子节点)。对于主题权重的计算方法可以借鉴专家专长研究^[29]的计算方法:

若主题 $Z_{j}$ 内共有m个查询词, 则兴趣主题 $Z_{j}$ 的得分为:

{Score}_{Z_{j}} = \sum_{i=1}^{m} w_{{word}_{i}}^{(n)}

(6)

即兴趣主题 $Z_{j}$ 的最终预测得分等于属于该主题的所有查询词的权重之和。为了保证评测的可比性, 主题 $Z_{j}$ 最终得分为依据所有主题的得分和归一化后的值, 即:

{Score}_{Z_{j}}^{Nor} = \frac{{Score}_{Z_{j}}}{\sum {Score}_{Z_{j}}}

(7)

4 实验以及结果分析

4.1 数据获取与预处理

为了验证本文模型预测的精准性, 从Sogou实验室^①(① http://www.sogou.com/labs/dl/q.html/.)获取2008年6月1日至2008年6月29日(无6月10日)共28天的搜索日志, 并从原始数据集非空记录中抽取“ 访问时间 \t用户ID \t [查询词]” 三项信息, 共计51 537 394条。

利用ICTCLAS^②(② http://ictclas.nlpir.org/).(2014年版)对Sogou日志中的用户查询词进行分词。为了保证分词质量, 笔者根据该工具的分词结果, 结合人工判断, 新增657个新词至用户词典。重新对Sogou日志中用户查询词进行分词。

4.2 构建主题模型

本实验利用主题模型工具MALLET(MAchine Learning for LanguagE Toolkit)^③(③ http://mallet.cs.umass.edu/.)生成主题模型。使用主题模型必须提前确定主题数, 虽然常使用困惑度(Perplexity)评判主题数的最佳取值^[37], 但是本实验的关注点在于划分出用户兴趣的类别, 而不在于兴趣类别划分的精确性, 因此不检验困惑度。主题数常设置为100^[37], 故实验中主题数设定为100。

实验中将Sogou分词后的文本作为输入文件, 利用MALLET自带的LDA算法构建主题模型, 最后的输出文件格式为: “ doc \t source \t pos \t typeindex \t type \t topic” , 即记录了每一个词的原始位置以及所属主题的编号。利用主题模型时, 可能出现同一个词属于不同主题。对于该问题, MALLET在生成主题模型时, 已经计算过同一个词属于不同主题的概率 $P (w | z)$ , 并在这个概率的基础上, 将相同的查询词划分到不同的主题中。

4.3 实验评价方式

实验原始数据总时长为28天: 取前21天数据作为训练数据(Training Data), 用以预测后7天(测试数据, Test Data)每一天的用户兴趣分布。

对于测试数据, 采用词频统计方法计算每一天用户兴趣的分布情况, 并将其作为真实用户兴趣分布: 统计属于某一个主题所有查询词的词频, 除以所有主题的查询词的词频, 进行归一化处理, 从而求得真实的用户兴趣分布情况。测试数据共有7天, 因此可计算主题分布相似性7次。

余弦相似度(Cosine Similarity)及KL距离(Kullback- Leibler Divergence)^[38]是用来计算两个主题分布相似度的常用方法^{[39, 40]}。本文同时使用这两种方法计算预测的兴趣分布与真实兴趣分布之间的相似度: KL距离的值恒不为负, 值越小, 表示两个分布越接近, 即预测的结果越准确; 余弦相似度取值范围为[0, 1], 值越大, 表示两个分布越接近, 即预测结果越准确。

为了体现本模型(Multi-Time-UP)的有效性, 选取Memory-UP、Multi-Step-UP进行对比, 并利用双尾T检验对不同模型的预测结果之间是否存在显著差异进行检验。

(1) Memory-UP^[30]: 该模型较好地模拟了用户学习、遗忘等过程, 利用用户日志中的点击数据预测用户兴趣;

(2) Multi-Step-UP^[32]: 该模型考虑时间因素, 把整个时间段分成多个阶段, 认为每一个阶段都是一个新的遗忘过程, 与本文思路有类似之处。相关参数取文献[32]中默认值。

4.4 实验结果与分析

Multi-Time-UP、Memory-UP、Multi-Step-UP三个模型预测的用户兴趣分布与真实用户兴趣分布的KL距离与余弦相似度如表1所示。其中, 组号为月和日组成的4位数字, 如0623表示6月23日。表2为三个模型KL距离差异的显著性检验结果。表3为三个模型余弦相似性差异的显著性检验结果。

表1 三个模型预测的用户兴趣分布与真实用户兴趣分布的KL距离与余弦相似度

表2 三个模型KL距离差异的显著性检验

表3 三个模型余弦相似性差异的显著性检验

根据表2和表3可知, 三个模型的实验结果均有显著差异(< 0.05)。由表1可知, 在三个模型中, Multi-Time-UP的KL距离(平均值为0.2174)普遍小于其他两个模型的结果, 余弦值相似性(平均值为0.8029)普遍大于其他两个模型的结果, 用户兴趣预测效果最优。

就KL距离的结果而言, Multi-Step-UP的KL距离(平均值为1.0483)普遍大于其他两个模型的结果, 用户兴趣预测效果最差; Memory-UP的预测效果居于Multi-Time-UP与Multi-UP之间。Multi-Time-UP预测的兴趣主题分布与真实兴趣分布的KL距离最低可达0.1400, KL距离最高值0.3417也比其他两个模型的KL最低值小。就余弦相似性的结果而言, Multi-Step-UP的预测效果次之(平均值为0.6277); Memory-UP预测效果相对而言不太理想(平均值为0.5731)。

总结来看, 以KL距离评估模型准确性, 预测准确性排序为: Multi-Time-UP、Memory-UP、Multi-Step-UP; 以余弦相似性评估模型准确性, 预测准确性排序为: Multi-Time-UP、Multi-Step-UP、Memory-UP。因此, 本文模型较其他模型具有更好的预测效果。

5 结语

用户兴趣随着时间推移不断改变, 本文提出一种新的用户兴趣动态预测模型, 该模型利用多时间节点函数充分考虑了用户历史数据中每一个时间点的历史数据。实验结果表明, 与基于记忆的用户兴趣模型、基于遗忘曲线的用户兴趣度多阶段量化模型相比, 本文模型能较准确地实现用户兴趣的动态预测, 说明预测用户兴趣时需考虑历史记录中每一个时间点的用户兴趣数据。然而本文研究也有一定的局限性: 研究对象为集体用户兴趣, 而非个体用户兴趣; 数据时间跨度较小。今后的研究方向包括: 将该方法应用于个体用户兴趣研究; 尝试将该方法应用于分析用户兴趣周期上的可行性; 尝试用户兴趣动态预测的相关应用, 结合实际问题探讨模型的适用性。

参考文献

View Option

[1]	冯子威. 用户兴趣建模的研究[D]. 哈尔滨: 哈尔滨工业大学, 2010. (Feng Ziwei. Research on User Interests Modeling [D]. Harbin: Harbin Institute of Technology, 2010. ) [本文引用:1]
[2]	杨杰, 陈恩红. 面向个性化服务的用户兴趣偏移检测及处理方法[J]. 电子技术, 2009(11): 72-76, 63. (Yang Jie, Chen Enhong. Personalized Service Oriented User Interest Shift Detection and Processing[J]. Electronic Technology, 2009(11): 72-76, 63. ) [本文引用:1]
[3]	Ahmed A, Low Y, Aly M, et al. Scalable Distributed Inference of Dynamic User Interests for Behavioral Targeting [C]. In: Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2011: 114-122. [本文引用:1]
[4]	Veningston K, Shanmugalakshmi R. Combining User Interested Topic and Document Topic for Personalized Information Retrieval [A]. //Big Data Analytics [M]. Springer International Publishing, 2014: 60-79. [本文引用:1]
[5]	Sakamoto S, Mikawa K, Goto M. A Study on Recommender System Based on Latent Class Model for High Dimensional and Sparse Data [C]. In: Proceedings of the 14th Asia Pacific Industrial Engineering and Management Society Conference, Cebu, Philippines. 2013. [本文引用:1]
[6]	Pennacchiotti M, Gurumurthy S. Investigating Topic Models for Social Media User Recommendation [C]. In: Proceedings of the 20th International Conference Companion on World Wide Web. ACM, 2011: 101-102. [本文引用:1]
[7]	Liu Q, Chen E H, Xiong H, et al. Enhancing Collaborative Filtering by User Interest Expansion via Personalized Ranking[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 2012, 42(1): 218-233. [本文引用:1]
[8]	Mao Q, Feng B, Pan S. Modeling User Interests Using Topic Model[J]. Journal of Theoretical and Applied Information Technology, 2013, 48(1): 600-606. [本文引用:1]
[9]	Ding W, Chen C. Dynamic Topic Detection and Tracking: A Comparison of HDP, C-word, and Cocitation Methods[J]. Journal of the Association for Information Science and Technology, 2014, 65(10): 2084-2097. [本文引用:1]
[10]	Lee T Q, Park Y, Park Y T. A Time-Based Approach to Effective Recommender Systems Using Implicit Feedback[J]. Expert Systems with Applications, 2008, 34(4): 3055-3062. [本文引用:1]
[11]	Lee T Q, Park Y, Park Y T. An Empirical Study on Effectiveness of Temporal Information as Implicit Ratings[J]. Expert Systems with Applications, 2009, 36(2): 1315-1321. [本文引用:1]
[12]	Widmer G, Kubat M. Learning in the Presence of Concept Drift and Hidden Contexts[J]. Machine Learning, 1996, 23(1): 69-101. [本文引用:1]
[13]	郝水龙, 吴共庆, 胡学钢. 基于层次向量空间模型的用户兴趣表示及更新[J]. 南京大学学报: 自然科学版, 2012, 48(2): 190-197. (Hao Shuilong, Wu Gongqing, Hu Xuegang. Presentation and Updation for User Profile Based on Hierarchical Vector Space Model[J]. Journal of Nanjing University: Natural Sciences, 2012, 48(2): 190-197. ) [本文引用:1]
[14]	宋丽哲, 牛振东, 余正涛, 等. 一种基于混合模型的用户兴趣漂移方法[J]. 计算机工程, 2006, 32(1): 4-6, 89. (Song Lizhe, Niu Zhendong, Yu Zhengtao. A Method of Drifting User’s Interests Based on Hybrid Model[J]. Computer Engineering, 2006, 32(1): 4-6, 89. ) [本文引用:1]
[15]	布红艳, 王国胤, 董振兴. 邮件系统中的兴趣漂移混合模型[J]. 计算机工程与设计, 2011, 32(12): 4026-4029. (Bu Hongyan, Wang Guoyin, Dong Zhenxing. Hybrid Interest Drifting Model of E-mail Systems[J]. Computer Engineering and Design, 2011, 32(12): 4026-4029. ) [本文引用:1]
[16]	Maloof M A, Michalski R S. Selecting Examples for Partial Memory Learning[J]. Machine Learning, 2000, 41(1): 27-52. [本文引用:1]
[17]	Koychev I. Gradual Forgetting for Adaptation to Concept Drift [C]. In: Proceedings of ECAI 2000 Workshop on Current Issues in Spatio-Temporal Reasoning, Berlin, Germany. 2000. [本文引用:1]
[18]	Koychev I, Schwab I. Adaptation to Drifting User’s Interests [C]. In: Proceedings of ECML2000 Workshop: Machine Learning in New Information Age. 2000: 39-46. [本文引用:1]
[19]	Chen Z, Jiang Y, Zhao Y. A Collaborative Filtering Recommendation Algorithm Based on User Interest Change and Trust Evaluation[J]. International Journal of Digital Content Technology and Its Applications, 2010, 4(9): 106-113. [本文引用:2]
[20]	Zheng N, Li Q. A Recommender System Based on Tag and Time Information for Social Tagging Systems[J]. Expert Systems with Applications, 2011, 38(4): 4575-4587. [本文引用:1]
[21]	Zhang Y, Liu Y. A Collaborative Filtering Algorithm Based on Time Period Partition [C]. In: Proceedings of the 3rd International Symposium on Intelligent Information Technology and Security Informatics, Jinggangshan, China. IEEE, 2010: 777-780. [本文引用:3]
[22]	Karahodza B, Supic H, Donko D. An Approach to Design of Time-Aware Recommender System Based on Changes in Group User’s Preferences [C]. In: Proceedings of the 2014 X International Symposium on Telecommunications. IEEE, 2014: 1-4. [本文引用:2]
[23]	Wang Q, Sun M, Xu C. An Improved User-Model-Based Collaborative Filtering Algorithm[J]. Journal of Information and Computational Science, 2011, 8(10): 1837-1846. [本文引用:2]
[24]	邢春晓, 高凤荣, 战思南, 等. 适应用户兴趣变化的协同过滤推荐算法[J]. 计算机研究与发展, 2007, 44(2): 296-301. (Xing Chunxiao, Gao Fengrong, Zhan Sinan, et al. A Collaborative Filtering Recommendation Algorithm Incorporated with User Interest Change[J]. Journal of Computer Research and Development, 2007, 44(2): 296-301. ) [本文引用:2]
[25]	于洪, 李转运. 基于遗忘曲线的协同过滤推荐算法[J]. 南京大学学报: 自然科学版, 2010, 46(5): 520-527. (Yu Hong, Li Zhuanyun. A Collaborative Filtering Recommendation Algorithm Based on Forgetting Curve[J]. Journal of Nanjing University: Natural Sciences, 2010, 46(5): 520-527. ) [本文引用:2]
[26]	Wu Y K, Wang Y, Tang Z H. A Collaborative Filtering Recommendation Algorithm Based on Interest Forgetting Curve[J]. International Journal of Advancements in Computing Technology, 2012, 4(10): 148-157. [本文引用:2]
[27]	Liu K, Chen W, Bu J, et al. User Modeling for Recommendation in Blogspace [C]. In: Proceedings of the 2007 IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology Workshops. IEEE, 2007: 79-82. [本文引用:1]
[28]	Cheng Y, Qiu G, Bu J, et al. Model Bloggers’ Interests Based on Forgetting Mechanism [C]. In: Proceedings of the 17th International Conference on World Wide Web. ACM, 2008: 1129-1130. [本文引用:1]
[29]	Rybak J, Balog K, Nørvåg K. Temporal Expertise Profiling [C]. In: Proceedings of the 36th European Conference on IR Research, Amsterdam, Netherland s. 2014: 540-546. [本文引用:3]
[30]	Wu D, Zhao D, Zhang X. An Adaptive User Profile Based on Memory Model [C]. In: Proceedings of the 9th International Conference on Web-Age Information Management. IEEE, 2008: 461-468. [本文引用:3]
[31]	Wang W, Zhao D, Luo H, et al. Mining User Interests in Web Logs of an Online News Service Based on Memory Model [C]. In: Proceedings of the 8th International Conference on Networking, Architecture and Storage. IEEE, 2013: 151-155. [本文引用:1]
[32]	于洪涛, 崔瑞飞, 董芹芹. 基于遗忘曲线的微博用户兴趣模型[J]. 计算机工程与设计, 2014, 35(10): 3367-3372, 3379. (Yu Hongtao, Cui Ruifei, Dong Qinqin. Micro-Blog User Interest Model Based on Forgetting Curve[J]. Computer Engineering and Design, 2014, 35(10): 3367-3372, 3379. ) [本文引用:2]
[33]	Hofmann T. Probabilistic Latent Semantic Indexing [C]. In: Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 1999: 50-57. [本文引用:1]
[34]	Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022. [本文引用:1]
[35]	崔凯. 基于LDA的主题演化研究与实现[D]. 长沙: 国防科学技术大学, 2010. (Cui Kai. The Research and Implementation of Topic Evolution on LDA [D]. Changsha: National University of Defense Technology, 2010. ) [本文引用:1]
[36]	Ding Y, Li X. Time Weight Collaborative Filtering [C]. In: Proceedings of the 14th ACM International Conference on Information and Knowledge Management. ACM, 2005: 485-492. [本文引用:1]
[37]	Cao J, Xia T, Li J, et al. A Density-Based Method for Adaptive LDA Model Selection[J]. Neurocomputing, 2009, 72(7-9): 1775-1781. [本文引用:2]
[38]	Kullback S, Leibler R A. On Information and Sufficiency[J]. The Annals of Mathematical Statistics, 1951, 22(1): 79-86. [本文引用:1]
[39]	Jeong D H, Song M. Time Gap Analysis by the Topic Model-Based Temporal Technique[J]. Journal of Informetrics, 2014, 8(3): 776-790. [本文引用:1]
[40]	Newman D, Asuncion A U, Smyth P, et al. Distributed Algorithms for Topic Models[J]. Journal of Machine Learning Research, 2009, 10: 1801-1828. [本文引用:1]

2010

0.0

. 2010, :-

Research on User Interests Modeling [D].

用户兴趣建模的研究[D]

Feng Ziwei.

冯子威

随着网络信息资源的快速增长，互联网已经成为人们不可或缺的信息来源。然而，相对于巨大、无序的互联网信息空间，每个用户真正需要的信息非常有限，仅仅是互联网信息空间的沧海一粟。海量的信息资源供给和有限的目标资源需求之间的矛盾，使得我们必须寻求一种能够快速、准确地从浩瀚的信息资源中找到所需信息的方法。正是在这样的需求驱动下，个性化服务技术得到了长足的发展，成为了当前信息服务领域的研究热点之一。　　用户兴趣建模是个性化服务技术的核心内容。用户模型能否准确地反映用户的兴趣决定了个性化服务系统所提供的服务质量的优劣。本文对... 展开随着网络信息资源的快速增长，互联网已经成为人们不可或缺的信息来源。然而，相对于巨大、无序的互联网信息空间，每个用户真正需要的信息非常有限，仅仅是互联网信息空间的沧海一粟。海量的信息资源供给和有限的目标资源需求之间的矛盾，使得我们必须寻求一种能够快速、准确地从浩瀚的信息资源中找到所需信息的方法。正是在这样的需求驱动下，个性化服务技术得到了长足的发展，成为了当前信息服务领域的研究热点之一。　　用户兴趣建模是个性化服务技术的核心内容。用户模型能否准确地反映用户的兴趣决定了个性化服务系统所提供的服务质量的优劣。本文对用户兴趣建模过程中涉及到的关键问题展开了研究，主要完成了以下四个方面的工作：　　（1）提出了三种不同的用户兴趣信息获取方案：面向搜狗文本分类数据的用户兴趣信息获取方案、基于伪相关反馈机制的用户兴趣信息获取方案、面向搜狗检索系统查询日志的用户兴趣信息获取方案。为研究工作提供了较丰富的实验数据。　　（2）提出了双层模型结构的用户兴趣模型表示方法，并针对该模型表示特点，提出了两个评价指标，制定了标准答案集合标注标准，构建了用户兴趣建模的评价体系。　　（3）实现了基于类别映射的用户兴趣建模DEMO系统，在该系统上展开了多组实验。通过实验结果对模型以及实验数据展开深入的分析。实验结果表明该模型能够比较好的完成用户兴趣建模任务。不同的构建方法获取的用户兴趣信息在该模型上取得的实验效果差异取决于实验数据的质量。　　（4）提出了基于记忆模型的用户兴趣建模方案，该建模方法能够在模型学习的同时完成模型的更新工作。最后将该建模方案与基于类别映射的用户兴趣建模方案进行了对比实验。实验结果表明，基于记忆模型的用户兴趣建模方案在性能上略优于基于类别映射的用户兴趣建模方案。收起

... 1 引言用户兴趣建模是从能够体现用户兴趣偏好的信息(如浏览行为、浏览内容、知识背景等)中归纳出可计算的用户兴趣模型的过程^[1] ...

2009

0.0

. 2009, (11):72-76, 63 DOI:doi:10.3969/j.issn.1000-0755.2009.11.029

Personalized Service Oriented User Interest Shift Detection and Processing

面向个性化服务的用户兴趣偏移检测及处理方法

Yang Jie, Chen Enhong

杨杰, 陈恩红

个性化服务系统的目标是根据不同用户的兴趣喜好为不同用户提供针对性服务,其核心是建立关于用户兴趣的描述,即用户兴趣建模.然而,现实生活中用户兴趣常常发生不可预测的变化,兴趣偏移问题一直困扰着建模技术,阻碍个性化服务系统性能的进一步提高.为了寻找切实可行的方法解决兴趣偏移问题,本文针对用户兴趣建模的兴趣偏移问题进行系统的研究,着重分析了兴趣偏移的检测方法和处理机制,对时间窗口、遗忘模型、长短期模型等隐式调整方法以及主要显式检测方法和技术进行了系统评述,并在此基础上提出了针对兴趣偏移问题的进一步研究方向.

... 时间窗口模型和遗忘模型能够反映用户的兴趣变化^[2] ...

2011

0.0

... Ahmed等^[3]认为用户兴趣是主题的集合, 用户检索时先确定主题, 再选用能表示该主题的查询词进行检索, 并在此基础上提出基于主题模型的用户模型构建框架 ...

2014

0.0

... Veningston等^[4]在研究个性化检索问题时, 认为用户兴趣可以表示为用户u提交查询q时检索主题T的概率分布, 并认为主题模型是一个较好的实现工具 ...

2013

0.0

... 在研究基于用户兴趣的推荐系统时, Sakamoto等^[5]、Pennacchiotti等^[6]、Liu等^[7]及Mao等^[8]采用#cod#x0003C ...

2011

0.0

... 在研究基于用户兴趣的推荐系统时, Sakamoto等^[5]、Pennacchiotti等^[6]、Liu等^[7]及Mao等^[8]采用#cod#x0003C ...

2012

0.0

... 在研究基于用户兴趣的推荐系统时, Sakamoto等^[5]、Pennacchiotti等^[6]、Liu等^[7]及Mao等^[8]采用#cod#x0003C ...

2013

0.0

... 在研究基于用户兴趣的推荐系统时, Sakamoto等^[5]、Pennacchiotti等^[6]、Liu等^[7]及Mao等^[8]采用#cod#x0003C ...

2014

0.0

... Ding等^[9]从主题识别及主题演化两个维度将主题模型法与基于词共现、基于引文共现等传统聚类算法相比较, 综合比较后发现主题模型法在主题识别及主题演化方面优于其他两种聚类方法 ...

2008

0.0

... Lee等^[10,11]以移动电子商务推荐系统为例, 考虑用户购买时间、评论时间、商品上线时间、上述时间的时间差以及各种时间组合, 并证明考虑时间因素能有效提高推荐准确度 ...

2009

0.0

1996

0.0

... 常见的方法有时间窗口法^[12,13]、遗忘模型法以及混合模型法^[14,15] ...

2012

0.0

. 2012, 48(2):190-197

Presentation and Updation for User Profile Based on Hierarchical Vector Space Model

基于层次向量空间模型的用户兴趣表示及更新

Hao Shuilong , Wu Gongqing , Hu Xuegang.

郝水龙, 吴共庆, 胡学钢

用户兴趣建模是个性化服务的基础与核心，而用户的兴趣会随着时间发生变化，这种用户兴趣漂移现象会导致系统预测用户兴趣的准确性下降．提出一种基于层次向量空间模型（VSM）的用户兴趣模型表示及更新处理机制，基于特征项形成兴趣主题，基于兴趣主题形成用户兴趣，由此建立层次型用户兴趣模型．采用基于用户浏览行为来计算用户对网页的兴趣度，快速估计网页兴趣度，以提高个性化系统的实用性，从而更好地满足用户个性化需求．实验结果表明，设计的用户模型表示及更新机制能有效提高个性化服务性能，准确率及召回率均有所提高．

... 常见的方法有时间窗口法^[12,13]、遗忘模型法以及混合模型法^[14,15] ...

2006

0.0

. 2006, 32(1):4-6,89 DOI:doi:10.3969/j.issn.1000-3428.2006.01.002

A Method of Drifting User#cod#x02019;s Interests Based on Hybrid Model

一种基于混合模型的用户兴趣漂移方法

Song Lizhe, Niu Zhendong, Yu Zhengtao

宋丽哲, 牛振东, 余正涛

针对个性化服务的系统中,如何将新发现的用户兴趣和原有兴趣合并为用户的新兴趣的问题,提出了一种基于概念相关性的用户兴趣漂移方法.采用混合模型,将用户兴趣分为长期兴趣和短期兴趣,对短期兴趣采用滑动窗口处理更新,对长期兴趣采用基于概念相关的渐进遗忘方法,实验表明,该方法不仅能够较为准确地跟踪用户的兴趣变化,而且能够预测用户的兴趣,具有较好的效率.

... 常见的方法有时间窗口法^[12,13]、遗忘模型法以及混合模型法^[14,15] ...

2011

0.0

. 2011, 32(12):4026-4029

Hybrid Interest Drifting Model of E-mail Systems

邮件系统中的兴趣漂移混合模型

Bu Hongyan , Wang Guoyin , Dong Zhenxing.

布红艳, 王国胤, 董振兴

针对如何在邮件系统中进行用户兴趣模型更新的问题,提出了一种兴趣漂移方法。根据用户长期兴趣和短期兴趣的不同特点,对短期兴趣模型采用时间窗口方法,对长期兴趣模型采用遗忘函数方法进行模型更新。实验结果表明,短期兴趣模型能很好地预测用户近期的兴趣,长期兴趣模型对较长时间段内用户兴趣的预测更稳定。采用混合模型能更好地描述用户兴趣。

... 常见的方法有时间窗口法^[12,13]、遗忘模型法以及混合模型法^[14,15] ...

2000

0.0

... Maloof等^[16]针对该问题, 专门探讨了历史数据的选择问题 ...

2000

0.0

... 遗忘模型法认为用户兴趣衰减与自然遗忘规律相似, 提出一个用于模拟用户兴趣遗忘规律的时间函数^[17,18] ...

2000

0.0

... 遗忘模型法认为用户兴趣衰减与自然遗忘规律相似, 提出一个用于模拟用户兴趣遗忘规律的时间函数^[17,18] ...

2010

0.0

... Chen等^[19]虽未在文中明确提出一个时间函数, 但采用遗忘模型法思想, 根据用户的评分时间在[0,1]取值并分段赋值 ...

... (2) Chen等^[19]、邢春晓等^[24]、Wu等^[26]利用项目初始评分时间点与整个时间段的最后时间点之间的时间差 ...

2011

0.0

... 其他研究者常选用一个单调递减函数作为时间函数, 例如指数函数^[20,21,22]、逻辑函数^[23]、线性函数^[24]、幂函数^[25]、复合函数^[26]等 ...

2010

0.0

... 其他研究者常选用一个单调递减函数作为时间函数, 例如指数函数^[20,21,22]、逻辑函数^[23]、线性函数^[24]、幂函数^[25]、复合函数^[26]等 ...

... (1) Zhang等^[21]、于洪等^[25]利用项目初始评分时间点与最后一次评分时间点之间的时间差 ...

... 本文以全体用户为研究对象, 探讨整体用户的兴趣变化情况, 涉及资源范围领域广, 确定半衰期较为困难, 故在Zhang等^[21]提出的遗忘因子计算方法的基础上做出相应改进: 对于主题 Zj, 遗忘因子 λZj计算公式如下: ...

2014

0.0

... 其他研究者常选用一个单调递减函数作为时间函数, 例如指数函数^[20,21,22]、逻辑函数^[23]、线性函数^[24]、幂函数^[25]、复合函数^[26]等 ...

... (3) Karahodza 等^[22]、Wang等^[23]在上述基础上还区分了不同用户对同一个项目评分的差异性, 利用某项目最后一次被评分时间点与该项目被某单个用户最后一次评分时间点之间的时间差 ...

2011

0.0

... 其他研究者常选用一个单调递减函数作为时间函数, 例如指数函数^[20,21,22]、逻辑函数^[23]、线性函数^[24]、幂函数^[25]、复合函数^[26]等 ...

2007

0.0

. 2007, 44(2):296-301 DOI:doi:10.1360/crad20070216

A Collaborative Filtering Recommendation Algorithm Incorporated with User Interest Change

适应用户兴趣变化的协同过滤推荐算法

Xing Chunxiao , Gao Fengrong , Zhan Sinan

邢春晓, 高凤荣, 战思南

Collaborative filtering is one of the most successful technologies for building recommender systems, and is extensively used in many personalized systems. However, existing collaborative filtering algorithms do not consider the change of user interests. For this reason, the systems may recommend unsatisfactory items when user's interest has changed. To solve this problem, two new data weighting methods: time-based data weight and item similarity-based data weight are proposed, to adaptively track the change of user interests. Based on the analysis, the advantages of both weighting methods are combined efficiently and applied to the recommendation generation process. Experimental results show that the proposed algorithm outperforms the traditional item-based collaborative filtering algorithm.

协同过滤算法是至今为止最成功的个性化推荐技术之一，被应用到很多领域中.但传统协同过滤算法不能及时反映用户的兴趣变化.针对这个问题，提出两种改进度量：基于时间的数据权重和基于资源相似度的数据权重，在此基础上将它们有机结合，并将这两种权重引入基于资源的协同过滤算法的生成推荐过程中.实验表明，改进后的算法比传统协同过滤算法在推荐准确度上有明显提高.

... 其他研究者常选用一个单调递减函数作为时间函数, 例如指数函数^[20,21,22]、逻辑函数^[23]、线性函数^[24]、幂函数^[25]、复合函数^[26]等 ...

... (2) Chen等^[19]、邢春晓等^[24]、Wu等^[26]利用项目初始评分时间点与整个时间段的最后时间点之间的时间差 ...

2010

0.0

. 2010, 46(5):520-527

A Collaborative Filtering Recommendation Algorithm Based on Forgetting Curve

基于遗忘曲线的协同过滤推荐算法

Yu Hong , Li Zhuanyun.

于洪, 李转运

协同过滤是成功的个性化推荐技术之一.但传统协同过滤算法由于不能及时反映用户的兴趣变化,影响了推荐质量.针对这个问题,本文借鉴心理学上艾宾浩斯遗忠曲线来跟踪和学习用户的兴趣,展开了协同过滤推荐算法的研究.通过数学分析工具发现了与遗忠曲线拟合度较高的幂函数曲线,并把用户的兴趣分为短期兴趣和长期兴趣,提出了基于时间窗口的权重函数,以此解决跟踪和学习用户兴趣的难题.结合项目的评分相似性和属性相似性来定义项目相似度数据权重函数.将基于时间窗的数据权重与基于项目相似度的数据权重相结合来反应用户对项目的兴趣度.最后,在项日近邻模型的基础上设计了跟踪用户兴趣变化的基于遗忘曲线的协同过滤推荐算法.通过大量的实验工作确定了相关公式中系数的取值;对比实验结果表明新的协同过滤推荐算法在推荐的准确性方面有显著的提高.

... 其他研究者常选用一个单调递减函数作为时间函数, 例如指数函数^[20,21,22]、逻辑函数^[23]、线性函数^[24]、幂函数^[25]、复合函数^[26]等 ...

... (1) Zhang等^[21]、于洪等^[25]利用项目初始评分时间点与最后一次评分时间点之间的时间差 ...

2012

0.0

... 其他研究者常选用一个单调递减函数作为时间函数, 例如指数函数^[20,21,22]、逻辑函数^[23]、线性函数^[24]、幂函数^[25]、复合函数^[26]等 ...

... (2) Chen等^[19]、邢春晓等^[24]、Wu等^[26]利用项目初始评分时间点与整个时间段的最后时间点之间的时间差 ...

2007

0.0

... 例如, Liu等^[27]、Cheng等^[28]选用指数函数作为时间函数, 利用遗忘模型描述博客上用户兴趣演化过程 ...

2008

0.0

... 例如, Liu等^[27]、Cheng等^[28]选用指数函数作为时间函数, 利用遗忘模型描述博客上用户兴趣演化过程 ...

2014

0.0

... Rybak等^[29]选用线性函数作为时间函数, 描述一段时间内专家专长的变化情况 ...

... 该思想在Rybak等^[29]以及Wu等^[30]的论文中采用过 ...

... 对于主题权重的计算方法可以借鉴专家专长研究^[29]的计算方法: ...

2008

0.0

... Wu等^[30]提出基于记忆的用户模型(Memory-based User Profile), 简记为Memory-UP, 该模型同时考虑了用户学习、遗忘的过程, 并以在线新闻网站用户日志中的点击数据为例, 对用户兴趣进行预测^[31] ...

... 该思想在Rybak等^[29]以及Wu等^[30]的论文中采用过 ...

... (1) Memory-UP^[30]: 该模型较好地模拟了用户学习、遗忘等过程, 利用用户日志中的点击数据预测用户兴趣 ...

2013

0.0

2014

0.0

. 2014, 35(10):3367-3372, 3379 DOI:doi:10.3969/j.issn.1000-7024.2014.10.006

Micro-Blog User Interest Model Based on Forgetting Curve

基于遗忘曲线的微博用户兴趣模型

Yu Hongtao , Cui Ruifei , Dong Qinqin.

于洪涛, 崔瑞飞, 董芹芹

为解决微博用户兴趣漂移问题, 以人类记忆学中遗忘曲线为基础,提出一种微博用户兴趣模型,利用用户历史信息预测当前兴趣。在预测过程中,用户关注某信息的时间距离当前时间越远,该信息越容易被遗忘,其对用户当前兴趣的影响越小;用户关注某一领域的信息越多,印象越深刻,对该领域的兴趣度越高。这两点与人类对知识逐渐遗忘和重复学习的过程具有高度相似性,因此该模型预测准确性更高。实验结果表明,该模型能较好地预测微博用户兴趣,召回率可达85.3%,实用性较强。

... 于洪涛等^[32]提出基于遗忘曲线的用户兴趣度多阶段量化模型(简记为Multi-Step-UP), 该模型把整个时间段分成多个阶段, 认为每一个阶段都是一个新的遗忘过程, 并在腾讯微博数据上验证模型的预测效果 ...

... (2) Multi-Step-UP^[32]: 该模型考虑时间因素, 把整个时间段分成多个阶段, 认为每一个阶段都是一个新的遗忘过程, 与本文思路有类似之处 ...

1999

0.0

... 主题模型是一种用来发现文档集合中隐含主题的统计模型, 常见的有PLSI^[33]与LDA^[34], 它认为文档集合中的每篇文档是由多个主题按照一定比例组合而成的, 且每个主题可以表示为词表中词的分布 ...

2003

0.0

2010

0.0

. 2010, :- DOI:doi:10.7666/d.y1795983

The Research and Implementation of Topic Evolution on LDA [D].

基于LDA的主题演化研究与实现[D]

Cui Kai.

崔凯

随着互联网的迅猛发展,网络成为越来越多的民众表达想法和观点的平台,网络舆论对社会舆论的导向作用日益强大。及时掌握网络热点主题的变化趋势成为网络舆情监测的重要内容。为了通过海量的网络文本数据及时的掌握舆情的态势变化,需要进行主题的检测、跟踪和预测。主题演化分析是解决该类问题的关键技术之一。　　本文在研究主题检测与追踪和文本挖掘的基础上,对基于文本流的在线主题演化模型进行了深入的研究,着重探讨如何从海量文本中发现主题并进行演化分析。旨在提供一种辅助用户对海量文本进行主题演化分析的方法,以便及时发现新主题,追踪... 展开随着互联网的迅猛发展,网络成为越来越多的民众表达想法和观点的平台,网络舆论对社会舆论的导向作用日益强大。及时掌握网络热点主题的变化趋势成为网络舆情监测的重要内容。为了通过海量的网络文本数据及时的掌握舆情的态势变化,需要进行主题的检测、跟踪和预测。主题演化分析是解决该类问题的关键技术之一。　　本文在研究主题检测与追踪和文本挖掘的基础上,对基于文本流的在线主题演化模型进行了深入的研究,着重探讨如何从海量文本中发现主题并进行演化分析。旨在提供一种辅助用户对海量文本进行主题演化分析的方法,以便及时发现新主题,追踪已有主题的演化趋势,掌握社会各方面的舆情动态。本文主要研究内容包括以下四个方面: 　　 (1)对现有主题检测与追踪、文本挖掘技术进行研究,结合微博、论坛等网络交互式文本的特点,分析了传统方法在处理该类文本的可用性和不足。对主题演化的概念和模型进行了研究,选择产生式文档模型中的概率主题模型(probabilistic topic mode)进行建模分析。　　 (2)基于对主题演化模型深入分析的基础上,将LDA(Latent DirichletAllocation)模型扩展到在线文本流上建立了在线主题演化挖掘模型,将文档按时间片进行划分,用LDA模型来推理出其隐含的主题变量,利用增量Gibbs算法进行参数估计,获取连续的文档-主题和主题-词的概率分布。通过KL(Kullback Leibler)相对熵来衡量主题之间的相似度,识别出“主题遗传”和“主题变异”。　　 (3)根据用户进行文档分析和主题抽取的过程,对在线LDA模型加入监督过程,提出了交互式主题挖掘的三种层次的交互策略,通过改变每次迭代后的主题-词概率分布集成交互式信息,利用词的信息熵改进主题的展示效果,并对结果进行详细对比分析。　　 (4)利用上述研究成果,基于开源平台UIMA(Unstructured InformationManagement Architecture),设计并实现了面向网络舆情态势分析的在线主题演化挖掘模型,并集成到YHPods原型系统中,基于实际数据进一步验证了上述研究工作的有效性。收起

... 由于LDA相比LSI与PLSI而言, 具有较好的建模能力及相对较低的计算复杂度^[35], 因此使用LDA求得 P(w|z) ...

2005

0.0

... 2节可知, 指数函数、逻辑函数、线性函数、幂函数、复合函数等均可作为时间函数, 但是以函数本身的变化趋势而言, 指数函数优于逻辑函数^[36], 所以本文的多时间节点函数如下: ...

2009

0.0

... 使用主题模型必须提前确定主题数, 虽然常使用困惑度(Perplexity)评判主题数的最佳取值^[37], 但是本实验的关注点在于划分出用户兴趣的类别, 而不在于兴趣类别划分的精确性, 因此不检验困惑度 ...

... 主题数常设置为100^[37], 故实验中主题数设定为100 ...

1951

0.0

... 余弦相似度(Cosine Similarity)及KL距离(Kullback- Leibler Divergence)^[38]是用来计算两个主题分布相似度的常用方法^[39,40] ...

2014

0.0

... 余弦相似度(Cosine Similarity)及KL距离(Kullback- Leibler Divergence)^[38]是用来计算两个主题分布相似度的常用方法^[39,40] ...

2009

0.0

... 余弦相似度(Cosine Similarity)及KL距离(Kullback- Leibler Divergence)^[38]是用来计算两个主题分布相似度的常用方法^[39,40] ...