基于条件型游走的四部图推荐方法

张怡文¹^,, 张臣坤¹, 杨安桔¹, 计成睿¹, 岳丽华²

¹安徽新华学院信息工程学院合肥 230088

²中国科学技术大学计算机学院合肥 230026

Zhang Yiwen¹^,, Zhang Chenkun¹, Yang Anju¹, Ji Chengrui¹, Yue Lihua²

¹Institute of Information Engineering, Anhui Xinhua University, Hefei 230088, China

²School of Computer, University of Science and Technology of China, Hefei 230026, China

通讯作者: 张怡文, ORCID: 0000-0003-1489-2487, E-mail: yiwenzh@ustc.edu.cn。

基金资助: *本文系安徽省高校优秀青年人才支持计划重点项目(项目编号: gxyqZD2018087)、安徽省质量工程项目“精品资源共享课程”(项目编号: 2015gxk081)和安徽新华学院校级团队项目“基于用户兴趣的二部图随机游走推荐方法研究”(项目编号: 2016td020)的研究成果之一;

中图分类号: TP391 G35

摘要:

【目的】通过挖掘用户与项目、用户与类别的关系特征, 提取用户偏好, 优化个性化推荐效果。【方法】提取用户对项目的评分和项目的度属性, 挖掘用户偏好, 提出用户-项目二部图上的游走条件; 通过用户-项目-类别三部图映射到用户-类别二部图, 构建类别-用户-项目-类别四部图; 建立通过项目和类别共同挖掘用户偏好的个性化推荐方法。【结果】利用MovieLens电影评分数据, 分别对基于二部图、加权二部图、三部图的方法与本文方法进行对比实验, 结果表明, 本文方法在准确率、MAE、召回率、覆盖率方面分别有所优化。【局限】MovieLens数据集缺少用户对电影评论性的文字数据集, 不能通过语义分析用户偏好。【结论】本文对用户评分和项目度属性进行用户偏好分析, 通过条件型游走四部图推荐方法, 优化推荐效果。

关键词: 推荐系统 ; 四部图 ; 条件游走 ; 个性化推荐

Abstract:

[Objective] By mining the relation characteristics between users and items, or between users and categories, this Paper extracts user preferences to optimize recommendation effect. [Methods] This paper extracts user rating and items degree attribute, mines user preferences, and puts forward the walk condition of User-Item bipartite graph; The category-User-Project-Category quadripartite graph is established by mapping User-Item-Category tripartite graph to the User-Category bipartite graph. The personalized recommendation method for user preferences through items and categories is proposed. [Results] Choosing MovieLens ratings data set as the source data, respectively comparing the experimental difference based on bipartite graph, weighted bipartite graph, tripartite graph and quadripartite graph, the results show that the Precision rate, MAE, recall rate, and coverage have been respectively optimized with this proposed method. [Limitations] Due to Movielens lack of critical textual data of users for movies, it is hard to analyze user preferences through the semantic. [Conclusions] This research analyzed user preferences through user ratings and degree attribute, it can be determined that the recommendation effect of quadripartite graph based on conditional walk is great.

Key words: Recommendation System ; Quadripartite Graph ; Conditional Walk ; Personalized Recommendation

1 引言

随着信息的海量增长, 如何快速准确地发现用户兴趣并向用户推荐感兴趣的信息, 是目前需要解决的重要问题。推荐系统由于可以发掘用户兴趣、主动为用户推荐感兴趣的内容^[1], 因此受到越来越多的重视, 在社交网络、电子商务、娱乐平台、新闻推送等领域得到越来越多的应用。

推荐算法是推荐技术的核心, 主要包括^[2]: 基于内容的推荐、协同过滤推荐和混合推荐方法。基于内容的推荐方法^[3]不受冷启动影响, 能够通过学习用户和项目的特征, 对新用户进行项目推荐。但由于用户特征和项目特征有限, 基于内容的推荐方法推荐准确率较低。协同过滤推荐方法^[4]基于用户历史信息, 对用户历史行为进行分析, 寻找最相似用户, 将相似用户产生购买或点击行为的物品推荐给目标用户。协同过滤推荐方法是目前推荐系统中采用的主要推荐方法, 但经常遭遇如冷启动、数据过于稀疏等问题。鉴于两种推荐方法存在的问题, 有学者将两种方法混合并进行推荐, 把基于内容的推荐方法中对特征的学习融入到协同过滤的算法框架中, 以提高预测质量^[5]。

近年, 基于图模型的方法在推荐领域中取得了较好的科研成果, 得到广泛应用。图推荐算法的研究主要采用随机游走方法, 在图算法中应用资源分配和热传导理论, 解决数据稀疏和冷启动等问题。图推荐算法主要集中在用户-项目二部图推荐方法, 后来有学者提出用户-项目-资源三部图的推荐方法, 进一步提高推荐质量。本文提出一种类别-用户-项目-类别四部图推荐算法, 该算法在选择项目所属类别为资源的用户-项目-类别三部图的基础上, 将用户与类别之间的关系特征进行映射, 进一步挖掘用户兴趣; 同时在用户-项目之间的游走采用条件型游走方式, 即定义相似用户条件, 根据条件进行有目的的游走。为用户推荐最符合其兴趣的项目, 以提高推荐质量。

2 相关研究

2.1 基于二部图的推荐算法

基于二部图的推荐方法中, 随机游走算法应用较广。文献[6]中建立用户-项目二部图随机游走方法(Bipartite Graph Projection and Ranking, BGPR), 并根据用户与关联项目的情况, 在项目间随机游走、排序并进行推荐, 解决了数据稀疏和冷启动的问题; 但该算法中用户与项目之间的边为对称边, 不能体现用户兴趣。文献[7]利用资源分配原理, 对用户关联的项目个数和项目被用户关联的个数进行权重的二次分配, 建立体现用户和项目特征的不对称用户-项目二部图, 提高推荐的准确性; 但这种方法也仅仅考虑到了用户和项目的关联关系, 没有考虑到其他信息。文献[8]将用户对项目的评分信息加入到二部图中, 建立更加体现用户兴趣的不对称用户-项目二部图随机游走方法(Bipartite Graph Projection and Ranking based on User Interest, IN-BGPR), 进一步提高算法的准确性。文献[9]在二部图中加入对用户行为的分析, 通过用户行为的分析, 产生相似用户的条件, 根据条件进一步改进用户-项目二部图推荐算法, 在提高推荐结果准确性的同时提高了算法效率。

2.2 基于三部图的推荐算法

在二部图推荐算法中有大量用户、项目以外的信息没有得到充分分析, 有学者^[10,11]提出建立用户-项目-标签三部图推荐算法(Tripartite Graph Projection and Ranking, TGPR), 利用物质扩散过程计算相似用户, 再根据相似用户进行项目推荐, 在电影推荐和社交网络好友推荐中得到应用。但由于用户信息、标签等信息过于稀疏, 该算法存在大量缺失信息。文献[12]利用张量分解的模型表示信息, 不仅表示三部图的信息, 还可以表示三部图中丢失元素的信息, 该方法改善了推荐结果的召回率和准确率。文献[13]利用标签进行主题分布计算, 通过主题分布细化的用户分类, 可以更精确地计算用户间相似度, 提高推荐结果的相似度。文献[14]通过引入标签和资源的热门惩罚机制, 对用户-标签-资源三元关系的初始张量进行重新定义, 该方法在社交网络环境下可以有效提高推荐的准确性。

以上方法通过物质扩散或加入标签信息优化图推荐方法, 推荐结果有一定程度上的改善。但目前的图推荐方法主要分析用户与项目、项目与类别之间的关系, 缺少用户之间、用户与类别之间关系的深层分析。针对以上问题, 本文提出一种结合条件型游走的四部图推荐方法:

(1) 构建两个二部图, 第一部分为用户-项目二部图, 在这-部分放弃传统的二部图随机游走方法, 定义用户-项目二部图上的游走条件, 提出基于条件型游走的用户间推荐度计算方法; 第二部分为项目-类别二部图, 在这一部分采用随机游走的方法;

(2) 通过用户-项目-类别三部图映射用户-类别二部图, 进一步提出类别-用户-项目-类别四部图的个性化项推荐算法。在MovieLens数据集上通过平均准确率、平均绝对偏差、平均召回率、平均覆盖率这4种指标对该方法进行验证, 实验结果表明, 基于条件型游走的四部图推荐方法改善了推荐结果。

3 基于条件型游走的四部图推荐方法

3.1 三部图随机游走方法

传统的三部图主要选择用户与评分项目, 以及评分项目与类别的关系, 建立用户-项目-类别三部图$D(U,I,G,{{E}_{1}},{{E}_{2}})$, 其中, $U=({{u}_{1}},{{u}_{2}},{{u}_{3}}\text{,}\cdot \cdot \cdot ,{{u}_{m}})$表示用户节点, $I=\left\{ {{i}_{1}},{{i}_{2}},{{i}_{3}},\cdot \cdot \cdot ,{{i}_{n}} \right\}$表示项目节点, $G=\{{{g}_{1}},{{g}_{2}},{{g}_{3}},\cdot \cdot \cdot ,{{g}_{r}}\}$是项目类别节点, E₁表示用户节点到项目节点的边集合, E₂表示项目节点到项目类别节点的边集合。采用随机游走的方式在三部图上进行游走, 三部图及游走方式如图1所示。

图1 用户-项目-类别三部图

图1中, 将三部图划分为用户-项目二部图S₁、项目-类别二部图S₂。S₁中用户集U_i以概率P_i随机游走到项目I_i, 在S₂中再随机游走到G_i; 将G_i包含的I_i进行排序, 推荐给目标用户集U_i。在S₁、S₂的部分仅考虑用户与项目之间的选择关系、项目与类别之间的隶属关系, 没考虑到用户对项目的评分、项目的度关联关系, 也忽略了用户和类别之间的关联关系。在用户-项目边上加入评分信息作为权重, 如图2所示。由于用户对项目评分的高低不同、项目评分对用户之间的关系影响、项目自身的度、类别的度等都体现了不同的用户兴趣和偏好。

图2 加权用户-项目-类别三部图

因此, 本文在用户-项目的二部图S₁中加入游走条件, 使用户对项目的游走不再是随机的, 而是根据假设条件进行有目的游走; 通过项目-类别二部图S₂从项目随机游走到类别; 再通过用户-项目二部图S₁和项目-类别二部图S₂, 建立用户-类别二部图S₃, S₃通过类别体现用户兴趣。最后, 结合用户-项目关系、项目-类别关系以及用户-类别的关系建立类别-用户-项目-类别四部图并进行项目推荐。

3.2 基于条件游走策略

基于图模型的随机游走是一种无规则的任意游走方式, 用户训练出最佳重启动概率后随机选择下一步要游走的项目。由于每一次游走重启动概率相同, 游走在固定尺度上具有相同的结构, 每次游走的方向也是任意的。在用户-项目间的二部图上游走时采用一种条件型游走策略^[15], 即满足某种条件才向某一方向运动, 每一步的游走不是随机的, 而是确定和唯一的。这种游走方式目标更明确, 游走效率更高。游走条件的原理体现的是用户兴趣和项目的影响力。本文定义的游走条件有两个:

(1) 项目的度越小, 越能体现对应用户的兴趣偏好;

(2) 高评分的项目更能体现用户兴趣。

在用户-项目二部图部分根据以上两个条件进行游走。

如图1的S₁部分所示, 假设目标用户集U_i的已评分项目集为$I=\left\{ {{i}_{1}},{{i}_{2}},{{i}_{3}},\cdot \cdot \cdot ,{{i}_{n}} \right\}$,根据条件1和条件2, 计算下一目标游走概率P_i如公式(1)所示。

${{P}_{i}}=\frac{{{C}_{i}}}{{{D}_{i}}},i\in N$ (1)

其中, C_i为目标用户对项目i的评分, D_i为项目I_i的度, P_i为游走概率, 即为优先策略选择依据, P_i的值越大, 被下一步游走选择的概率越大。

按照P_i的值由大到小对集合I中所有项目进行排序, 值最大的P_i为下一步游走的目标项目。若出现两个项目的P_i值相同, 则以度优先规则, 游走到D_i值最大的项目; 若D_i值也相同, 则认为两个项目条件相同, 随机游走到任意项目。

如图2的S₁部分所示, 若选择U₁用户为目标用户, U₁的已评分项目集为$\left\{ {{I}_{1}}\mathrm{,}{{I}_{2}}\mathrm{,}{{I}_{3}} \right\}$, 根据公式(1)计算${{I}_{1}}\mathrm{,}{{I}_{2}}\mathrm{,}{{I}_{3}}$的P_i分别为: P₁=3/1, P₂=4/3, P₃=1/3。P₁值最大, 则下一次U₁用户游走的项目为I₁。

3.3 基于条件游走的四部图推荐方法

建立基于条件游走的四部图推荐方法(Quadripartite Graph Based on Conditional Walk, CWQG), 如图2所示, S₁部分计算P_i, 训练游走次数, 游走结束后, 产生项目集${I}'=\left\{ {{{{I}'}}_{1}},{{{{I}'}}_{2}},{{{{I}'}}_{3}}\cdot \cdot \cdot ,{{{{I}'}}_{n}} \right\}$, ${I}'$∈$I${Invalid MML},, 是在用户产生行为的集合中根据条件随机游走产生的项目集。为更好地计算用户兴趣, 根据图2和游走项目集${I}'$计算目标用户集U_i与类别的关系, 建立用户-类别二部图S₃。

从目标用户集U_i出发, 到G_i有连通边记为1, 无连通边记为0, 同时将三部图重新映射为用户-类别二部图S₃, 如图3所示。

图3 用户-类别二部图

图3为对称二部图, 结合图2更新图3中边权重, 用户经过项目${I}'$到类别的度W(g)计算方法如公式(2)所示。

$\mathrm{W(}g\mathrm{)}=\mathop{\sum }^{}{{e}_{ig}}$ (2)

e_ig的取值如公式(3)所示。

${{e}_{ig}}=\left\{ \begin{align} & 1,\ \ \ ig\in {{E}_{2}} \\ & 0,\ \ \ ig\notin {{E}_{2}} \\ \end{align} \right.$ (3)

其中, 从目标用户集U_i到项目集${{{I}'}_{i}}$再到类别集G_i节点存在连通的边, e_ig为1; 反之, e_ig为0。

根据图2和图3更新后的加权用户-类别二部图如图4所示。结合图2和图4, 建立基于条件游走的四部图, 如图5所示。

图4 加权用户-类别二部图

图5 条件型类别-用户-项目-类别四部图

对目标用户集U_i到类别G_i的W(g)进行排序, 取Top-N类别为用户最感兴趣的类别集合Gin。根据Gin集合, 在S₂中产生目标用户候选项目集I₀。

由于各类别包含的候选项目个数不同, 类别的度越大, 说明包括用户感兴趣的项目数量较多。所以依据推荐步长和类别包含的项目数量比例, 产生最终推荐项目集${{I}_{f}}$的方法如公式(4)所示。

${{I}_{f}}=\frac{W({{G}_{i}})}{\mathop{\sum }_{1}^{N}W({{G}_{i}})},N\in Top-N$ (4)

其中, W(G_i)为目标用户映射的每一类别的度。

目标用户对推荐项目的预测评分如公式(5)所示。

${{P}_{u,j}}=\overline{{{R}_{u}}}+\frac{\sum\nolimits_{j=1}^{n}{sim(i,j)\cdot ({{R}_{u,j}}-\overline{{{R}_{u}}})}}{\sum\nolimits_{j=1}^{n}{\left| sim(i,j) \right|}}$ (5)

其中, $\overline{{{R}_{u}}}$为用户u所有评分的平均值, n为前n个最近邻。当R_u_,_j = 0时, 令${{R}_{u,j}}-\overline{{{R}_{u}}}$= 0。$sim(i,j)$为i和j项目的相似度, 计算步骤如下:

(1) 在S₁中计算项目之间的相似度, 如公式(6)所示。

${{\sigma }_{ij}}=\frac{1}{deg(j)}\sum\nolimits_{\text{u}\in \text{U}}{\frac{{{r}_{ui}}{{r}_{uj}}}{deg(u)}}$ (6)

其中, $deg(j)$表示项目j的度即项目j的连边个数, r_ui表示用户u对项目i的评分, U表示项目i与项目j的共同用户集合, $deg(u)$表示用户u的度即用户u的连边数。

(2) 在S₂中计算项目之间的相似度, 如公式(7)所示。

${{\rho }_{ij}}=\sum\nolimits_{u\in U}{\frac{{{r}_{ui}}{{r}_{uj}}}{deg(j)deg(u)}}$ (7)

其中, $deg(j)$表示项目j所有连边的边权之和(边权即评分), $deg(u)$表示用户u的所有边权之和, r_ui表示用户u对项目i的评分。

(3) 用参数λ调整i、j项目的相似度, 调整方法如公式(8)所示。

$Sim(i,j)=\lambda \ {{\rho }_{ij}}+(1-\lambda ){{\sigma }_{ij}}$ (8)

经过以上分析, 基于条件游走的四部图推荐方法描述如下:

输入: 用户集合U, 项目集合I, 项目类别集合G, 边集合E₁和E₂;

输出: 目标用户u游走到项目j的概率排序。

①构建用户-项目-类别三部图$G(U,I,G\text{,}{{E}_{1}},{{E}_{2}})$。

②在用户-项目-类别三部图中,对于用户-项目二部图S₁, 加入评分作为权重, 同时根据公式(1)计算用户集U_i游走到项目I_i的概率P_i。

③根据步骤②的规则训练S₁中游走的最佳重启动次数。

④重复步骤②和步骤③, 得到用户-类别加权二部图, 图中权重为用户经过项目到类别的累计次数和。

⑤建立类别-用户-项目-类别四部图, 统计类别-用户二部图中权重, 并按权重值从大到小进行排序。

⑥根据步骤⑤的结果, 取Top-N类别, 结合S₂产生Top-N类别对应的项目候选集I_o。

⑦根据推荐步长和公式(4)产生推荐项目集I_f 。

⑧根据公式(5)-公式(8)计算推荐项目预测评分。

4 实验结果与分析

4.1 数据说明

实验采用MovieLens^[16]100k数据集, 该数据集由GroupLens研究组收集和整理, 包含943名用户对1 682部电影的100 000多个评分, 评分取值为1-5, 每个用户至少有20个评分。使用5折交叉验证法对提出的改进算法进行验证。

4.2 评价标准

实验通过二部图随机游走算法(BGPR)、加权二部图随机游走算法(IN-BGPR)、三部图随机游走算法(TGPR)与本文提出的条件型游走四部图算法(CWQG)进行对比, 同时采用平均准确率(Precision)、平均绝对偏差(Mean Absolute Error, MAE)、平均召回率(Recall)以及平均覆盖率(Coverage)^[10,17]对4种算法的实验结果进行对比评价。

(1) 平均准确率表示对于目标用户给定的推荐列表中, 在测试集上出现的物品个数占推荐列表大小的比例, 准确率依赖于推荐列表的长度, 且值越大推荐效果越好, 计算方法如公式(9)所示。

$Precision=\frac{\mathop{\sum }_{u\in U}\left| L(u)\bigcap T(u) \right|}{\mathop{\sum }_{u\in U}\left| L(u) \right|}$ (9)

其中, L(u)为用户u的推荐列表, T(u)为用户u推荐列表中出现在测试集中的物品。

(2) 通过计算预测评分与实际评分差值的绝对值可以衡量预测评分的准确性, MAE值越大, 表明误差越大, 推荐精度越低; 反之, MAE值越小, 表明误差越小, 推荐精度越高, 计算方法如公式(10)所示。

$MAE=\frac{\mathop{\sum }_{i\in T(u)}|{{R}_{ui}}-{{P}_{ui}}|}{|T(u)|}$ (10)

其中, R_ui表示用户u对项目i的实际评分, P_ui表示用户u对项目i的预测评分, T(u)表示测试集中用户u评分的项目集合。

(3) 平均召回率表示对于目标用户给定的推荐列表中, 在测试集上出现的物品个数占测试集大小的比例, 召回率也依赖推荐列表的长度, 且值越大推荐精度越准确, 计算方法如公式(11)所示。

$Recall=\frac{\mathop{\sum }_{u\in U}\left| L(u)\bigcap T(u) \right|}{\mathop{\sum }_{u\in U}\left| T(u) \right|}$ (11)

其中, L(u)为用户u的推荐列表, T(u)为用户u推荐列表中出现在测试集中的物品。

(4) 平均覆盖率表示最终的推荐列表占总物品集合的比例, 反应了算法发现长尾的能力, 覆盖率值越大说明算法越能将长尾推荐给用户, 计算方法如公式(12)所示。

$Coverage=\frac{\left| {{U}_{u\in U}}T(u) \right|}{\left| I \right|}$ (12)

其中, U为用户集, I为物品集, T(u)为给每个用户推荐一个长度为N的物品列表。

4.3 实验结果对比

由于本文的CWQG算法以及对比算法TGPR算法需要训练公式(6)中的加权参数λ, 故设置参数λ从0到1以0.1为间隔, 分别在Precision、MAE、Recall及Coverage指标下进行训练, 不同λ参数对应的4种指标值如图6所示。

由图6可以看出, 当λ取值为0.5时, Precision、Recall及Coverage的值达到最佳效果, MAE在0.5-0.6之间已经趋于平稳。故取加权参数λ的值取0.5。

图6 参数λ值训练

在算法描述的步骤③中, 需要训练用户-项目二部图游走的最佳重启动次数, 实验中的最佳重启动次数如图7所示。

图7 重启动次数训练

由图7可以看出, Precision、Recall及Coverage三种指标都显示重启动次数为600时达到最佳效果, MAE在300之前较低, 400-600趋于平稳, 600以后明显上升, 故重启动次数选取为600次。

4种算法在数据集上, 根据推荐步长的推荐效果如图8所示。由Precision指标可以看出, CWQG算法准确率最高。说明采用条件型的二部图游走方法较普通的二部图随机游走方法能更准确地定位用户兴趣; 同时加入类别-用户关系的四部图推荐方法较三部图推荐方法增加了用户兴趣的维度, 也更好地体现了用户兴趣。但随着推荐步长的增加, CWQG的准确率逐步降低, 笔者分析是由于数据稀疏造成的, 因为推荐步长越大, 数据稀疏度就越大。

图8 不同推荐步长下的推荐效果

由MAE指标可以看出, CWQG算法的MAE最低。随着步长的增加MAE略有升高, 但变化不大, 而另外三种算法, 在推荐步长由20变化到40时MAE有较大升高。说明CWQG算法在MAE上的稳定性最好, 适用于不同步长的推荐系统。

由Recall指标可以看出, CWQG算法的Recall最高, 且随着推荐步长的增加逐步提高。另外三种算法在推荐步长为40-60时, Recall无明显提高, 在推荐步长80-100时三部图推荐算法才有明显提高。说明CWQG算法在小步长推荐上有明显优势, 同时也适用于不同步长的推荐系统。

由Coverage指标可以看出, CWQG算法的Coverage最高, 且明显高于其他三种算法, 推荐步长越长, 推荐的长尾能力越强。长尾能力是用户个性化需求的体现, 说明CWQG中游走条件的定义及类别-用户的关系映射能够更好地体现用户的个性化需求。

综上, 本文提出的基于条件型游走的四部图推荐方法(CWQG)在提高推荐准确率和命中率的同时提高了推荐的覆盖率, 使推荐更多样化, 避免了给不同用户推荐相同商品的单一推荐模式, 是一种更加个性化的推荐方法。

5 结语

传统二部图、三部图推荐方法中, 二部图推荐方法主要通过用户与项目的关系进行随机游走的方式进行推荐, 这种方法只考虑用户与项目间的关系, 属性信息过少, 游走过于随意, 不能体现更多的用户兴趣。三部图推荐方法引入了项目属性信息, 建立项目与属性间的关系, 进一步细分项目, 在二部图的基础上不仅体现用户特征, 同时体现了项目特征。但这些方法都没有深入挖掘用户特征, 项目特征以及用户、项目、类别三者之间的关系。

本文进一步细化游走规则, 分析用户评分和项目度特征, 建立条件型游走规则, 让游走更能体现用户兴趣特征。在建立用户-项目关系、项目-类别关系的同时将用户-类别关系进行映射, 不仅可以通过项目特征体现用户兴趣, 同时类别特征也可以作为用户特征, 使用户特征更具体。通过条件的加入和四部图的建立, 提升推荐效果。该方法可以在推荐系统中推广, 如图书推荐、商品推荐等。

本研究也存在一些不足之处, 仅按照原始数据的电影类别进行分类, 没有加入更多的电影信息, 未来可以加入更多项目信息, 使分类更完善; 信息的属性较少, 虽然加入类别信息, 但在实验中使用的信息也只有用户、评分及类别, 其他如电影标题也可以很好地体现项目本身的特征, 未来可以考虑对标题进行语义分析, 进一步优化推荐效果。

作者贡献声明

张怡文: 提出研究思路, 设计研究方案;

张臣坤: 进行实验及结果统计;

杨安桔: 数据清洗和分析;

张怡文, 计成睿: 起草、修改论文;

岳丽华: 论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: yiwenzh@ustc.edu.cn。

[1] 张怡文, 张臣坤. train.txt. 训练数据集.

[2] 张怡文, 张臣坤. test.txt. 测试数据集.

参考文献

View Option

[1]	Wang H, Wang N, Yeung D Y.Collaborative Deep Learning for Recommender Systems[C]//Proceedings of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2014:1235-1244. [本文引用:1]
[2]	孟祥武, 刘树栋, 张玉洁, 等. 社会化推荐系统研究[J]. 软件学报, 2015, 26(6): 1356-1372. 近年来,社会化推荐系统已成为推荐系统研究领域较为活跃的研究方向之一.如何利用用户社会属性信息缓解推荐系统中数据稀疏性和冷启动问题、提高推荐系统的性能,成为社会化推荐系统的主要任务.对最近几年社会化推荐系统的研究进展进行综述,对信任推理算法、推荐关键技术及其应用进展进行前沿概括、比较和分析.最后,对社会化推荐系统中有待深入研究的难点、热点及发展趋势进行展望. DOI:10.13328/j.cnki.jos.004831 URL [本文引用:1] (Meng Xiangwu, Liu Shudong, Zhang Yujie, et al.Research on Social Recommender Systems[J]. Journal of Software, 2015, 26(6): 1356-1372.)
[3]	Mooney R J, Roy L.Content-based Book Recommending Using Learning for Text Categorization[C]//Proceedings of the 5th ACM Conference on Digital Libraries. 2000: 195-204. [本文引用:1]
[4]	Breese J S, Heckerman D, Kadie C.Empirical Analysis of Predictive Algorithms for Collaborative Filtering[C]// Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence. 1998: 43-52. [本文引用:1]
[5]	Zhuang F, Luo D, Yuan N J, et al.Representation Learning with Pair-wise Constraints for Collaborative Ranking[C]// Proceedings of the 10th ACM International Conference on Web Search and Data Mining. ACM, 2017: 567-575. [本文引用:1]
[6]	刘淇, 陈恩红. 结合二部图投影与排序的协同过滤[J]. 小型微型计算机系统, 2010, 31(5): 835-839. 协同过滤是推荐系统中应用最为广泛的方法.提出一类基于二部图一维投影与排序相结合的协同过滤算法,文中采用结构相似进行二部图投影并利用随机游走对节点排序.该方法不仅可以防止冷启动，具有较高准确度，且可扩展性良好.另外，该算法可以避免低覆盖率造成的推荐不准确.算法可以有两类不同的实现，分别是基于项协同过滤的项排序算法和基于用户协同过滤的用户排序算法，在标准数据集MovieLens上的测试表明了算法的有效性. Magsci URL [本文引用:1] (Liu Qi, Chen Enhong.Collaborative Filtering Through Combining Bipartite Graph Projection and Ranking[J]. Journal of Chinese Computer Systems, 2010, 31(5): 835-839.)
[7]	孙林, 吴相林, 罗松涛, 等. 基于二分图资源分配动力学的推荐排序研究[J]. 计算机工程与设计, 2010, 31(23): 5032-5035. 在互联网信息推荐系统中,为了满足对用户推荐的高精度、普适化的算法设计需求,提出构建用户-对象的二分图模型,在图模型上应用资源分配动力学算法学习出各个用户和对象的推荐相关概率值,作为推荐排序的依据.提出的算法模型可以从已有的用户选择对象的历史数据中,自动的进行无监督挖掘得到相对客观的用户喜好信息,较已有的基于内容的推荐算法具有更好的普适性.实验结果表明,通过约束与平滑各个用户和对象的相关度,提出的算法可实现有效和实时的推荐,比现有方法在推荐精度上提高了20%. URL [本文引用:1] (Sun Lin, Wu Xianglin, Luo Songtao, et al.Recommendation Ranking Based on Resource Allocation Dynamics on Bipartite Graph[J]. Computer Engineering and Design, 2010, 31(23): 5032-5035.)
[8]	张怡文, 王冉, 程家兴. 基于用户兴趣度的改进二部图随机游走推荐方法[J]. 计算机应用与软件, 2015, 32(6): 76-79. 传统的二部图随机游走算法主要采用基于共同项目的相似度计算，并且项目之间、用户之间的影响程度是对称的，这种对称信息不能体现用户兴趣，推荐精度不高。为了提高推荐准确性，提出一种基于用户兴趣度的二部图随机游走方法。采用共同项目和用户打分项目数量的共同性质体现用户兴趣度，分析信息的不对称性，并在二部图中随机游走。实验表明，基于用户兴趣度的二部图随机游走算法提高了预测准确率和命中率。 DOI:10.3969/j.issn.1000-386x.2015.06.018 URL [本文引用:1] (Zhang Yiwen, Wang Ran, Cheng Jiaxing.Improved Recommendation Algorithm of Bipartite Graph Random Walk Based on User Interest Degree[J]. Computer Applications and Software, 2015, 32(6): 76-79.)
[9]	王明佳, 韩景倜. 基于条件型游走二部图协同过滤算法[J]. 计算机应用研究, 2017, 34(12): 3685-3688. 针对拥有少量评分的新用户采用传统方法很难找到目标用户的最近邻居集的问题,提出了一种条件型游走二部图协同过滤算法。首先根据复杂网络理论的二部图网络,将用户—项目评分矩阵转换为用户—项目二部图,采用条件型游走计算目标用户与其他用户之间的相似性;然后根据协同过滤算法预测未评分项目,产生推荐。研究结果表明,在同样的数据稀疏性情况下,基于条件型游走二部图协同过滤算法在MAE和准确率都要优于其他两种传统的协同过滤算法,从而提高了算法的推荐精度;而且当训练值的比例很低时,即数据稀疏程度越大时,算法推荐质量的提高程度越大。 URL [本文引用:1] (Wang Mingjia, Han Jingti.Collaborative Filtering Algorithm Based on Conditional Walk Bipartite Graph[J]. Application Research of Computers, 2017, 34(12): 3685-3688.)
[10]	Shang M S, Zhang Z K, Zhou T, et al.Collaborative Filtering with Diffusion-Based Similarity on Tripartite Graphs[J]. Physica A: Statistical Mechanics & Its Applications, 2012, 389(6): 1259-1264. Abstract: Collaborative tags are playing more and more important role for the organization of information systems. In this paper, we study a personalized recommendation model making use of the ternary relations among users, objects and tags. We propose a measure of user similarity based on his preference and tagging information. Two kinds of similarities between users are calculated by using a diffusion-based process, which are then integrated for recommendation. We test the proposed method in a standard collaborative filtering framework with three metrics: ranking score, Recall and Precision, and demonstrate that it performs better than the commonly used cosine similarity. DOI:10.1016/j.physa.2009.11.041 URL [本文引用:2]
[11]	张艳梅, 王璐, 曹怀虎, 等. 基于用户-兴趣-项目三部图的推荐算法[J]. 模式识别与人工智能, 2015, 28(10): 913-921. 目前大多数个性化推荐算法为了追求较高的推荐精度而在不同程度上受到用户兴趣过拟合问题的影响，因此提出通过挖掘用户隐含的兴趣信息进行推荐的算法.首先利用概率主题模型抽取用户兴趣分布，并建立用户-兴趣-项目加权三部图.然后在用户-兴趣和兴趣-项目的概率加权二部子图上依次利用物质扩散算法配置项目资源值，并根据项目资源值的高低排序产生Top-<i>K</i>推荐.在Movielens数据集上的实验表明，基于用户-兴趣-项目三部图的推荐算法能缓解过拟合问题，同时可提高准确率等方面的性能. DOI:10.16451/j.cnki.issn1003-6059.201510006 Magsci URL [本文引用:1] (Zhang Yanmei, Wang Lu, Cao Huaihu, et al.Recommendation Algorithm Based on User-Interest-Item Tripartite Graph[J]. Pattern Recognition and Artificial Intelligence, 2015, 28(10): 913-921.)
[12]	廖志芳, 李玲, 刘丽敏, 等. 三部图张量分解标签推荐算法[J]. 计算机学报, 2012, 35(12): 2625-2632. 三部图作为社会标签系统的表示方法,虽然可以简化标签系统元素间关系的表达,但也丢失了部分元素间的相关信息,而且不能有效处理标签系统中具有大量稀疏值和缺失值的数据.基于以上问题,文中提出了基于三部图的三维张量分解推荐算法(TTD算法).首先分析三部图元素间可能丢失的信息,通过定义以三部图为基础的低阶张量分解模型,对高阶稀疏数据进行分析.该模型不仅包含三部图所表达的系统信息,同时还表达了三部图所丢失的元素间相互信息；在此基础上,利用缺失值处理,进行社会标签系统中的标签推荐预测.通过模型对比实验以及标签预测实验,表明TTD模型所揭示的社会标签系统中元素间的相互关系更加全面,同时在进行标签预测时,所得到的预测结果召回率和精确率得到了显著改善. DOI:10.3724/SP.J.1016.2012.02625 URL [本文引用:1] (Liao Zhifang, Li Ling, Liu Limin, et al.A Tripartite Decomposition of Tensor for Social Tagging[J]. Chinese Journal of Computers, 2012, 35(12): 2625-2632.)
[13]	陈洁敏, 李建国, 汤非易, 等. 融合“用户-项目-用户兴趣标签图”的协同好友推荐算法[J]. 计算机科学与探索, 2018, 12(1): 92-100. 随着社交网络的用户数量呈爆炸式增长,如何为用户推荐具有相同兴趣爱好的好友已成为当前研究的焦点。为此,提出了一种基于＂用户-项目-用户兴趣标签图＂的协同好友推荐算法。该算法首先利用基于＂用户-项目-标签＂的三部图物质扩散推荐算法来计算用户之间的相似度,并引入＂用户-用户兴趣标签图＂二元关系,通过用户的兴趣标签图来发掘用户的兴趣主题;然后根据用户主题分布,利用KL距离来计算用户之间的相似度;最后将两组结果采用调和平均数方式融合得到用户间的综合相似度,并进行好友的推荐。通过在Delicious和Last.fm数据集上的实验证明,该算法能有效提高Top-N推荐的准确率和召回率,同时通过在学术社交网站——学者网数据集上进行的学者推荐实验表明,该算法能有效提高核心用户的推荐度。 DOI:10.3778/j.issn.1673-9418.1611021 URL [本文引用:1] (Chen Jiemin, Li Jianguo, Tang Feiyi, et al.Combining User-Item-Tag Tripartite Graph and Users Personal Interests for Friends Recommendation[J]. Journal of Frontiers of Computer Science and Technology, 2018, 12(1): 92-100.)
[14]	陈梅梅, 薛康杰. 基于改进张量分解模型的个性化推荐算法研究[J]. 数据分析与知识发现, 2017, 1(3): 38-45. 【目的】在基于张量分解的个性化推荐中,解决因UGC标签冗余、热门标签和资源影响用户个性化兴趣所导致的推荐准确性降低问题。【方法】提出一种改进的基于张量分解模型的个性化推荐算法,引入标签综合共现结合谱聚类的方法,借鉴TF-IDF中IDF的思想提出一种基于共现标签和资源的热门惩罚机制,对基于<用户,标签簇,资源>三元关系的初始张量进行重新定义。【结果】基于Last.fm数据集的仿真实验结果表明,从准确率、召回率和F1值各项指标上,本文提出的算法均有良好表现,综合共现谱聚类的引入使得推荐算法在F1值上平均提升5.91%,基于IDF改进初始张量后的推荐算法在F1值上平均提升1.29%。【局限】未针对其他领域的数据集进行验证,如微博、Delicious等。【结论】基于改进的张量分解模型的个性化推荐算法能够显著提高准确性,有利于社交网络环境下提供更令用户满意的资源。 URL [本文引用:1] (Chen Meimei, Xue Kangjie.Personalized Recommendation AlgorithmBased on Modified Tensor Decomposition Model[J]. Data Analysis and Knowledge Discovery, 2017, 1(3): 38-45.)
[15]	王明佳, 韩景倜. 基于条件型游走二部图协同过滤算法[J].计算机应用研究, 2017, 34(12): 3685-3688. 针对拥有少量评分的新用户采用传统方法很难找到目标用户的最近邻居集的问题,提出了一种条件型游走二部图协同过滤算法。首先根据复杂网络理论的二部图网络,将用户—项目评分矩阵转换为用户—项目二部图,采用条件型游走计算目标用户与其他用户之间的相似性;然后根据协同过滤算法预测未评分项目,产生推荐。研究结果表明,在同样的数据稀疏性情况下,基于条件型游走二部图协同过滤算法在MAE和准确率都要优于其他两种传统的协同过滤算法,从而提高了算法的推荐精度;而且当训练值的比例很低时,即数据稀疏程度越大时,算法推荐质量的提高程度越大。 URL [本文引用:1] (Wang Mingjia, Han Jingti.Collaborative filtering algorithm based on conditional walk bipartite graph[J]. Application Research of Computers, 2017, 34(12): 3685-3688.)
[16]	Harper F M, Konstan J A. The MovieLens Datasets: History and Context[J]. ACM Transactions on Interactive Intelligent Systems, 2016, 5(4): Article No.19. The MovieLens datasets are widely used in education, research, and industry. They are downloaded hundreds of thousands of times each year, reflecting their use in popular press programming books, traditional and online courses, and software. These datasets are a product of member activity in the MovieLens movie recommendation system, an active research platform that has hosted many experiments since its launch in 1997. This article documents the history of MovieLens and the MovieLens datasets. We include a discussion of lessons learned from running a long-standing, live research platform from the perspective of a research organization. We document best practices and limitations of using the MovieLens datasets in new research. DOI:10.1145/2827872 URL [本文引用:1]
[17]	Li J, Tang Y, Chen J.Leveraging Tagging and Rating for Recommendation: RMF Meets Weighted Diffusion on Tripartite Graphs[J]. Physica A: Statistical Mechanics & Its Applications, 2017, 483: 398-411. Recommender systems (RSs) have been a widely exploited approach to solving the information overload problem. However, the performance is still limited due to the extreme sparsity of the rating data. With the popularity of Web 2.0, the social tagging system provides more external information to improve recommendation accuracy. Although some existing approaches combine the matrix factorization models with the tag co-occurrence and context of tags, they neglect the issue of tag sparsity that would also result in inaccurate recommendations. Consequently, in this paper, we propose a novel hybrid collaborative filtering model named WUDiff_RMF, which improves regularized matrix factorization (RMF) model by integrating Weighted User-Diffusion-based CF algorithm(WUDiff) that obtains the information of similar users from the weighted tripartite user–item–tag graph. This model aims to capture the degree correlation of the user–item–tag tripartite network to enhance the performance of recommendation. Experiments conducted on four real-world datasets demonstrate that our approach significantly performs better than already widely used methods in the accuracy of recommendation. Moreover, results show that WUDiff_RMF can alleviate the data sparsity, especially in the circumstance that users have made few ratings and few tags. DOI:10.1016/j.physa.2017.04.121 URL [本文引用:1]

Collaborative Deep Learning for Recommender Systems

2014

... 随着信息的海量增长, 如何快速准确地发现用户兴趣并向用户推荐感兴趣的信息, 是目前需要解决的重要问题.推荐系统由于可以发掘用户兴趣、主动为用户推荐感兴趣的内容^[1], 因此受到越来越多的重视, 在社交网络、电子商务、娱乐平台、新闻推送等领域得到越来越多的应用. ...

社会化推荐系统研究

2015

... 推荐算法是推荐技术的核心, 主要包括^[2]: 基于内容的推荐、协同过滤推荐和混合推荐方法.基于内容的推荐方法^[3]不受冷启动影响, 能够通过学习用户和项目的特征, 对新用户进行项目推荐.但由于用户特征和项目特征有限, 基于内容的推荐方法推荐准确率较低.协同过滤推荐方法^[4]基于用户历史信息, 对用户历史行为进行分析, 寻找最相似用户, 将相似用户产生购买或点击行为的物品推荐给目标用户.协同过滤推荐方法是目前推荐系统中采用的主要推荐方法, 但经常遭遇如冷启动、数据过于稀疏等问题.鉴于两种推荐方法存在的问题, 有学者将两种方法混合并进行推荐, 把基于内容的推荐方法中对特征的学习融入到协同过滤的算法框架中, 以提高预测质量^[5]. ...

Research on Social Recommender Systems

2015

Content-based Book Recommending Using Learning for Text Categorization

2000

Empirical Analysis of Predictive Algorithms for Collaborative Filtering

1998

Representation Learning with Pair-wise Constraints for Collaborative Ranking

2017

结合二部图投影与排序的协同过滤

2010

... 基于二部图的推荐方法中, 随机游走算法应用较广.文献[6]中建立用户-项目二部图随机游走方法(Bipartite Graph Projection and Ranking, BGPR), 并根据用户与关联项目的情况, 在项目间随机游走、排序并进行推荐, 解决了数据稀疏和冷启动的问题; 但该算法中用户与项目之间的边为对称边, 不能体现用户兴趣.文献[7]利用资源分配原理, 对用户关联的项目个数和项目被用户关联的个数进行权重的二次分配, 建立体现用户和项目特征的不对称用户-项目二部图, 提高推荐的准确性; 但这种方法也仅仅考虑到了用户和项目的关联关系, 没有考虑到其他信息.文献[8]将用户对项目的评分信息加入到二部图中, 建立更加体现用户兴趣的不对称用户-项目二部图随机游走方法(Bipartite Graph Projection and Ranking based on User Interest, IN-BGPR), 进一步提高算法的准确性.文献[9]在二部图中加入对用户行为的分析, 通过用户行为的分析, 产生相似用户的条件, 根据条件进一步改进用户-项目二部图推荐算法, 在提高推荐结果准确性的同时提高了算法效率. ...

Collaborative Filtering Through Combining Bipartite Graph Projection and Ranking

2010

基于二分图资源分配动力学的推荐排序研究

2010

Recommendation Ranking Based on Resource Allocation Dynamics on Bipartite Graph

2010

基于用户兴趣度的改进二部图随机游走推荐方法

2015

Improved Recommendation Algorithm of Bipartite Graph Random Walk Based on User Interest Degree

2015

基于条件型游走二部图协同过滤算法

2017

Collaborative Filtering Algorithm Based on Conditional Walk Bipartite Graph

2017

Collaborative Filtering with Diffusion-Based Similarity on Tripartite Graphs

2012

... 在二部图推荐算法中有大量用户、项目以外的信息没有得到充分分析, 有学者^[10,11]提出建立用户-项目-标签三部图推荐算法(Tripartite Graph Projection and Ranking, TGPR), 利用物质扩散过程计算相似用户, 再根据相似用户进行项目推荐, 在电影推荐和社交网络好友推荐中得到应用.但由于用户信息、标签等信息过于稀疏, 该算法存在大量缺失信息.文献[12]利用张量分解的模型表示信息, 不仅表示三部图的信息, 还可以表示三部图中丢失元素的信息, 该方法改善了推荐结果的召回率和准确率.文献[13]利用标签进行主题分布计算, 通过主题分布细化的用户分类, 可以更精确地计算用户间相似度, 提高推荐结果的相似度.文献[14]通过引入标签和资源的热门惩罚机制, 对用户-标签-资源三元关系的初始张量进行重新定义, 该方法在社交网络环境下可以有效提高推荐的准确性. ...

... 实验通过二部图随机游走算法(BGPR)、加权二部图随机游走算法(IN-BGPR)、三部图随机游走算法(TGPR)与本文提出的条件型游走四部图算法(CWQG)进行对比, 同时采用平均准确率(Precision)、平均绝对偏差(Mean Absolute Error, MAE)、平均召回率(Recall)以及平均覆盖率(Coverage)^[10,17]对4种算法的实验结果进行对比评价. ...

基于用户-兴趣-项目三部图的推荐算法

2015

Recommendation Algorithm Based on User-Interest-Item Tripartite Graph

2015

三部图张量分解标签推荐算法

2012

A Tripartite Decomposition of Tensor for Social Tagging

2012

融合“用户-项目-用户兴趣标签图”的协同好友推荐算法

2018

Combining User-Item-Tag Tripartite Graph and Users Personal Interests for Friends Recommendation

2018

基于改进张量分解模型的个性化推荐算法研究

2017

Personalized Recommendation AlgorithmBased on Modified Tensor Decomposition Model

2017

基于条件型游走二部图协同过滤算法

2017

... 基于图模型的随机游走是一种无规则的任意游走方式, 用户训练出最佳重启动概率后随机选择下一步要游走的项目.由于每一次游走重启动概率相同, 游走在固定尺度上具有相同的结构, 每次游走的方向也是任意的.在用户-项目间的二部图上游走时采用一种条件型游走策略^[15], 即满足某种条件才向某一方向运动, 每一步的游走不是随机的, 而是确定和唯一的.这种游走方式目标更明确, 游走效率更高.游走条件的原理体现的是用户兴趣和项目的影响力.本文定义的游走条件有两个: ...

Collaborative filtering algorithm based on conditional walk bipartite graph

2017

The MovieLens Datasets: History and Context

2016

... 实验采用MovieLens^[16]100k数据集, 该数据集由GroupLens研究组收集和整理, 包含943名用户对1 682部电影的100 000多个评分, 评分取值为1-5, 每个用户至少有20个评分.使用5折交叉验证法对提出的改进算法进行验证. ...

Leveraging Tagging and Rating for Recommendation: RMF Meets Weighted Diffusion on Tripartite Graphs

2017