个性化推荐系统中用户多态聚类研究

引用本文

刘剑涛. 个性化推荐系统中用户多态聚类研究. 现代图书情报技术, 2012, 28(2): 18-22
Liu Jiantao. Research on Users’ Polymorphic Clustering in Personality Recommendation System. New Technology of Library and Information Service, 2012, 28(2): 18-22 复制到剪切板

Permissions

This article is the open access journal literature, in the following situations are free to use: academic research and academic exchanges, scientific research and teaching, etc., but don't allow for commercial purposes.

个性化推荐系统中用户多态聚类研究

刘剑涛

华侨大学图书馆泉州 362021

基金:本文系华侨大学科研基金项目“基于用户需求模型的个性化信息服务研究”（项目编号：10HJY06）的研究成果之一;

摘要

针对传统协同过滤算法依赖单一用户需求形态影响推荐效果的问题,提出一种基于用户多态聚类的数字图书馆个性化推荐方法。该方法以改进的海明距离计算候选邻居集,结合多态相似度进行二次聚类,预测用户的多态需求度并形成推荐。实验表明,使用多态聚类产生的推荐精确度上优于单一聚类产生的推荐。

关键词: 数字图书馆; 个性化推荐; 多态性; 协同过滤

Research on Users’ Polymorphic Clustering in Personality Recommendation System

Liu Jiantao

Library of Huaqiao University, Quanzhou 362021, China

Abstract

Traditional collaborative filtering algorithm is usually dependent on single kind of user requirement to generate clustering and this may affect the accuracy of recommendation. In view of the problem, this paper proposes a personalized recommendation method in digital library based on users’ polymorphic clustering. This method uses an improved Hamming distance to calculate candidate neighbors, then combines polymorphic similarity to cluster again, finally forecasts user’s requirements degree and generates recommendation. The experiments show that recommendation based on polymorphic clustering is more accurate than the single’s.

Keyword: Digital library; Personalized recommendation; Polymorphism; Collaborative filtering

Show Figures

1 引言

随着数字图书馆规模的不断扩大,“信息过载”和“资源迷向”^{[ 1]}问题给用户准确、快捷地获取所需信息造成极大困扰。个性化信息服务通过分析用户行为与需求,为用户进行智能推荐,实现 “信息找人”的主动服务,逐步成为数字图书馆发展的趋势^{[ 2]}。

基于用户协同过滤的推荐是目前应用较为成功的技术^{[ 3]},它以分析用户信息需求的表现为基础,对用户群中的相似用户进行聚类,并综合这些相似用户对相关文献的评价形成系统对指定用户的偏好预测。传统的协同过滤方法计算用户相似度主要依赖用户对文献的评分,其他还有依赖图书借阅记录以及访问(点击)次数等。Bobadilla等^{[ 4]}在计算评分相似度的基础上进一步利用权值区分用户高评分和低评分所表达的需求差异,武建伟等^{[ 5]}在分析图书借期的长短上提出基于密度的聚类算法,宋擒豹等^{[ 6]}以统计网络文献的访问次数寻找相似的用户群。这些研究的方向主要是从需求表现的深度上对数据稀疏和维度灾难^{[ 7]}问题做了优化处理,但是单一的需求表现还不足以完全表示用户的真实需求,如借期长的书可能是用户忘记归还,评分低的图书可能是用户一时情绪波动,点击次数高的文献可能是得到诱导等,用户原始需求的不准确表示将直接影响到最终的推荐效果。

多态性一般是指生物体在一定时间和空间上存在形态多样性和状态多样性的简称。用户在利用数字图书馆时所表现出的信息需求同样具有多态性特征,多样性的形态可以定义为用户对文献资料的点击、下载、借阅、收藏、共享、评分、评价等,多样性的状态表现出用户对文献不同的偏好程度。为了从广度上挖掘深层次的用户需求,本文提出一种兼顾多种用户形态特征及其相关度的多态相似度,并结合以改进海明距离为基础的聚类算法,实验结果表明新方法能有效提高推荐质量。

2 多态性的相关研究

由于传统协同过滤算法是依赖单一的用户需求形态,利用多态性来提高推荐效果的相关研究大多采取混合协同过滤的方法。较早出现的是结合人口统计(Demographic)和心理统计(Psychographics)的协同过滤^{[ 8]},用户在注册时往往被要求登记年龄、性别、职业以及兴趣类别等信息,系统在协同过滤之前可以有效缩小聚类的范围,是一种解决数据冷启动和数据稀疏的有效方法。类似的还有混合内容的协同过滤^{[ 9]},通过分析图书流通书目或查询关键词内容的相似度来识别用户兴趣分类,再基于用户评分产生聚类。此外,也有挖掘用户隐性需求的例子,Kim等^{[ 10]}收集购物商城中访问时间、收藏等隐性需求构建基于决策树的推荐方法,Trujillo等^{[ 11]}在已实现的数字图书馆推荐系统中,结合人口统计、心理统计和电子文献下载次数三种形态构建用户兴趣模型,并以用户兴趣度来计算相似度。但后两者都没有涉及用户主动性的评分。

综上所述,多态性的推荐方法所集成的用户形态数量有限,不仅不能很好地兼顾用户显性需求和隐性需求的同时表达,而且也无法体现不同形态所反应出的需求强度。本文提出的方法可以依据实际应用环境自由组合,并重点突出用户需求表现强烈的用户形态,同时在传统协同过滤上的适当改进,并不影响与基于内容或人口统计等其他算法的混合。

3 用户相似度的多态表示

基于用户协同过滤的推荐流程由构建用户-项目关联矩阵、搜寻最邻近用户集合、根据规则产生推荐三部分组成。其中比较用户相似度并产生最邻近用户集(聚类)是推荐系统的核心,直接影响到推荐的准确性。比较常用的相似度计算有基于距离的方法,如欧式距离、海明距离,以及余弦、修正余弦相似性函数和Pearson相关系数等。为了从信息行为的广度上挖掘用户潜在的需求,需要对用户多态的需求度进行定量比较。

多态的用户需求可以用一个集合Form表示,Form={点击,查看,借阅,收藏,共享,评分,评价,…}。真正相似的用户应该在各个表现形态下尽可能的相似。徐茜等^{[ 12]}在本体映射的概念相似度计算中提出一种基于概念定义、概念实例、概念结构三个方面的综合相似度计算方法,参照本体概念相似度组合形式,本文将其引入到用户相似度的计算中,并能满足用户需求集合Form中的形态自由灵活地组合构成多态相似度的要求。基于以上分析,任意两个用户X,Y之间的用户多态相似度可以定义为:

PSim(X,Y)= Weight_iSim_i(X,Y) (1)

其中,Weight_i表示第i个形态的权重,并且满足 Weight_i=1。权重体现的是不同形态在不同阶段所表现出用户需求度的差异,比如赋予评分的权值应高于点击次数的权值,因为主动评分更能反应用户主观的需求程度。Sim_i(X,Y)表示用户X和Y在第i个形态下的相似函数,各个形态的相似度根据形态特征可以采取不同的计算方法。在实际应用中可以根据具体情况灵活选择若干种形态进行多态相似度的计算。

4 基于用户多态聚类的推荐方法

基于协同过滤的推荐效果之所以不如基于内容的推荐,主要原因在于要求用户对所有阅读过的文献都做出主动评分并不现实^{[ 13]},但是在数字图书馆的实际应用环境下,用户在借阅、收藏或者评价之前都会事先点击浏览,因此点击次数是需求表现的基本形态,以此构建向量矩阵可以尽量减少数据稀疏的问题。李彬等^{[ 14]}在文献[6]的基础上优化了以点击计算海明距离的聚类算法,本文参考文献[6]和文献[14]的聚类流程,结合多态思想对该算法做出进一步改进。推荐方法分为三步:计算相对点击和评分差的海明距离得到每个用户的候选邻居集;结合多态相似度对邻居集二次聚类;由最邻近用户预测当前用户的需求度,选择前N条生成推荐列表。

4.1 候选邻居的计算

文献[6]和文献[14]中候选邻居计算首先以点击次数构建URL-User关联矩阵M_m×n,然后对于∀M[i,j]>0,令M[i,j]=1,再计算用户向量间的海明距离Hd(X,Y)= |X_i-Y_i|(其中X,Y∈{0,1}ⁿ),距离越小表示用户X和Y间相似程度越高。上述方法直接将非零的点击归1处理并没有考虑点击次数的影响,无形中降低了点击次数表示的需求度。改进的海明距离首先增加了对点击次数的度量,其次结合多态的思想,引入评分差加权的办法来进一步强调用户的主观需求。

(1)改进1:相对点击次数的度量

定义相对点击h(x_i,y_i)=x_i/(x_i+y_i),其中x_i,y_i分别表示用户X和Y对文献i的点击次数。显然,当h的值等于1或0时,X和Y在文献i的点击相似度上最小;当h=0.5时,表明X和Y的点击次数完全相同。则改进的海明距离可以表示为:

Hd(X,Y)= |h(x_i,y_i)-0.5| (x_i,y_i不同时为0) (2)

(2)改进2:引入评分差加权的概念

不同评价分值差异反映了用户对文献的主观需求度,对评分差异较大的文献加权可以在相对点击相同时凸显相似距离。式(3)对评分值大于3的单点距离h'=|h(x_i,y_i)-0.5|做了2倍加权处理,score∈[1,5]。

h'= (3)

(3)候选邻居的聚类过程

经过重新定义的海明距离保持了距离越小相似度越高的特征,因此候选邻居的聚类与原方法^{[ 6]}基本一致,主要是增加了依赖评分的加权步骤。过程如下:

①输入用户对每个文献的点击次数和评价分值。以点击次数构造一个由m个用户和n种文献构成的向量矩阵H_m×n=(hits_ij)_m×n,其中元素hits_ij记录了用户i对文献j的访问次数,没有点击过的文献记为0。同理建立评分矩阵S_m×n。

②由公式(2)计算矩阵H_m×n两两用户的改进海明距离,当双方的点击都是0时,令h(x_i,y_i)=0.5。由此建立行向量间的对称矩阵。

③根据S_m×n按公式(3)对加权处理,得到。

④以矩阵的平均海明距离作为阈值Λ,对于∀ ∈ (1≤i≤m,i≤Λ,将第i个用户和所有满足这个条件的第j个用户聚为一簇,否则i自己作为一簇,最终得到由m个簇构成的候选邻居集,记为N={c₁,c₂,...c_m}。

4.2 多态二次聚类

上述步骤快速得到的是较为粗糙的聚类,存在两个问题:虽然考虑点击,但忽视了评分细节以及其他形态上的差异;每个用户都对应产生一个簇,存在大量冗余邻居。文献[6]和文献[14]是通过比较文献的点击率来确认用户与候选邻居的所属程度,但大量文献背景下用户的点击可能很不平衡,较易引出误差。参考文献[14]中类不一致度的定义,结合多态相似度重新定义簇的质量,对候选邻居集进一步修剪。

(1)簇的质量

quality_c= PSim(i,j) (4)

其中, PSim(i,j)表示两个用户之间的多态相似度, 表示用户两两之间的相似度求和, 表示对其求平均值。簇的质量实际是求候选邻居内两两之间多态相似度的平均值。多态相似度根据公式(1)生成,相似度分量由各自形态特征决定,如表1所示:

表1 用户形态的数据类型和参考相似度

例如是否借阅体现的是用户在维度上的绝对差异,采用公式(5)的距离公式,而评分更多的是从程度上区分差异,公式(6)余弦相似度更为适用。显然,以这种方式构成的簇的质量越大,候选邻居的相似性就越大,聚类就越准确。

Sim_borrow(X,Y)=1-( |X_i-Y_i|)/‖X‖(5)

Sim_point(X,Y)=( P_X,iP_Y,i)/( ) (6)

(2)二次聚类过程

二次聚类参照文献[14],重新定义了一种具备多态性特征的簇的质量。由于对部分相似函数做了变换,簇的质量越大表示相似性越强,聚类过程中相关质量大小比较相应做了调整。

①根据公式(4)计算所有候选邻居集N内每个邻居集c_i的质量 ,以及所有邻居集N的平均质量 ;

②对任意c_i⊂c_j,若 ≤ ,则从N中删除c_i,否则保留。此时N→N⁽¹⁾。

③对所有c_i∈ N⁽¹⁾,若 ≥ ,则暂时保留c_i;否则依次将c_i中的每个用户剔除后重新计算簇的质量,若 ≥ ,则在该类中除去此用户建立新类 ,否则保留该用户。对于被剔除的用户若不在其他类中可单独组类。依次进行完毕后得到新候选邻居集N⁽²⁾。

④对N⁽²⁾可依据聚类的精度要求重复以上过程,直至得到满意的聚类结果。

4.3 推荐的生成

得到最近邻居集后可以利用邻居的多态信息行为来预测当前用户对每个文献的需求度,并选择需求度最高的N条文献推荐给用户,即产生Top-N推荐。常用的预测方法是Sarwar等提出的启发函数^{[ 15]}。

P_u,i= R_u',i= Weight_i×form_i (7)

公式(7)对该启发函数做了扩展,其中PSim(u,u')是当前用户和邻居集内其他用户的多态相似度;R_u',i表示用户u'对文献i的多态需求度,其定义类似于多态相似度的定义,由各形态的分量及其权重组成。

5 实验与分析

为了验证本文推荐方法的有效性,本文藉点击、评分、借阅和收藏4种形态来实现多态聚类并形成推荐,并与单纯基于点击海明距离的聚类^{[ 6]}作对比。实验数据来自某高校MyLibrary系统数据库,抽取的数据包括5 000种热门借阅的图书,以及400名活跃度较高的学生,记录了近年来用户的点击次数、评价分值、借阅历史和收藏历史这4种信息行为,选择热门图书和活跃用户可以尽量避免数据稀疏对实验结果带来的影响。在用户各形态的相似度度量上,评价分值和点击次数分别选用余弦相似度和改进的海明距离,而借阅和收藏与否则用传统海明距离。同时,多态相似度的计算采取逐个组合的方法,分别是{点击,评分}、{点击,评分,借阅},{点击,评分,借阅、收藏}。

实验中数据的80%作为训练集,20%作为测试集,推荐性能的度量采用平均绝对差MAE=( |R_i-R'_i|)/n,R_i和R'_i分别表示用户实际的和预测的多态需求度。MAE越小说明推荐的精确度越高。为便于检验,在比较MAE时,按其所属院系选取6名用户作为测试用例,并将R_i直接简化为评价分值。

	Figure Option View Download New Window
	图1 推荐方法的MAE比较

从图1可以看出,单纯基于点击行为产生的推荐误差最大,而以点击和评分组合的二态聚类产生的推荐在精度有了大幅度提高,说明引入改进海明距离和多态相似度是有效的。当分别叠加是否借阅和收藏后,精度提高的幅度有所减少,原因包括:二次聚类是相似度更细粒度的比较,差别越来越不明显;使用收藏功能的用户相对较少,且在多态相似度中分配的权值较小。

6 结语

在数字图书馆的应用平台下,特别是以集成统一检索平台为代表的MyLibrary系统,收集了大量用户显性或隐性的需求,但却没有得到充分的挖掘。本文在传统协同过滤方法的基础上,提出多态相似度的概念,对用户在多种需求表现形态上的相似度进行综合度量,并以此生成聚类和推荐,从底层更为直接地表现了用户的需求。同时,该方法在实现时可依应用环境选取相似度和权值,具有较强的灵活性和扩展性。但是,以点击次数为主的聚类过程并没有从根本上解决冷启动和数据稀疏的问题,可以考虑混合其他推荐方法加以改善。

参考文献

View Option

[1]	顾犇. 信息过载问题及其研究[J]. 中国图书馆学报, 2000, 26(5): 42-45. (Gu Ben. Information Overload and Its Studies[J]. Journal of Library Science in China, 2000, 26(5): 42-45. ) [本文引用:1] [CJCR: 2.697]
[2]	罗蔚. 数字化信息服务的个性化发展: 从可适应到自适应[J]. 情报资料工作, 2010(2): 74-76. (Luo Wei. Personalized Development of Digital Information Service: From Adaption to Self-adapting[J]. Information and Documentation Services, 2010(2): 74-76. ) [本文引用:1] [CJCR: 1.169]
[3]	李春, 朱珍民, 高晓芳, 等. 基于邻居决策的协同过滤推荐算法[J]. 计算机工程, 2010, 36(13): 34-36. (Li Chun, Zhu Zhenmin, Gao Xiaofang, et al. Collaborative Filtering Recommendation Algorithm Based on Neighbor Decision-making[J]. Computer Engineering, 2010, 36(13): 34-36. ) [本文引用:1] [CJCR: 0.492]
[4]	Bobadilla J, Ortega F, Hernand o A, et al. Improving Collaborative Filtering Recommender System Results and Performance Using Genetic Algorithms[J]. Knowledge-Based Systems, 2011, 24(8): 1310-1316. [本文引用:1] [JCR: 4.104]
[5]	武建伟, 俞晓红, 陈文清. 基于密度的动态协同过滤图书推荐算法[J]. 计算机应用研究, 2010, 27(8): 3013-3015. (Wu Jianwei, Yu Xiaohong, Chen Wenqing. Density-based Dynamic Collaborative Filtering Books Recommendation Algorithm[J]. Application Research of Computers, 2010, 27(8): 3013-3015. ) [本文引用:1] [CJCR: 0.601]
[6]	宋擒豹, 沈钧毅. Web日志的高效多能挖掘算法[J]. 计算机研究与发展, 2001, 38(3): 328-333. (Song Qinbao, Shen Junyi. An Efficient and Multi Purpose Algorithm for Mining Web Logs[J]. Journal of Computer Research and Development, 2001, 38(3): 328-333. ) [本文引用:3]
[7]	牛琨, 张舒博, 陈俊亮. 采用属性聚类的高维子空间聚类算法[J]. 北京邮电大学学报, 2007, 30(3): 1-5. (Niu Kun, Zhang Shubo, Chen Junliang. Subspace Clustering Through Attribute Clustering[J]. Journal of Beijing University of Posts and Telecommunications, 2007, 30(3): 1-5. ) [本文引用:1] [CJCR: 0.62]
[8]	Al-Shamri M Y H, Bharadwaja K K. Fuzzy-genetic Approach to Recommender Systems Based on a Novel Hybrid User Model[J]. Expert Systems with Applications, 2008, 35(3): 1386-1399. [本文引用:1] [JCR: 1.854]
[9]	李忠俊, 周启海, 帅青红. 一种基于内容和协同过滤同构化整合的推荐系统模型[J]. 计算机科学, 2009, 36(12): 142-145. (Li Zhongjun, Zhou Qihai, Shuai Qinghong. Recommender System Model Based on Isomorphic Integrated to Content-based and Collaborative Filtering[J]. Computer Science, 2009, 36(12): 142-145. ) [本文引用:1] [CJCR: 0.61]
[10]	Kim Y S, Yum B, Song J, et al. Development of a Recommender System Based on Navigational and Behavioral Patterns of Customers in E-commerce Sites[J]. Expert Systems with Applications, 2005, 28(2): 381-393. [本文引用:1] [JCR: 1.854]
[11]	Trujillo M, Millan M, Ortiz E. A Recommender System Based on Multi-features[C]. In: Proceedings of Computational Science and Its Applications-ICCSA 2007. Kuala Lumpur: Springer, 2007: 370-382. [本文引用:1]
[12]	徐茜, 彭进业, 李展. 本体映射中一种综合的概念相似度计算方法[J]. 计算机工程与应用, 2010, 46(24): 34-36. (Xu Qian, Peng Jinye, Li Zhan. Integrated Concept Similarity Computing Method in Ontology Mapping[J]. Computer Engineering and Applications, 2010, 46(24): 34-36. ) [本文引用:1] [CJCR: 0.457]
[13]	Liao I, Hsu W, Cheng M, et al. A Library Recommender System Based on a Personal Ontology Model and Collaborative Filtering Technique for English Collections[J]. The Electronic Library, 2010, 28(3): 386-400. [本文引用:1]
[14]	李彬, 汪天飞, 刘才铭, 等. 基于相对Hamming距离的Web聚类算法[J]. 计算机应用, 2011, 31(5): 1387-1390. (Li Bin, Wang Tianfei, Liu Caiming, et al. Web Clustering Algorithm Based on Relative Hamming Distance[J]. Journal of Computer Applications, 2011, 31(5): 1387-1390. ) [本文引用:1] [CJCR: 0.646]
[15]	Deb K. Multi-objective Genetic Algorithms: Problem Difficulties and Construction of Test Problems[J]. Evolutionary Computation, 1999, 7(3): 205-230. [本文引用:1] [JCR: 2.109]

2000

0.0

2.697

. 2000, 26(5):42-45

Information Overload and Its Studies

对于信息过载问题的研究始于20世纪之初,至60年代以来逐渐增多.在人的信息欲望中出现了越来越多的由于信息过载带来的负面成分.造成信息降级的信息平庸化和噪音化是信息过载带给人们的烦恼.信息过载也给信息选择带来了沉重负担.为了研究信息降级问题,克拉普引入了一个心理学模型.参考文献19.

... 1 引言随着数字图书馆规模的不断扩大,“信息过载”和“资源迷向”^[1]问题给用户准确、快捷地获取所需信息造成极大困扰 ...

0.0

1.169

. , 2010(2):74-76

Personalized Development of Digital Information Service: From Adaption to Self-adapting

文章在分析个性化数字信息服务的特点和可适应服务模式的缺陷上,创建了一种基于机器学习机制的主动式自适应服务模式.

... 个性化信息服务通过分析用户行为与需求,为用户进行智能推荐,实现 “信息找人”的主动服务,逐步成为数字图书馆发展的趋势^[2] ...

2010

0.0

0.492

. 2010, 36(13):34-36

Collaborative Filtering Recommendation Algorithm Based on Neighbor Decision-making

(1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080; 2. College of Information Engineering, Xiangtan University, Xiangtan 411105; 3. Joint Faculty of Computer Scientific Research, Capital Normal University, Beijing 100037)

Collaborative filtering has been applied in personalized recommendation system successfully, sparsity problem and scalability problem become two big problems which remain unresolved. To slove the problem of traditional method, this paper propose a decision-making method relying on the number of neighbors. The method compares the number of user’s neighbors and item’s neighbors in every unpredicted position, and chooses the bigger one to make predicting. In addition, a reasonable and effective measurement is put forward to judge predicting. Experimental result shows that the quality of recommendation is largely improved.

协同过滤技术应用于个性化推荐系统中，稀疏性问题和可扩展性问题成为亟需解决的问题。针对传统方法的不足，提出一种凭借邻居数做决策的方法，比较各个待测位置的用户邻居数和项目邻居数，由数量多的一方作预测，同时对预测值判定给出一种合理而有效的度量方法。实验结果表明，该方法能够提高推荐质量。

... 基于用户协同过滤的推荐是目前应用较为成功的技术^[3],它以分析用户信息需求的表现为基础,对用户群中的相似用户进行聚类,并综合这些相似用户对相关文献的评价形成系统对指定用户的偏好预测 ...

2011

4.104

0.0

. 2011, 24(8):1310-1316 DOI:10.1016/j.knosys.2011.06.005

Improving Collaborative Filtering Recommender System Results and Performance Using Genetic Algorithms

Abstract This paper presents a metric to measure similarity between users, which is applicable in collaborative filtering processes carried out in recommender systems. The proposed metric is formulated via a simple linear combination of values and weights. Values are calculated for each pair of users between which the similarity is obtained, whilst weights are only calculated once, making use of a prior stage in which a genetic algorithm extracts weightings from the recommender system which depend on the specific nature of the data from each recommender system. The results obtained present significant improvements in prediction quality, recommendation quality and performance. Highlights ? Metric formulated via a simple linear combination of values and weights. ? Model-based approach using genetic algorithms to improve results. ? Collaborative filtering predictions accuracy and performance improvements.

... Bobadilla等^[4]在计算评分相似度的基础上进一步利用权值区分用户高评分和低评分所表达的需求差异,武建伟等^[5]在分析图书借期的长短上提出基于密度的聚类算法,宋擒豹等^[6]以统计网络文献的访问次数寻找相似的用户群 ...

2010

0.0

0.601

. 2010, 27(8):3013-3015

Density-based Dynamic Collaborative Filtering Books Recommendation Algorithm

针对协同过滤推荐技术在个性化服务应用中存在的服务质量和服务效率问题,提出一种基于密度的动态协同过滤图书推荐算法.在对读者的图书流通记录进行兴趣度模糊筛选基础上,利用扩展的密度聚类算法进行区域聚类,读者的兴趣模型依据聚类区域的密度与权重变化更新,动态进行协同过滤图书推荐.实验表明,该算法在提高推荐精确度上,优于传统的协同过滤推荐算法.

2001

0.0

. 2001, 38(3):328-333

An Efficient and Multi Purpose Algorithm for Mining Web Logs

通过对Web服务器日志文件和客户交易数据进行分析，可以发现相似客户群体、相关Web页面和频繁访问路径.提出了一种新颖的Web日志挖掘算法.在该算法中，首先以Web站点URL为行、以UserID为列建立URL-UserID关联矩阵，元素值为用户的访问次数，然后，对列向量进行相似性分析得到相似客户群体，对行向量进行相似性度量获得相关Web页面，对后者再进一步处理还可以发现频繁访问路径.实验结果表明了算法的有效性. Abstract： Similar customer groups, relevant Web pages, and frequent accesspaths can be discovered by analyzing of Web log files and customer database. In this paper, novel Web log mining algorithms are presented. First, according to Web site's directed graph defined, a URL-UserID relevant matrix is set up, where URL is taken as row and UserID is taken as column, and each element's value of this matrix is the user's hits. Second, similar customer groups are discovered by measuring similarity between column vectors, and relevant Web pages are obtained by measuring similarity between row vectors; frequent access paths can also be discovered by further processing of the latter. Experiments show the effectiveness of the algorithms.

... 经过重新定义的海明距离保持了距离越小相似度越高的特征,因此候选邻居的聚类与原方法^[6]基本一致,主要是增加了依赖评分的加权步骤 ...

... 5 实验与分析为了验证本文推荐方法的有效性,本文藉点击、评分、借阅和收藏4种形态来实现多态聚类并形成推荐,并与单纯基于点击海明距离的聚类^[6]作对比 ...

2007

0.0

0.62

. 2007, 30(3):1-5

Subspace Clustering Through Attribute Clustering

1. State Key Laboratory of Networking and Switching Technology, Beijing 100876, China; 2. Dept. of Strategy Research, China Telecom Beijing Research Institute, Beijing 100035, China

Many recently proposed subspace clustering methods suffer from two severe problems: First, the algorithms typically scale exponentially with the data dimensionality or the subspace dimensionality of clusters. Second, the clustering results are often sensitive to input parameters. A fast algorithm of subspace clustering using attribute clustering is proposed to overcome these limitations. This algorithm first filters out redundant attributes by computing the gini coefficient. To evaluate the correlation of each two non-redundant attributes, the relation matrix of non-redundant attributes is constructed based on the relation function of two dimensional united gini coefficients. After applying overlapping clustering algorithm on relation matrix, the candidate of all interesting subspaces is achieved. Finally, all subspace clusters can be gotten by clustering on interesting subspaces. Experiments on both synthesis and real datasets show that the new algorithm not only achieves a significant gain of runtime and quality to find subspace clusters but also is insensitive to input parameters.

为了解决现有子空间聚类算法时间复杂度偏高以及对输入参数敏感的问题，提出了一种基于属性聚类方法的高效子空间聚类算法.算法首先通过计算每个属性的基尼值来过滤冗余属性，而后通过基于二维联合基尼值的关系函数建立非冗余属性的关系矩阵，以衡量任意两个非冗余属性的相关度, 进而在关系矩阵上应用可产生交叠的聚类算法，聚类结果即为所有兴趣度子空间的候选集合，最后调用聚类算法得到所有存在于这些子空间内的簇.在人工数据集和真实数据集上的实验表明，新算法不仅在时间复杂度和子空间簇的寻找能力方面均有较优表现，而且对输入参数的取值不甚敏感.

... 这些研究的方向主要是从需求表现的深度上对数据稀疏和维度灾难^[7]问题做了优化处理,但是单一的需求表现还不足以完全表示用户的真实需求,如借期长的书可能是用户忘记归还,评分低的图书可能是用户一时情绪波 ...

2008

1.854

0.0

. 2008, 35(3):1386-1399 DOI:10.1016/j.eswa.2007.08.016

Fuzzy-genetic Approach to Recommender Systems Based on a Novel Hybrid User Model

Abstract The main strengths of collaborative filtering (CF), the most successful and widely used filtering technique for recommender systems, are its cross-genre or ‘outside the box’ recommendation ability and that it is completely independent of any machine-readable representation of the items being recommended. However, CF suffers from sparsity, scalability, and loss of neighbor transitivity. CF techniques are either memory-based or model-based. While the former is more accurate, its scalability compared to model-based is poor. An important contribution of this paper is a hybrid fuzzy-genetic approach to recommender systems that retains the accuracy of memory-based CF and the scalability of model-based CF. Using hybrid features, a novel user model is built that helped in achieving significant reduction in system complexity, sparsity, and made the neighbor transitivity relationship hold. The user model is employed to find a set of like-minded users within which a memory-based search is carried out. This set is much smaller than the entire set, thus improving system’s scalability. Besides our proposed approaches are scalable and compact in size, computational results reveal that they outperform the classical approach.

... 较早出现的是结合人口统计(Demographic)和心理统计(Psychographics)的协同过滤^[8],用户在注册时往往被要求登记年龄、性别、职业以及兴趣类别等信息,系统在协同过滤之前可以有效缩小聚类的范围,是一种解决数据冷启动和数据稀疏的有效方法 ...

2009

0.0

0.61

. 2009, 36(12):142-145

Recommender System Model Based on Isomorphic Integrated to Content-based and Collaborative Filtering

基于内容的推荐系统和协同过滤系统是最为流行的两种推荐系统,它们都有各自的优点和缺点.提出了一种基于对这两种推荐系统同构化整合的推荐模型,该算法同时拥有协同过滤推荐系统和基于内容推荐系统的优点,并且在一定程度上避免了基于内容或协同过滤的传统推荐系统各自的缺点.实验表明,该同构化整合模型与算法比传统的简单基本推荐模型、基于内容的推荐模型和协同过滤推荐模型提高了推荐的精确率. Abstract： The two recommender systems which are respectively based on content and collaborative filtering methods are most popular.Both types of filtering methods have advantages and disadvantages.This paper proposed a new isomorphic integrated model and algorithm which have the merits of the traditional recommender systems based on above two methods,and avoid the shortages of them to some extent The experimental results show that the presented isomorphic integrated model and algorithm can improve the performance of the traditional recommender systems in predictive accuracy.

... 类似的还有混合内容的协同过滤^[9],通过分析图书流通书目或查询关键词内容的相似度来识别用户兴趣分类,再基于用户评分产生聚类 ...

2005

1.854

0.0

... 此外,也有挖掘用户隐性需求的例子,Kim等^[10]收集购物商城中访问时间、收藏等隐性需求构建基于决策树的推荐方法,Trujillo等^[11]在已实现的数字图书馆推荐系统中,结合人口统计、心理统计和电子文献下载次数三种形态构建用户兴趣模型,并以用户兴趣度来计算相似度 ...

2007

0.0

2010

0.0

0.457

. 2010, 46(24):34-36 DOI:10.3778/j.issn.1002-8331.2010.24.010

Integrated Concept Similarity Computing Method in Ontology Mapping

College of Information Science and Technology，Northwest University，Xi’an 710127，China

Ontology mapping is an effective method to realize the interoperation of heterogeneous ontologies.The core step of ontology mapping is to compute similarities between concepts.In view of the shortcomings of the traditional concept similarity computing methods，this paper proposes an integrated concept similarity computing method—DISS model.The proposed method calculates the similarity from three aspects：Concept definition，concept instance and concept structure.The experiment shows that the method ameliorates the problem，such as unilateralism and faultiness，in the traditional computing methods，and improves the recall and precision in the ontology mapping.

本体映射是实现异构本体间互操作的有效方法，其核心环节是概念相似度的计算。针对传统概念相似度计算方法中存在的不足之处，提出了一种综合的概念相似度计算方法——DISS模型。该算法从概念定义、概念实例、概念结构三个方面计算相似度。实验证明，该算法改善了传统计算方法中存在的片面性和不完善性问题，提高了本体映射的查全率和查准率。

... 徐茜等^[12]在本体映射的概念相似度计算中提出一种基于概念定义、概念实例、概念结构三个方面的综合相似度计算方法,参照本体概念相似度组合形式,本文将其引入到用户相似度的计算中,并能满足用户需求集合Form中的形态自由灵活地组合构成多态相似度的要求 ...

2010

0.0

... 4 基于用户多态聚类的推荐方法基于协同过滤的推荐效果之所以不如基于内容的推荐,主要原因在于要求用户对所有阅读过的文献都做出主动评分并不现实^[13],但是在数字图书馆的实际应用环境下,用户在借阅、收藏或者评价之前都会事先点击浏览,因此点击次数是需求表现的基本形态,以此构建向量矩阵可以尽量减少数据稀疏的问题 ...

2011

0.0

0.646

. 2011, 31(5):1387-1390

Web Clustering Algorithm Based on Relative Hamming Distance

针对Web使用挖掘中聚类结果准确性不高的问题,提出了一种改进的基于相对Hamming距离和类不一致度的聚类算法.该算法首先以Web站点的URL为行、以UserID为列建立关联矩阵,元素值为用户的访问次数;然后,对所建立关联矩阵的列向量或行向量进行相似性度量,获得相似客户群体或相关页面.实验表明,该算法具有较高的准确性.

... 李彬等^[14]在文献[6]的基础上优化了以点击计算海明距离的聚类算法,本文参考文献[6]和文献[14]的聚类流程,结合多态思想对该算法做出进一步改进 ...

1999

2.109

0.0

... 常用的预测方法是Sarwar等提出的启发函数^[15] ...