数字文献资源内容服务推荐方法研究<sup>*</sup>

引用本文

毕强, 刘健. .数字文献资源内容服务推荐方法研究^* [J]. 现代图书情报技术, 2015,31(12): 21-27
Bi Qiang, Liu Jian. .Research on the Service Recommendation of the Content of Digital Literature Resources. New Technology of Library and Information Service,2015,31(12): 21-27 复制到剪切板

Permissions

《现代图书情报技术》编辑部

数字文献资源内容服务推荐方法研究^*

毕强, 刘健

吉林大学管理学院长春 130022

刘健, ORCID: 0000-0001-8901-2814, E-mail: tomosliu9999@126.com。

作者贡献声明：毕强: 提出研究方向, 设计研究方法; 刘健: 设计算法, 实验及分析, 论文撰写。

基金:*本文系国家自然科学基金项目“语义网络环境下数字图书馆资源多维度聚合与可视化展示研究”(项目编号:71273111)的研究成果之一

摘要

目的解决传统数字文献资源内容服务推荐中, 无法充分挖掘用户潜在信息需求以及评分矩阵稀疏问题。方法利用关联语义链和协同过滤算法提出数字文献资源内容服务推荐算法。结果实验结果证明, 该算法可以克服单一推荐算法中存在的无法挖掘用户潜在信息需求以及评分矩阵稀疏问题。【局限】缺少对数字资源的大规模采集, 实验案例较少。结论该算法充分挖掘用户信息需求并产生数字资源推荐信息, 为数字资源服务提供商提高用户感知的能力, 增强资源服务推荐的准确性和针对性提供了一种新途径。

关键词: 数字文献资源内容; 服务推荐; 关联语义链; 协同过滤算法

中图分类号:G250.7

Research on the Service Recommendation of the Content of Digital Literature Resources

Bi Qiang, Liu Jian

School of Management, Jilin University, Changchun 130022, China

Abstract

[Objective] Service recommendation of the content of traditional digital literature resources is unable to fully exploit the user potential information demand and the ratings matrixes are always sparse. This paper provides an algorithm using collaborative filtering algorithm and association semantic link. [Methods] A recommendation algorithm for the content of digital literature resources is proposed by using the association semantic link and collaborative filtering algorithm. [Results] The experimental result shows that the algorithm can overcome the problems of the potential information needs of the users and the sparsity of the matrix. [Limitations] Lack of large-scale collection of digital resources, and the experimental cases are few. [Conclusions] The algorithm can fully exploit the users’ information demand and generate the literature recommendation information. Finally, the validity and practicability of the proposed algorithm are verified by experiments.

Keyword: Content of digital literature resources; Service recommendation; Association semantic; link Collaborative filtering algorithm

Show Figures

1 引言

以用户为中心, 根据用户的个性化需求开展具有针对性和主动性的信息服务, 是提高信息服务质量和信息资源使用效率的重要手段^[1]。数字文献资源内容服务推荐是有效满足用户个性化价值追求的有效方法之一^[2]。目前, 资源服务推荐策略主要包括: 基于内容的推荐、基于协同过滤推荐和基于情境的推荐等。超星和中国知网都采用基于内容的服务推荐策略^[3]。基于协同过滤推荐是根据用户特征、偏好以及对资源访问行为进行分析和挖掘, 识别用户兴趣、资源的关联以及具有相似行为的用户群, 可对多种类型的资源进行过滤, 并能为用户发现新的感兴趣的信息^{[4, 5, 6]}。基于情境的推荐是对传统服务推荐进行扩展, 即在推荐过程中融合情境信息, 如用户性别、年龄、专业、信息需求水平、背景知识等都可以作为情境信息并与推荐算法结合, 为用户提供更符合其个性需求的相关信息^{[7, 8, 9, 10]}。

上述服务推荐策略采用传统的余弦相似度、Pearson相关系数和改进的余弦相似度作为项目相似性计算的基础^[11], 但是近邻查找时间过长, 而且没有考虑相似度计算存在着用户冷启动、评分矩阵稀疏等问题^{[12, 13, 14]}, 推荐精确性不高; 另一方面推荐项目与用户模型耦合过于紧密, 无法发现用户潜在的信息资源需求^{[15, 16]}。鉴于此, 本文提出一种基于关联语义链和协同过滤组合的算法, 以此解决评分数据集稀疏和耦合紧密问题, 从而增强推荐的准确性^[17]。

2 相关研究

2.1 关联语义链

关联语义链网络(ALN)是一种用于对Web资源进行管理的具有语义关系的数据模型。关联语义链网络通常都是由三个部分组成(N, L, R), 即N语义节点, L关联语义链和R关联语义规则^[18], 如图1所示:

	Figure Option View Download New Window
	图1 关联语义链网络图

其中, 语义节点可以是网络中任意类型的资源, 例如文本、图片、资源、甚至是一个语义链网络。关联语义链将Web资源语义化以此来链接松散的资源。只要关联语义链的节点存在语义关系, 那么关联语义链可以链接网络中的任意节点。关联语义规则是关联语义链中的节点之间的关联规则, 表明语义节点之间的关联程度。关联语义链的构造即构造各种语义节点之间的关系。将语义节点由关键词进行语义的表示, 由此建立两个语义节点之间的关系等价于寻找关键词之间的关系。由于语义节点之间可能有一个或者几个关键词, 因此关联语义链由这几个节点的语义规则的和得到^[19]。

常用的关联规则筛选方法为支持度(Support)与置信度(Confidence), 公式如下^[19]:

(1)

(2)

其中, $N (k_{i} k_{j})$ 为关键词 $k_{i}$ 与 $k_{j}$ 在所有语义节点中共同出现的次数, $N (k_{i})$ 为关键词 $k_{i}$ 在所有语义节点中出现的次数。可以将关联语义规则的定义进行扩充, 将语义元素视作关键词, 规则的权值视为置信度。

关联语义链的构造算法如下:

①由语义节点计算语义向量和语义规则。如果关键词出现就标记为1, 否则标记为0, 由此得到语义向量。

②计算两个语义节点的关系语义链权值。由语义规则求和计算得出规则向量。其中求和的方法是将指向同一关键词的权值相加。

③将语义规则与语义向量做“ 与” 操作。得出两个语义节点之间的权值。即得出关联语义链。

④重复以上操作, 直到构造完成。

以上求得的语义链值往往大于1, 因此可以将语义节点的关联语义链值改为其占所有语义节点语义链值的百分比, 使语义链值保持在0到1之间。

公式(3)^[19]说明了如何计算节点之间的关联语义链值, 可以将此链接值作为资源权重。

(3)

其中, 关键词k_i与k_j之间的链接权值, 为所有链接值的和。

2.2 协同过滤算法

协同过滤推荐是目前最为成功的推荐技术, 已经有许多学者将协同过滤方法成功应用到数字资源服务推荐中^{[20, 21, 22]}。协同过滤推荐可以分为以下三个步骤:

(1) 构建用户-项目评分矩阵。收集用户关于资源的评价信息, 并对数据进行清理、转换和录入, 最终得到用户对于资源项目的评分矩阵。

(2) 最近邻居搜索。通过余弦相似性、修正的余弦相似性和相关相似性等公式计算用户间相似度, 得到相似度矩阵。算法在使用基于用户的协同过滤算法时采用相关相似性公式, 而使用基于项目的协同过滤算法时采用修正的余弦相似性度量公式。根据相似度矩阵使用K最近邻方法或者设定阈值方法得到目标用户的最近邻居。

(3) 产生推荐结果。获得目标用户的最近邻居集合后, 预测目标用户对任意项目的评分, 形成 Top-N 推荐列表并返回给用户。

3 数字文献资源内容服务推荐算法

基于内容的推荐算法可对数字文献资源内容进行准确的表征, 且算法简单、查准率高, 但无法发现用户新的或隐含的阅读兴趣, 容易生成无效规则。关联语义链网络以语义互联的方式组织松散的网络资源, 协同过滤算法能发现用户潜在或新的信息需求。本文将关联语义链和协同过滤算法结合起来, 构造数字文献资源内容服务推荐算法, 便于向用户提供真正有价值的数字文献资源内容推荐服务。

3.1 模型构建

本文结合关联语义链和协同过滤算法来构建数字文献资源内容服务推荐算法, 算法模型如图2所示。数字文献资源内容服务推荐算法模型共有三层结构。其中, 资源层用来收集数字文献资源信息, 并将信息保存到数据库中; 推荐层由两个模块构成: 资源模块用来计算数字文献资源之间的关联语义链链接权值, 用户模块用来收集用户浏览数字文献资源信息及评分信息, 在此基础上计算项目相似性; 应用层即为推荐系统实现, 使用公式(4)^[23]计算得分, 并对用户进行推荐。

	Figure Option View Download New Window
	图2 数字文献资源内容服务推荐算法模型

(4)

3.2 算法设计

(1) 关联语义链链接权值计算

本文使用中国科学院计算技术研究所的分词软件ICTCLAS^①将数字文献资源进行分词并保留名词, 对出现频率较高的词汇进行统计和筛选, 得到描述数字文献资源的关键词。再通过公式(3)计算各个数字文献资源之间的关联语义链权值, 执行操作如下:

For each 文献 s  $S_{i}$ ;

For each 关键词 k  $K_{j}$ ;

Do {初始关键词词频阈值μ ;

关键词词频排序;

关键词词频α ; }

If (α > μ )

保留该关键词;

End if

End for

Do {计算数字文献资源之间的链接权值w_u;

}

End for

①http://ictclas.nlpir.org/.

(2) 确定最近邻居

最近邻居指与当前评分行为的用户比较相似的用户群体。最近邻居检索是整个算法的核心部分, 决定推荐算法的效果和效率。最近邻居检索的过程就是协同过滤算法中模型建立的过程, 根据用户评分矩阵和资源相似性, 通过Pearson相似性公式, 将 $w_{u}$ 作为关联语义链链接权值, 加入公式(5)中, 计算出项目 i 和项目 j 之间的相似性, 记为sim(i, j), 执行操作如下:

For each 数字文献资源 s_i  $w_{u} = Confidence (k_{i} \to k_{j}) / \sum_{k_{i}} Confidence (k_{i} \to k_{j})$

For each数字文献资源s_j $w_{u}$

Do{计算资源之间相似度sim(i, j)

}

End for

(5)

其中, 是用户对数字文献资源评分的平均值, 、为对数字文献资源 i、j评分的用户集合, 为关联语义链链接权值。

(3) 数字文献资源推荐

对用户u已打分的数字文献资源的分数进行加权求和, 权值为各个数字文献资源与数字文献资源i的相似度, 对所有数字文献资源相似度的和求平均, 使用公式(4)预测用户u对数字文献资源i的打分, 并对用户进行推荐。

4 实验设计及分析

4.1 关联语义链构建

本文选取两篇文献《我国房地产经济泡沫的形成机理与区域性特征》和《房地产经济波动的影响因素及对策》作为语料, 演示两个文献之间如何生成关联语义链。将两篇文献进行分词并保留名词, 剔除与文献无关以及出现频率小于3的名词。经过预处理后, 第一篇文献提取出的关键词包括: 市场、投资、销售量、资金、原则、影响力、土地、收益率、成果、房地产、经济; 第二篇文献提取出的关键词包括: 决定、动机、市场、形势、房价、房地产、政策、理论、对策、经济。由此得到的关联语义向量, 记为C1{0100000011}、C2{0010010001}。其中, 语义规则R1(2, 10, 0.4)表示关键词2指向关键词10, 权值为0.4。语义规则R2(3, 10, 0.5)表示关键词3指向关键词10, 权值为0.5。语义规则R3(6, 9, 0.7)表示关键词6指向关键词9, 权值为0.7。语义权值向量{0, 0.5, 0, 0, 0, 0, 0, 0.7, 0, 0, 0.4}, 可以得到关联语义链权值和0.4+0.5+0.7=1.6。这样建立了第一篇文献与第二篇文献的链接, 其链接的权值为1.6。同样, 可建立有共同关键词的文献间的链接。设其链接的权值和为N, 那么第一篇文献和第二篇文献链接权值为1.6/N, 即关联度为1.6/N。在建立的过程中, 也可以设定阈值, 删除那些关联度较低的文献, 保留关联度较高的文献。

4.2 算法实验

(1) 数据集

为了检验该推荐算法的有效性, 本文使用MovieLens数据集^①进行实验, 实验数据集中包括U1base和U1test两个文件。为了验证准确性, 从知网经济、历史、计算机、数字图书馆等分类中选取200篇文献作为数据来源, 并请本校本科生120人, 研究生80人对资源进行评分。由于知网中每篇文献描述中包含文献的关键词与摘要, 因此可以利用关键词建立起文献内容之间的关联网络, 并在用户对文献评分的基础上对其他用户进行推荐。

(2) 评价标准

本文使用平均绝对误差(Mean Absolute Error, MAE)对推荐算法进行评价。MAE^[24]计算如公式(6)所示, MAE 越小, 表明推荐的质量越高。

(6)

F评价指标如公式(7)所示^[25], F值越高, 推荐效果越好。

(7)

其中, 查准率(Precision)与查全率(Recall)计算方法如下:

(8)

(9)

(3) 实验结果及分析

实验过程中利用MovieLens数据集测试该算法的有效性, 考虑到训练集规模对于推荐精度的影响, 选取U1base文件作为训练集, 建立用户-项目评分矩阵, U1test文件作为测试集。设定样本间隔数为20, 选取近邻数为10, 不同样本数(20-320个)运行结果见本篇论文网络版支撑数据, 并与Slope协同过滤算法^[25]对比, 对测试数据集中每条评分记录进行预测, 求出其MAE 值。实验结果如图3所示:

	Figure Option View Download New Window
	图3 本文算法与Slope协同过滤算法MAE比较

本文提出算法的MAE评价指标要低于Slope协同过滤推荐算法。样本个数越少, 对应数据源越稀疏。实验以不同稀疏程度的数据测试算法在数据稀疏性方面的表现。当样本个数过少时, 本文提出的算法MAE 值较小, 这是因为加入资源权重因子后, 不需要用户评分即可向用户进行服务推荐。随着已知评分项的增多, MAE 值不断下降, 预测质量较高。当样本数在200到300 之间时, 算法的MAE值最小。之后, 随着样本数的增多, MAE值略有提升。

本文利用从知网抽取的文献资源检验算法准确性, 从数据集中随机抽取10%-90%数据作为训练集^[27], 选取近邻数为10, 利用F评价指标比较数据稀疏程度不同时的推荐效果。实验结果如表1所示:

表1 本文算法F评价指标

随着测试集数据的增多, 算法的查准率与查全率都随之增加, F值随着数据的增多而增大, 表明本文提出的算法通过使用关联语义链的方法提高了推荐准确性, 也说明可以通过增加数字文献资源数量和用户人数, 使得推荐结果更加符合用户对于数字文献资源的偏好。

5 结语

本文引入关联语义链, 提出一种数字文献资源内容服务推荐算法。以关联语义链为基础建立数字文献资源的关联语义链网络, 得到数字文献资源之间关联的权重; 将数字文献资源链接权重加入到Pearson相关性公式中计算用户相似度; 预测评分并对用户进行推荐。实验结果表明, 该算法与传统协同过滤算法相比, 具有更好的推荐精确性, 并且在一定程度上缓解了数据稀疏问题。本文为增强资源服务推荐的准确性和针对性提供了一种新途径, 有利于推进数字文献资源产品的开发与利用, 为用户提供更符合其需求的数字文献资源推荐服务。

参考文献

View Option

[1]	马炎. 一种自适应的协作过滤图书推荐系统研究[J]. 情报杂志, 2008, 27(5): 105-106, 109. (Ma Yan. Research on the Adaptive Collaborative Filtering Recommendation System[J]. Journal of Information, 2008, 27(5): 105-106, 109. ) [本文引用:1]
[2]	董坤. 基于协同过滤算法的高校图书馆图书推荐系统研究[J]. 现代图书情报技术, 2011(11): 44-47. (Dong Kun. Research of Personalized Book Recommender System of University Library Based on Collaborative Filter[J]. New Technology of Library and Information Service, 2011(11): 44-47. ) [本文引用:1]
[3]	吴志强, 马慧娟. 协同信息推荐技术及其在数字图书馆中的应用研究述评[J]. 图书情报工作, 2012, 56(19): 122-127. (Wu Zhiqiang, Ma Huijuan. Review on Researches About the Application of Collaborative Information Recommendation Technologies in Digital Libraries[J]. Library and Information Service, 2012, 55(19): 122-127. ) [本文引用:1]
[4]	熊拥军. 数字图书馆个性化服务资源推荐模式分析[J]. 图书馆, 2014(2): 132-134. (Xiong Yongjun. The Model Analysis of Personalized Information Recommendation Service in Digital Library[J]. Library, 2014(2): 132-134. ) [本文引用:1]
[5]	Koren Y, Bell R, Volinsky C. Matrix Factorization Techniques for Recommender Systems[J]. Computer, 2009, 42(8): 30-37. [本文引用:1]
[6]	Ghazarian S, Nematbakhsh M A. Enhancing Memory-based Collaborative Filtering for Group Recommender Systems Original Research Article[J]. Expert Systems with Applications, 2015, 42(7): 3801-3812. [本文引用:1]
[7]	Zhu Z, Wang J Y. Book Recommendation Service by Improved Association Rule Mining Algorithm [C]. In: Proceedings of the 6th International Conference on Machine Learning and Cybernetics, Hong Kong, China. 2007: 19-22. [本文引用:1]
[8]	Lopes G R, Souto M A M, Wives L K, et al. A Personalized Recommender System for Digital Libraries [C]. In: Proceedings of the 14th Brazilian Symposium on Multimedia and the Web, Brazil. 2008: 59-66. [本文引用:1]
[9]	Amini B, Ibrahim R, Othman M S, et al. Incorporating Scholar’s Background Knowledge into Recommender System for Digital Libraries [C]. In: Proceedings of the 5th Malaysian Conference in Software Engineering (MySEC). 2011: 516-523. [本文引用:1]
[10]	Will T, Srinivasan A, Im I, et al. Search Personalization: Knowledge-Based Recommendation in Digital Libraries[C]. In: Proceedings of the 15th Americas Conference on Information Systems. 2009: 728-735. [本文引用:1]
[11]	杨杰. 个性化推荐系统应用及研究[D]. 合肥: 中国科学技术大学, 2009. (Yang Jie. Application and Research of Personalized Recommender Systems [D]. Hefei: University of Science and Technology of China, 2009. ) [本文引用:1]
[12]	赵琴琴, 鲁凯, 王斌. SPCF 基于内存的传播式协同过滤推荐算法[J]. 计算机学报, 2013, 36(3): 671-672. (Zhao Qinqin, Lu Kai, Wang Bin. SPCF: A Memory Based Collaborative Filtering Algorithm via Propagation[J]. Chinese Journal of Computers, 2013, 36(3): 671-672. ) [本文引用:1]
[13]	贾丽会, 张修如. BP算法分析与改进[J]. 计算机技术与发展, 2006, 16(10): 101-103. (Jia Lihui, Zhang Xiuru. Analysis and Improvements of BP Algorithm[J]. Computer Technology and Development, 2006, 16(10): 101-103. ) [本文引用:1]
[14]	Jung K Y. User Preference Through Bayesian Categorization for Recommendation [C]. In: Proceedings of the 9th Pacific Rim International Conference on Artificial Intelligence, Guilin, China. 2006: 112-119. [本文引用:1]
[15]	任磊. 推荐系统关键技术研究[D]. 上海: 华东师范大学, 2012. (Ren Lei. Research on Some Key Issues of Recommender Systems [D]. Shanghai: East China Normal University, 2012. ) [本文引用:1]
[16]	Chedrawy Z, Abidi S S R. An Adaptive Personalized Recommendation Strategy Featuring Context Sensitive Content Adaptation [C]. In: Proceedings of the 4th International Conference on Adaptive Hypermedia and Adaptive Web-Based Systems. 2006: 61-70. [本文引用:1]
[17]	李静云. 基于用户情境感知的移动图书馆知识推荐系统设计[J]. 图书馆理论与实践 , 2013(6): 19-21. (Li Jingyun. Design of Knowledge Recommender System Based-on Users’ Context-aware for Mobile Library[J]. Library Theory and Practice, 2013(6): 19-21. ) [本文引用:1]
[18]	Hai Z, Zheng L. Ranking Semantic-linked Network [C]. In: Proceedings of the 12th International Conference on World Wide Web. 2003: 114-117. [本文引用:1]
[19]	徐峥. 大规模网络资源环境下关联语义链网络模型及其应用研究[D]. 上海: 上海大学, 2012. (Xu Zheng. Building Association Link Network for Managing Large Scale Web Resources [D]. Shanghai: Shanghai University, 2012. ) [本文引用:3]
[20]	刘飞飞. 基于多目标优化双聚类的数字图书馆协同过滤推荐系统[J]. 图书情报工作, 2011, 55(7): 111-113. [本文引用:1]
[21]	(Liu Feifei. Digital Library Collaborative Filtering Recommendation System Based on Multiobjective Evolutionary Biclustering[J]. Library and Information Service, 2011, 55(7): 111-113. ) [本文引用:1]
[22]	马丽. 基于群体兴趣偏向度的数字图书馆协同过滤技术研究[J]. 现代图书情报技术, 2007(10): 19-22. (Ma Li. Study on Digital Library Collaborative Filtering Technology Based on Group Interest Trend Degree[J]. New Technology of Library and Information Service, 2007(10): 19-22. ) [本文引用:1]
[23]	黄晓斌. 基于协同过滤的数字图书馆推荐系统研究[J]. 大学图书馆学报, 2006, 24(1): 53-57. (Huang Xiaobin. A Study on the Digital Library Recommender System base on Collaborartive Filtering[J]. Journal of Academic Libraries, 2006, 24(1): 53-57. ) [本文引用:1]
[24]	李沛东. 基于语用情境的资源推荐研究及应用[D]. 重庆: 重庆大学, 2011. (Li Peidong. Research and Application of Resource Recommendation base on Pragmatics Context [D]. Chongqing: Chongqing University, 2011. ) [本文引用:1]
[25]	Goldberg K, Toeder T, Gupta D, et al. Eigentaste: A Constant Time Collaborative Filtering Algorithm[J]. Information Retrieval, 2001, 4(2): 133-151. [本文引用:2]
[26]	Zhou T, Kuscsik Z, Liu J G, et al. Solving the Apparent Diversity-accuracy Dilemma of Recommender Systems[J]. Proceedings of the National Academy of Sciences, 2010, 107(10): 4511-4517. [本文引用:1]
[27]	Lemire D, Maclachlan A. Slope One Predictors for Online Rating Based Collaborative Filtering [C]. In: Proceedings of the 2005 SIAM International Conference on Data Mining. 2005: 471-475. [本文引用:1]
[28]	Liu N N, Qiang Y. Eigenrank: A Ranking-oriented Approach to Collaborative Filtering [C]. In: Proceedings of the 31st Annual International ACM SIGIR Conference on Research & Development on Information Retrieval. 2008: 83-90. [本文引用:1]

2008

0.0

. 2008, 27(5):105-106, 109 DOI:doi:10.3969/j.issn.1002-1965.2008.05.033

Research on the Adaptive Collaborative Filtering Recommendation System

一种自适应的协作过滤图书推荐系统研究

Ma Yan

马炎

在知识大爆炸、信息高速发展的年代,如何快速地将用户感兴趣或是对用户有用的信息反馈给用户是本文要解决的问题.通过介绍传统的协作过滤方法,分析其特点以及存在的不足,并基于此提出一种自适应的协作过滤图书推荐系统,以期帮助用户快速地找到需要的书籍条目.

... 1 引言以用户为中心, 根据用户的个性化需求开展具有针对性和主动性的信息服务, 是提高信息服务质量和信息资源使用效率的重要手段^[1] ...

0.0

. , 2011(11):44-47

Dong Kun

董坤

Aiming at the disadvantages of insufficient mining and analysis of readers' information needs existing in the active book recommendation service of university library, the paper brings forward a construction of personalized book recommender system based on collaborative filter. The system imports the factors of faculty, role, education and the readers' records of visiting the reading rooms to construct the reader's characteristic model. By mining and analyzing the characteristic model which uses optimized collaboration filter algorithm, the system can produce the personalized book recommendation to reader.And the experiment proves that the system is efficient and practical.

针对当前高校图书馆主动式图书推荐服务存在的对服务对象信息需求挖掘、分析不足的问题,提出构建基于协同过滤算法的个性化图书推荐系统。通过引入读者专业、角色、学历、借阅记录等影响和反映读者信息需求的因素构建读者特征模型,基于该模型采用优化的协同过滤算法挖掘读者信息需求并产生个性化图书推荐信息,并通过实验证明该方法的有效性和实用性。

... 数字文献资源内容服务推荐是有效满足用户个性化价值追求的有效方法之一^[2] ...

2012

0.0

. 2012, 56(19):122-127

Review on Researches About the Application of Collaborative Information Recommendation Technologies in Digital Libraries

协同信息推荐技术及其在数字图书馆中的应用研究述评

Wu Zhiqiang , Ma Huijuan

吴志强, 马慧娟

The collaborative recommendation system, which has been applied in digital libraries in recent years, is becoming one of major research domains of digital libraries. Researches about the technologies of collaborative recommendation, their application in digital libraries, and typical collaborative recommendation systems of digital libraries are analyzed and summarized. Based on the summarization, some improvement strategies are proposed.

协同信息推荐系统逐渐被应用到数字图书馆中并成为该领域的主要研究主题之一。从协同信息推荐技术本身、该技术在数字图书馆中的应用以及典型数字图书馆协同信息推荐系统研究等方面对相关研究进行分析和述评,并提出数字图书馆协同信息推荐技术应用的改进策略。

... 超星和中国知网都采用基于内容的服务推荐策略^[3] ...

0.0

. , 2014(2):132-134 DOI:doi:10.3969/j.issn.1002-1558.2014.02.041

Xiong Yongjun

熊拥军

面对数字图书馆海量的文献资源,如何方便快捷地为读者提供满足其个性化需求的信息是图书馆服务所面临的问题,推荐技术是解决该问题的一个有效工具。本文阐述了数字图书馆个性化推荐服务的几项关键技术,包括读者兴趣建模、推荐资源对象建模以及资源推荐模式。最后提出了数字图书馆实施资源推荐服务的重难点以及未来的发展趋势。

... 基于协同过滤推荐是根据用户特征、偏好以及对资源访问行为进行分析和挖掘, 识别用户兴趣、资源的关联以及具有相似行为的用户群, 可对多种类型的资源进行过滤, 并能为用户发现新的感兴趣的信息^[4,5,6] ...

2009

0.0

2015

0.0

. , :3801-3812

2007

0.0

... 基于情境的推荐是对传统服务推荐进行扩展, 即在推荐过程中融合情境信息, 如用户性别、年龄、专业、信息需求水平、背景知识等都可以作为情境信息并与推荐算法结合, 为用户提供更符合其个性需求的相关信息^[7,8,9,10] ...

2008

0.0

2011

0.0

2009

0.0

2009

0.0

. 2009, :- DOI:doi:10.7666/d.y1497983

Application and Research of Personalized Recommender Systems [D].

个性化推荐系统应用及研究[D]

Yang Jie

杨杰

Internet为人们提供了极其丰富的信息资源,在这些海量、异构的Web信息资源中蕴含着具有巨大潜在价值的知识。但是,面对信息的汪洋大海,人们往往感到无所适从,出现了所谓的“信息过载”和“信息迷向”的现象。根据用户访问项目的历史记录以及项目之间的相关信息可以构建用户的兴趣模型,从而凭借该用户兴趣模型对繁杂的信息进行过滤,并向用户推荐其可能感兴趣的项目,这就是个性化推荐系统所做的事情。事实上,推荐系统已经成为目前解决信息过载最有效的工具之一。针对个性化推荐系统存在的用户兴趣漂移问题,本文提出了基于网络稠密度的用户兴趣漂移检测方法,并利用该方法设计了包裹(wrapper)一般推荐系统的方法,该方法能在快速检测用户兴趣漂移的同时去除噪声用户对推荐系统的影响,提高推荐系统的精确度和稳定性。并以科技论文在线推荐系统为研究背景,设计了基于网络结构的快速论文推荐算法,并把该算法应用到中国科技论文在线的实际数据上,实现了一个论文在推荐系统网站。主要工作如下: 1)提出了一种能够适用于推荐系统的基于项目相似网络结构的兴趣漂移快速检测算法。该算法根据用户已访问的项目构建相似网络,并以该网络的稠密度和连续度为依据去除噪声用户,同时依据稠密度的变化来检测兴趣漂移的发生与否和发生时刻。由于用户访问项目网络一般较小,计算量大大缩减,实现了在快速检测兴趣漂移的同时,避免了噪声用户数据对推荐系统稳定性的影响。 2)把基于用户访问项目网络稠密度的兴趣漂移检测算法应用到推荐系统,用以解决用户兴趣漂移对推荐系统性能影响的问题。为此,本文实现了基于内容和基于协同过滤两种基本的推荐算法。为验证本文兴趣漂移检测算法应用到推荐系统中的有效性,我们在MovieLens提供的用户对电影评分数据集上,引入模拟的用户兴趣漂移数据。实验结果表明,我们的兴趣漂移检测算法可以有效减少用户兴趣漂移对推荐系统带来的干扰,提高了推荐性能。 3)将推荐系统应用到教育部科技发展中心支持的科技论文共享网站的用户个性化服务项目中,完成推荐系统在中国科技论文在线网站数据上的实际应用。在该项目中,完成了用户行为记录、用户兴趣建模、和论文推荐三个模块,实现了基于论文关键词、基于论文分类和关键词、以及基于用户—论文网络结构的三种推荐方法。结果表明,三种方法能有效推荐用户感兴趣的论文。

... 上述服务推荐策略采用传统的余弦相似度、Pearson相关系数和改进的余弦相似度作为项目相似性计算的基础^[11], 但是近邻查找时间过长, 而且没有考虑相似度计算存在着用户冷启动、评分矩阵稀疏等问题^[12,13,14], 推荐精确性不高 ...

2013

0.0

2006

0.0

. 2006, 16(10):101-103 DOI:doi:10.3969/j.issn.1673-629X.2006.10.034

Analysis and Improvements of BP Algorithm

BP算法分析与改进

Jia Lihui , Zhang Xiuru

贾丽会, 张修如

在人工神经网络中,BP神经网络是一种应用广泛的多层前馈神经网络.分析了BP算法的基本原理,指出了BP算法具有收敛速度慢、易陷入局部极小点等缺陷以及这些缺陷产生的根源.针对这些缺陷,通过在标准BP算法中引入变步长法、加动量项法、遗传算法、模拟退火算法等几种方法来优化BP算法.实验结果表明,这些方法有效地提高了BP算法的收敛性,避免陷入局部最小点.

2006

0.0

2012

0.0

. 2012, :-

Research on Some Key Issues of Recommender Systems [D].

推荐系统关键技术研究[D]

Ren Lei

任磊

随着互联网的高速发展,信息技术已经从专业领域应用扩展到了人类工作和生活的各领域。形式多样的互联网信息服务和应用已渗透到人们生活的方方面面,人类社会原有的物理活动正逐渐向互联网虚拟空间活动演变。特别是社交网络、云计算和P2P应用等技术和服务形式的迅速普及,传统互联网一对多的应用模式正在过渡到多对多的web2.0应用模式,用户不仅是信息内容的使用者,同时也成为信息内容的制造者和传播者。伴随互联网信息资源规模的迅猛增长,用户要在海量信息空间中获得符合自己需求的信息也越发困难,形成了信息过载问题。学术界和业界对信息过载问题表现出了广泛的关注,开展了大量的研究和实践工作,提出了多种形式的信息个性化解决方案, 以期为互联网信息服务用户提供符合其自身需求的信息。推荐系统作为一种智能个性化信息服务系统,其可借助用户建模技术对用户的长期信息需求进行描述,并根据用户模型通过一定的智能推荐策略实现有针对性的个性化信息定制。鉴于推荐系统具有用户需求驱动、主动服务和信息个性化程度高等优点,推荐系统在电子商务、在线学习和数字图书馆等领域得到了广泛应用,并已成为公认最有前途的信息个性化技术发展方向。虽然推荐系统的研究和应用已经取得了一定的成果,但随着近几年网络用户与信息资源规模进一步增长,传统推荐算法中存在的问题逐渐暴露和放大,特别是推荐系统的稀疏性问题和概念漂移问题已成为影响推荐系统准确性的主要问题,妨碍了推荐系统的进一步推广和应用。为了适应互联网信息服务的发展趋势,进一步提高推荐系统及其算法的推荐准确性,本文以减少稀疏性问题和概念漂移问题对推荐算法的影响为目标,对以下八个方面的内容进行了研究和讨论： (1)对互联网信息服务的发展现状进行分析,简要回顾了推荐系统的发展历史,概括总结了推荐系统研究和应用的现状,并详细分析现有推荐算法中存在的问题。 (2)对信息过载问题进行了问题定义和成因分析,在对传统信息检索和信息过滤技术进行对比研究的基础上,从用户建模、推荐策略、算法分类和算法评估等方面,对推荐系统进行全面分析和讨论。 (3)分析稀疏性问题的主要成因和表现,总结稀疏性问题直接和间接影响推荐系统的主要途径,结合现有针对稀疏性问题所进行的算法改进,给出了解决稀疏性问题的主要方法和策略。 (4)传统项目间相似度计算方法存在对公共评分的过度依赖,稀疏性问题会引起公共评分数量的明显减少,而基于少量公共评分的相似度计算将难以保证计算结果的准确性和可信度。针对稀疏性问题对相似度计算的影响,结合传统相似度计算的上述缺陷,提出了一种基于加权相似度的协作推荐算法WSBCF,该算法通过在相似度计算中引入评分重合因子,实现了对相似度计算的修正,从而提高了推荐在稀疏评分环境下的准确性。 (5)传统协作推荐的评分预测过程是一种建立在非稀疏评分矩阵上的理想化决策过程。在稀疏评分环境中,过度依赖个性化评分将引起推荐的整体准确性下降。针对稀疏性问题对评分预测过程的这一影响,结合人类在推荐服务中所表现出的从众心理,提出了一种基于平衡评分预测机制的协作推荐算法IBCFBP,该算法综合考虑个性化评分和全局评分在评分预测中的决策支持作用,通过动态调整个性化评分和全局评分在评分预测中的作用,从而完善和改进了传统评分预测过程。 (6)协作推荐算法的各执行过程都依赖于评分矩阵实现相应功能,评分矩阵的稀疏性将对整个协作推荐产生全方位的影响。针对评分矩阵稀疏性对协作推荐的影响,在推荐对象内容可解析的应用环境中,结合基于内容推荐算法对稀疏性问题的不敏感性,提出了一种基于评分填充的混合推荐算法HRRF,该算法通过采用基于内容的推荐算法,实现了对稀疏评分矩阵的个性化评分填充,提高了评分矩阵的数据密度,从而缓解了稀疏性问题的影响。 (7)分析概念漂移问题的主要成因和表现,总结概念漂移问题影响推荐算法的主要途径,结合机器学习和推荐系统领域的现有改进算法,给出了解决概念漂移问题的主要策略。 (8)针对概念漂移问题对协作推荐系统的影响,结合评分重要性随时间指数形式衰减的性质,提出了一种利用评分时间特性的协作推荐算法TIBCF,该算法利用评分时间权重同时实现了对相似度计算和评分预测两个计算过程的修正,从而缓解了概念漂移问题对协作推荐的干扰作用。本文通过对上述研究内容的讨论,阐明了信息过载问题的产生原因和影响,全面分析了影响推荐系统发展的相关问题,特别针对稀疏性问题和概念漂移问题对协作推荐算法的影响,通过对协作推荐算法各执行过程的完善和改进,提出了相应的改进算法,并实验证明了所提算法在提高协作推荐预测准确性方面的有效性。本文的主要贡献包括： (1)从互联网信息服务的视角阐述了信息过载问题的产生原因和影响。 (2)分析了个性化信息服务的需求,对个性化信息服务进行了形式化定义。 (3)归纳总结了推荐系统的组成结构和工作原理,分析和讨论了推荐系统涉及的用户建模、推荐算法和算法评价等内容。 (4)讨论了稀疏性问题和概念漂移问题的主要成因,以及二者影响推荐系统的途径,对比分析了现有解决方法,概括了解决二者的主要策略。 (5)针对稀疏性问题对协作推荐的影响,通过完善相似度计算、改进评分预测机制和提高评分数据密度,缓解了稀疏性问题的影响,分别提出了WSBCF、 IBCFBP和HRRF算法,并通过实验证明了上述三种算法,在提高推荐准确性方面的有效性。 (6)针对概念漂移问题对协作推荐的影响,通过时间权重改进了相似度计算和评分预测过程,相应提出了TIBCF算法,并实验证明了该算法在解决概念漂移问题以及提高推荐准确性方面的有效性。

... 另一方面推荐项目与用户模型耦合过于紧密, 无法发现用户潜在的信息资源需求^[15,16] ...

2006

0.0

... 另一方面推荐项目与用户模型耦合过于紧密, 无法发现用户潜在的信息资源需求^[15,16] ...

0.0

. , 2013(6):19-21 DOI:doi:10.3969/j.issn.1005-8214.2013.06.006

Li Jingyun

李静云

移动图书馆对用户进行知识推荐时,考虑用户情境感知因素是非常必要的,因为将用户情境感知引入移动图书馆知识推荐平台具有较多的优势.文章对此进行了分析,并设计了基于用户情境感知的移动图书馆知识推荐系统框架.

... 鉴于此, 本文提出一种基于关联语义链和协同过滤组合的算法, 以此解决评分数据集稀疏和耦合紧密问题, 从而增强推荐的准确性^[17] ...

2003

0.0

... 关联语义链网络通常都是由三个部分组成(N, L, R), 即N语义节点, L关联语义链和R关联语义规则^[18], 如图1所示: ...

2012

0.0

. 2012, :-

Building Association Link Network for Managing Large Scale Web Resources [D].

大规模网络资源环境下关联语义链网络模型及其应用研究[D]

Xu Zheng

徐峥

作为一种全球范围的信息共享设施，互联网已成为推动经济和社会发展的动力。在具有海量资源的互联网环境中，不同的资源又以领域（例如不同主机中存储的资源，电子图书馆中关于某个学科领域的资源等）的形式构成了为数众多的大规模网络资源环境。现今的互联网环境已经逐渐演变成了一个具有领域特性的包含大规模网络资源的复杂信息存储与共享环境。不同的领域中的资源呈指数增长，加之网络资源的异构性、弱相关性及强的动态性等，大规模的网络资源与人的有限认知能力之间的矛盾将更加突出。如何有效的组织大规模的网络资源，并通过简洁的方式从资源空间映射到语义空间，实现大规模资源在语义层的互联，成为网络信息处理领域研究的热点。针对上述研究背景，本论文提出基于关联语义的网络资源语义互联模型—关联语义链网络，主要聚焦于三个关键问题： (1)资源关键词之间语义区分能力。如何计算资源的关键词语义区分能力，使得关键词层次的概念符合人类认知特点，消除关键词与人类认知之间的障碍，减轻人类的认知负担，使得用户在浏览或者检索大规模网络资源的时候更加便捷有效。关键词语义区分能力是资源之间关联语义互联建立的基础； (2)资源之间语义互联能力。如何实现网络环境下的大规模资源在语义层上互联，消除资源语义孤岛，通过简洁的方式从资源空间映射到语义空间，使得各种资源在简洁的语义空间中得到统一和互联；如何协调大规模网络资源环境的规范性和自组织性，统一、规范、有效地组织和管理数据资源和服务资源； (3)资源之间语义约束能力。如何使得资源的组织符合大规模网络环境的动态性与时序性，使得动态网络环境下的无序资源规范化，使资源操作准确、方便，以实现有效的资源共享；如何使得资源的组织符合一定的构造范式（例如无标度或小世界特性），将噪音，冗余的链接从资源之间去除，使得资源的组织更好的满足用户的认知需求。针对这三个关键问题，本论文的主要研究内容为： (1)针对第一个关键问题，本文提出将互联网中的资源进行分层，暨话题层，资源层，与关键词层。分层之后的大规模网络资源可以按照相关的领域进行融聚，提高资源组织的准确性。在关键词层我们提出了关键词的语义区分能力计算，语义区分能力的提出符合人类的认知特点，并为在资源与话题层次有效的构建语义互联提供了坚实的基础。同时，我们提出利用关键词的幂律分布特性函数来计算关键词的语义区分能力。经实验验证：所提出的方法较好的平衡了计算复杂度与准确性之间的关系，为大规模网络资源的语义区分提供良好的应用前景； (2)针对第二个关键问题，本文提出了一个基于资源之间关联语义关系的资源组织模型—关联语义链网络，通过构建资源之间的关联语义链，对特定领域内的大规模网络资源进行有效的管理和组织。同时对该模型的框架，特点，形式化，操作等进行了系统的研究。基于人类认知机理，通过挖掘数据之间的关联语义，建立了资源之间的关联语义链。经过实验验证：提出的关联语义链网络可以准确的建立资源之间的关联语义，且构建过程自动，不需要人工构建本体，在大规模的网络资源环境下，可有效减少用户的认知负担。 (3)针对第三个关键问题，本文提出了关联语义链网络模型的时序增量构造算法。利用协同过滤与重复检测技术使得关联语义链网络具有时序特性，满足大规模网络资源的动态性。同时对构造出的关联语义链网络模型建立不同的构造范式，通过复杂网络领域特性的分析，使得关联语义链网络模型兼备规范性与自组织性。此外，本文利用关联语义链网络模型构建了一个具有600万网页规模的网络热点分析系统。经过实际的大规模网络资源环境的验证，本文所提出的关联语义链网络模型可以较好的在关键词，资源，话题层次构建出相应的语义虚拟层，为用户提供有效的知识服务。

... 由于语义节点之间可能有一个或者几个关键词, 因此关联语义链由这几个节点的语义规则的和得到^[19] ...

... 常用的关联规则筛选方法为支持度(Support)与置信度(Confidence), 公式如下^[19]: ...

... 公式(3)^[19]说明了如何计算节点之间的关联语义链值, 可以将此链接值作为资源权重 ...

2011

0.0

. 2011, 55(7):111-113

基于多目标优化双聚类的数字图书馆协同过滤推荐系统

刘飞飞

Personalized service technology has become the research focus of digital library.This paper proposes a multi-objective evolutionary biclustering technique to carry out clustering of rows and columns at the same time, and the algorithm is able to group similarities between users and items. In order to evaluate the proposed methodology, the paper applied it to MovieLens dataset which contains user’s ratings to a large set of movies. The results indicate that the proposal is able to provide useful recommendations for the users, outperforming other methodologies for CF reported in the literature.

针对数字图书馆推荐系统，提出一种能够同时考虑用户和项之间的相似性的协同过滤(CF)方法，即应用多目标优化计算双聚类技术对行和列同时进行聚类，完成对用户和项相似性同时分组。为评估算法的效率，应用MovieLens数据集进行实验，结果表明该方法能够为用户提供有用的推荐意见，其性能优于其他CF方法。

... 2 协同过滤算法协同过滤推荐是目前最为成功的推荐技术, 已经有许多学者将协同过滤方法成功应用到数字资源服务推荐中^[20,21,22] ...

2011

0.0

... 2 协同过滤算法协同过滤推荐是目前最为成功的推荐技术, 已经有许多学者将协同过滤方法成功应用到数字资源服务推荐中^[20,21,22] ...

0.0

. , 2007(10):19-22 DOI:doi:10.3969/j.issn.1003-3513.2007.10.005

Ma Li

马丽

针对数字图书馆协同过滤推荐系统所面临的用户评分数据稀疏性问题,提出群体兴趣偏向度的计算方法,对用户-项目评分矩阵空缺值进行预测。实验结果表明,该算法能有效提高推荐质量。

... 2 协同过滤算法协同过滤推荐是目前最为成功的推荐技术, 已经有许多学者将协同过滤方法成功应用到数字资源服务推荐中^[20,21,22] ...

2006

0.0

. 2006, 24(1):53-57 DOI:doi:10.3969/j.issn.1002-1027.2006.01.012

A Study on the Digital Library Recommender System base on Collaborartive Filtering

基于协同过滤的数字图书馆推荐系统研究

Huang Xiaobin

黄晓斌

信息推荐服务是数字图书馆的一项重要功能.该文论述了基于协同过滤的数字图书馆推荐系统的基本原理与特点、数字图书馆进行协同推荐的必要性,介绍了基于协同过滤推荐系统的主要方法和技术,并分析了目前协同过滤方法在数字图书馆推荐系统中应用的一些实例.

... 应用层即为推荐系统实现, 使用公式(4)^[23]计算得分, 并对用户进行推荐 ...

2011

0.0

. 2011, :-

Research and Application of Resource Recommendation base on Pragmatics Context [D].

基于语用情境的资源推荐研究及应用[D]

Li Peidong

李沛东

随着互联网的飞速发展，网络信息过载已成为目前网络用户所面临的主要问题，资源推荐系统为解决这一问题提供了有效手段，它可以为用户提供信息过滤和资源推荐服务，提高了用户的工作效率，正逐渐被大多数用户所青睐，而资源推荐的研究亦成为学者研究的重要领域。目前，现有的主要推荐系统有基于规则的推荐、基于内容的推荐、协同过滤推荐等。　　基于规则的推荐是根据用户和规则模型产生的推荐，它可以满足用户实时性的需要，但规则的制定需要领域专家的参与，随着时间的推移会产生偏差和难以更新的问题，从而降低推荐的效率。基于内容的推荐是通过计算被推...

... MAE^[24]计算如公式(6)所示, MAE 越小, 表明推荐的质量越高 ...

2001

0.0

Information Retrieval. , 4(2):133

Ken Goldberg (1) , Theresa Roeder (2) , Dhruv Gupta (2) , Chris Perkins (2)

1. IEOR and EECS Departments, University of California, Berkeley, CA, USA 2. IEOR Department, University of California, Berkeley, CA, USA

... F评价指标如公式(7)所示^[25], F值越高, 推荐效果越好 ...

... 设定样本间隔数为20, 选取近邻数为10, 不同样本数(20-320个)运行结果见本篇论文网络版支撑数据, 并与Slope协同过滤算法^[25]对比, 对测试数据集中每条评分记录进行预测, 求出其MAE 值 ...

2010

0.0

PNAS. 2010, 107(10):4511

Solving the apparent diversity-accuracy dilemma of recommender systems

Tao Zhou a , b , c , d , Zoltán Kuscsik a , e , Jian-Guo Liu a , b , c , Matúš Medo a , Joseph Rushton Wakeling a , and Yi-Cheng Zhang a , c , 1

a Department of Physics, University of Fribourg, Chemin du Musée 3, CH-1700 Fribourg, Switzerland; b Department of Modern Physics and Nonlinear Science Center, University of Science and Technology of China, Hefei 230026, China; c Research Center for Complex Systems Science, University of Shanghai for Science and Technology, Shanghai 200093, China; d Web Sciences Center, University of Electronic Science and Technology of China, Chengdu 610054, China; and e Department of Theoretical Physics and Astrophysics, P. J. Šafárik University, Park Angelinum 9, Košice 04001, Slovak Republic

Recommender systems use data on past user preferences to predict possible future likes and interests. A key challenge is thatwhile the most useful individual recommendations are to be found among diverse niche objects, the most reliably accurate resultsare obtained by methods that recommend objects based on user or object similarity. In this paper we introduce a new algorithmspecifically to address the challenge of diversity and show how it can be used to resolve this apparent dilemma when combinedin an elegant hybrid with an accuracy-focused algorithm. By tuning the hybrid appropriately we are able to obtain, withoutrelying on any semantic or context-specific information, simultaneous gains in both accuracy and diversity of recommendations.

2005

0.0

... 本文利用从知网抽取的文献资源检验算法准确性, 从数据集中随机抽取10%-90%数据作为训练集^[27], 选取近邻数为10, 利用F评价指标比较数据稀疏程度不同时的推荐效果 ...

2008

0.0