高校图书馆个性化电子图书荐购系统的设计和实现
唐小新1, 李高虎2, 唐秋鸿3, 曹红兵1, 高嵩2
1.广西大学图书馆 南宁 530004
2.北京邮电大学资产经营公司 北京 100876
3.暨南大学管理学院 广州 510632
摘要

设计和实现一个基于图书馆OPAC系统中纸质图书流通日志记录的个性化电子图书荐购系统,该系统包含三个子模块:读者荐购模块、个性化电子图书荐购模块、荐购管理与信息推送模块。利用数据挖掘技术和分布式异构技术,将读者专业背景对应的电子图书书目数据发送到OPAC“我的图书馆”中供读者荐购。该系统产生的荐购结果,不但能够应用于电子图书的荐购,而且也能应用于传统纸质图书的荐购和新书推荐服务,具有广泛的应用前景。

关键词: 电子图书; 个性化荐购; 数据挖掘; O-cluster
Design and Implementation of Personalized E-book Purchasing Recommendation System in University Libraries
Tang Xiaoxin1, Li Gaohu2, Tang Qiuhong3, Cao Hongbing1, Gao Song2
1.Guangxi University Library, Nanning 530004, China
2.Beijing University of Posts and Telecommunications Assets Management Co., Ltd, Beijing 100876, China
3.Management School, Jinan University, Guangzhou 510632, China
Abstract

This paper designs and implements a personalized e-book purchasing recommendation system based on the circulation log records of OPAC system, which including three models such as readers’ purchasing recommendation, personalized e-book purchasing recommendation, and purchasing recommendation management & information pushing. The system can send the e-book bibliographic data corresponding to readers’ professional background to MyLibrary of the OPACs for readers to recommend purchasing of e-books. The system can not only be used to the purchasing recommendation of electronic books, but also to that of the traditional printed books and many other broad fields such as new book recommendation service.

Keyword: E-books; Personalized purchasing recommendation; Data mining; O-cluster
1 引 言

一直以来,读者荐购是高校图书馆广泛获取读者需求、引导文献资源建设的有效方式之一。目前,图书馆常用的读者荐购方式主要有:传统的非书面荐购方式(如电话或者面对面荐购)、圈选书单、设置推荐记录册、现场荐购,以及通过计算机和网络手段的荐购模式,如网页发布、邮件推送、荐购论坛、荐购系统等[ 1]

罗毅[ 2]指出,当前绝大多数高校图书馆都提供了网上的传统纸质图书的荐购服务,但对于电子图书的荐购服务则没有涉及。唐小新等[ 3]虽然涉及了电子图书采购系统的设计与实现方面的问题,但其研究仅从采访人员需求的角度出发,而没有考虑读者的需求度。国内外针对读者需求的电子图书个性化荐购服务方面的深入研究尚不多见[ 3],更鲜少有能利用图书馆传统纸质图书的借阅记录, 通过聚类方法,为不同专业背景的读者提供个性化的电子图书书目推荐的成功案例。

本文以广西大学图书馆电子图书采购为例,通过对广西大学图书馆现有纸质图书的流通日志进行数据挖掘并进行分析,设计和实现一个基于图书馆OPAC系统中流通日志记录的嵌入个性化电子图书荐购系统,以供读者对电子图书进行个性化荐购,从而以电子图书的优势来弥补纸质图书在流通方面的缺陷,更好地满足读者的需求。所开发的系统应当能够满足以下三方面的要求:

(1)方便性强,能充分引起读者荐购的兴趣度;

(2)能够进行信息过滤,充分结合读者专业背景和历史借阅行为,有针对性地为读者提供电子图书书目进行荐购;

(3)具有信息揭示和推送服务能力。

2 高校图书馆OPAC个性化电子图书荐购系统的总体设计框架

针对满足读者个性化电子图书荐购需求,在不改动原有图书管理系统结构的情况下,在OPAC中增加个性化电子图书荐购系统,其设计框架如图1所示:

图1 OPAC个性化电子图书荐购系统的设计框架

个性化电子图书荐购系统框架分为三个方面:

(1)读者使用方面

读者登录OPAC中的“我的图书馆”进入个性化电子图书荐购模块进行荐购。

(2)个性化电子图书荐购模块后台实现

通过利用数据挖掘技术和分布式异构技术来解决,数据挖掘技术则采用聚类分析法,通过分析MELINETSⅡ数据库中的读者数据、纸质图书主书目数据、纸质图书流通日志数据三者之间的内在关系,利用数据连接清理并提取挖掘所需的数据,聚类挖掘形成专业与纸质图书分类号对应的聚类集,再把它与查重后的电子图书书目数据的分类号进行比较,形成与读者专业背景对应的电子图书书目数据到OPAC中读者的“我的图书馆”中供读者荐购。

(3)荐购管理与信息推送方面

采访人员通过荐购数据管理功能进行采购判断,如满足馆藏需要则进行购买,并通过E-mail通知读者,同时修改OPAC中读者的“我的图书馆”荐购电子图书状态,如不满足需要则放弃荐购。

个性化电子图书荐购系统主要通过挖掘纸质图书的流通记录来实现数据挖掘,纸质图书的流通记录从借阅、续借两个方面反馈读者的行为。读者的借阅图书信息,表明对该图书具有兴趣的倾向意图,反映读者的读书类别倾向。续借的书一定是读者非常感兴趣的。然而读者的兴趣会随着时间而发生变化,对一些原本感兴趣的图书会失去兴趣,并产生新的兴趣,所以影响分析结果还存在于在一定周期内读者的借阅次数[ 4]

图2 影响聚类分析法结果的因子

涉及读者专业所对应的图书分类号聚类算法中所需要素包括纸质图书分类号J、纸质图书流通日志周期时间T、读者所属专业P三个因子,从图2可以看出,聚类算法提取的大量数据需要从MELINETSⅡ纸质图书主书目数据中提出每种纸质图书的分类号J,周期时间T内流通日志数据中有关读者借、续纸质图书等日志记录,读者数据中的读者所属专业,通过聚类算法对三者关系中的数据形成聚类,产生以读者专业所对应的纸质图书分类号兴趣集,将每个专业对应分类号兴趣集与电子图书荐购目录关联,形成可荐购的电子图书书目,供读者对自己感兴趣的电子图书进行荐购,从而改变当前电子图书荐购的现状。

3 高校图书馆OPAC个性化电子图书荐购推荐系统的具体实现

随着电子图书出版规模的扩大、读者和图书种类的数量急剧增长, 个性电子图书荐购系统的书目服务水平直接影响到读者对电子图书的荐购。通过聚类可以有效解决这样的问题,它将具有相似兴趣偏好的读者聚集在相同的簇中,聚类产生后,只需在目标用户所属类别中查找其最近邻居并进行荐购,可以缩小读者的荐书电子书目范围, 并提高系统实时响应的速度和推荐结果的准确率。

3.1 正交分区集群聚类算法

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的典型聚类算法,对于聚类中的每个对象,在给定的半径Eps 领域中至少要包含最小数目MinPts 个对象。引入密度可达的概念,一个簇是基于密度可达性的最大密度相连对象的集合。不包含在任何簇中的对象被认为是“噪声”[ 5, 6, 7]。本文结合中图法分类,对读者所属专业的纸质图书借阅记录在中图法分类中的分布进行区域聚合,建立以读者所属专业为背景的纸质图书中图分类法兴趣模型。

考虑到MELINETSⅡ后台数据库为Oracle 11g,挖掘工具选用Oracle Data Mining,它支持两种聚类方法:增强的等级K平均集群(Enhanced K—means Algorithm)和正交分区集群 Orthogonal Partitioning Clustering(O-Cluster)Algorithm[ 8, 9, 10],正交分区集群属于密度聚类算法的一种,能自动检测数据中自然集群的个数(在用户指定的限制范围内),在高维空间(很多属性)中特别有用。集群分析是在数据中发现各种矩心的流行方法,它可以揭示某些额外洞察力,例如同一专业借阅率高价值图书分类[ 11]

3.2 正交分区集群聚类前数据的采集与清理

建立以读者所属专业为背景的纸质图书中图分类法兴趣模型,在使用正交分区集群聚类算法进行聚合时,需要对MELINETSⅡ数据库中提取的数据进行清理,本文从MELINETSⅡ数据库中的读者专业表Readermajor、读者表Readers、纸质图书主书目表MAIN_BIBLI、纸质图书流通日志表Circulog_a四个表,通过表的连接,清理出字段为读者专业、图书分类号、流通操作时间,周期为2年的180多万条记录。具体操作的SQL语句如下:

select MAJOR,CLASS_NO_1,OPERATE_DATE /*从连接数据中提取聚类算法中涉及的数据*/

from

(select READER_BARCODE,READER_NAME,MAJOR from readermajor,readers where IDENT_ID=A1 and MAJOR is not null) c,/*形成读者表与读者专业表关联的连接表c*/

(select CLASS_NO_1,READER_BARCODE,OPERATE_DATE from MAIN_BIBLI a,circul.circulog_a b where a.REC_CTRL_ID=b.REC_CTRL_ID) d/*形成主书目表与借阅日志表关联的连接表d*/

where a.READER_BARCODE=b.READER_BARCODE/*以读者条码为表a、b中数据连接条件/

order by MAJOR;/*以读者所属专业为排序条件*/

上述SQL语句在Benthic Software工具中执行情况如图3所示:

图3 数据的采集与清理情况
3.3 正交分区集群聚类结果

通过对图3中的数据进行分组汇总,形成不同专业对应的不同分类号纸质图书的借阅次数,对不同专业下不同分类号的借阅次数在ODM工具进行O-Cluster算法分析,聚类结果如图4所示:

图4 聚类O-Cluster算法结果

通过使用O-Cluster算法聚类结果:Alltimes为借阅次数,Values为借阅次数聚类值,Values为[1,3.53]对应的图书分类值价不高,提取Alltimes值在Values值 (3.53,6.06]以后的值所对应图书分类号,形成以读者专业为基础的纸质图书中图分类法兴趣集。

表1 植物保护专业感兴趣的部分图书分类号

如表1所示,通过对植物保护专业纸质图书流通日志进行O-Cluster聚类后,建立以读者所属植物保护专业为背景的中图分类法兴趣模型,从图书分类号数据中提取792个植物保护专业感兴趣的图书分类号,用于个性化电子图书荐购系统的开发。

3.4 分布式电子图书书目查重

超星、书生、方正等电子图书数据库分布在不同服务器上,且大部使用SQL Server数据库为后台数据库,开发上它们采用同样的连接方式实现连接。连接语句如下所示:

con1:='Provider=SQLOLEDB.1;Password=ssreader123;Persist Security Info=True;User ID=ssreader;Data Source='+serverip1;/*为SQL Server数据库连接方法,serverip1为服务器IP地址*/

电子图书书目查重主要通过分布式多次循环的方式实现,同一电子图书书单以未重电子图书的ISBN号分别对超星、书生、方正数据库中的电子图书逐一循环比较,在电子图书书单中的查重标识字段标识出已经重复的电子图书,以供读者荐购。

3.5 个性化电子图书荐购书目的实现

当读者登录到OPAC中“我的图书馆”,选择电子图书荐购功能时,系统触发一个查询语句,从电子图书征订数据表中选出订购状态为未订购且分类号在O-Cluster算法提取的图书分类号集的数据,查询语句如下所示:

SELECT * FROM Ebook_ACQ WHERE CLASS_NO_E IN(SELECT CLASS_NO_1 FROM OCLUSTERP WHERE PRONAME='植物保护');/* Ebook_ACQ为电子图书征订书目表,CLASS_NO_E为电子图书分类号,OCLUSTERP为O-Cluster以专业为背景聚类后的图书分类集表,PRONAME为专业名称*/

当读者荐购完后,提交形成征订数据反馈给采访工作人员,工作人员判断是否采购,若采购则向数据商提交订单,并修改订单状态为已购,同时E-mail通知读者,完成荐购过程。

4 应用效果

本文结合2010年度国家社会科学基金项目“高校图书馆个性化服务系统开发研究”的数据挖掘成果,通过利用ODM工具中的 O-Cluster算法,从MELINETS Ⅱ的大量历史纸质图书流通日志中,提验出以读者专业为背景的纸质图书中图分类兴趣集,应用到电子图书的荐购服务中,实现了以读者专业为背景的电子图书个性化荐购服务,扩展了OPAC的服务功能,实现了图书馆与读者的互动交流,提升了图书馆服务能力与服务水平。

(1)实际研发过程,主要分为荐购管理和读者推荐两部分。荐购管理由采访部工作人员管理,如图5所示:

图5 工作人员荐购管理界面

荐购管理保留了采访部工作人员传统的订单管理模式,通过“选择订购订单”的方式,在“已订购电子图书”中浏览该订单下所订购的电子图书情况,承接了MELINETSⅡ的采访子系统的界面风格,工作人员操作更习惯、更方便。

读者电子图书荐购界面有效地嵌入到MELINETSⅡ的OPAC“我的图书馆”中,通过读者登录的方式获取读者的个性化信息,达到实现针对性的个性化荐购目的,如图6所示:

图6 植物保护专业荐购书目

植物保护专业大三的读者,通过OPAC登录到“我的图书馆”,进入电子图书荐购功能后,出现如图6所示的电子图书荐购书目数据。可见,充分结合读者专业背景,有针对性地为读者提供电子图书书目荐购,提高了读者的兴趣度,达到了良性互动的效果。

(2)采用E-mail信息推送服务和修改读者的“我的图书馆”电子图书荐购信息,及时告知读者其所荐购的电子图书状态,提升了个性化服务水平与能力,方便读者及时掌握规划学习进度,读者荐购的电子图书安装完成后,系统将通过E-mail向读者发送电子图书的链接地址。

(3)采用以读者专业为背景的兴趣模式,进行信息过滤,缩小了读者荐购电子图书书目查询范围,加快了系统的响应速度。

5 结 语

在图书馆管理模式由“资源-服务-需求”转变为“需求-服务-资源”的转变中,通过挖掘纸质图书流通日志中读者行为数据,分析读者的需求兴趣,建立基于读者资源需求兴趣模型,用于开展电子资源的个性化服务,能有效地满足读者个性荐购需要和提高电子资源利用率。

(1)在基于读者专业背景的中图分类法兴趣模型挖掘中,采用ODM工具的O-Cluster聚类算法,挖掘操作简单,执行效率高,结果简单易懂,同时提供丰富SQL语句便于后期开发引用。

(2)个性化电子图书荐购系统采用客户端与浏览器结合模式,充分结合了采访部工作人员的传统管理方式和方便读者进行荐购的浏览器模式,而且集成嵌入到OPAC中的“我的图书馆”,同时通过E-mail进行荐购电子图书状态信息的推送服务。

(3)挖掘基于读者专业背景的中图分类法兴趣模型结果,具有广泛的应用前景,不但能够应用于电子图书的荐购,而且也能应用于传统纸质图书的荐购和新书推荐服务。

当前基于流通日志个性化电子图书荐购系统还有待进一步完善,如通过搭建更多基于读者需求的兴趣模型,丰富个性化服务能力,从单一的浏览器服务模式走向基于iPad移动服务,这样才能更好地满足读者的个性化信息服务需求。

参考文献
[1] 陈新红, 郭冬梅. 基于读者荐购的高校图书馆文献资源建设[J]. 中华医学图书情报杂志, 2011, 20(9): 36-37.
(Chen Xinhong, Guo Dongmei. Development of Literature Resources in Academic Libraries Based on Readers-recommended Acquisition[J]. Chinese Journal of Medical Library and Information Science, 2011, 20(9): 36-37. ) [本文引用:1] [CJCR: 0.8253]
[2] 罗毅. 高校图书馆荐购系统现状与问题研究[J]. 图书馆学研究, 2010(12): 46-49.
(Luo Yi. A Research on the Present Situations and Problems of the Recommendation System in the University Library[J]. Research on Library Science, 2010(12): 46-49. ) [本文引用:1]
[3] 唐小新, 李高虎. 基于MELINETSⅡ嵌入式电子图书采购系统的设计与实现[J]. 现代图书情报技术, 2009(12): 83-88.
(Tang Xiaoxin, Li Gaohu. The Design and Implementation of Embedded E-Book Acquisition System Based on MELINETS Ⅱ[J]. New Technology of Library and Information Service, 2009(12): 83-88. ) [本文引用:2] [CJCR: 1.073]
[4] 武建伟, 俞晓红, 陈文清. 基于密度的动态协同过滤图书推荐算法[J]. 计算机应用研究, 2010, 27(8): 3013-3015.
(Wu Jianwei, Yu Xiaohong, Chen Wenqing. Density-based Dynamic Collaborative Filtering Books Recommendation Algorithm[J]. Application Research of Computers, 2010, 27(8): 3013-3015. ) [本文引用:1] [CJCR: 0.601]
[5] Ester M, Kriegel H P, Sand er J, et al. A Density-based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[C]. In: Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining(KDD-96). Portland , Oregon: AAAI Press, 1996: 226-231. [本文引用:1]
[6] 于亚飞, 周爱武. 一种改进的DBSCAN密度算法[J]. 计算机技术与发展2011, 21(2): 30-33, 38. (Yu Yafei, Zhou Aiwu. An Improved Algorithm of DBSCAN[J]. Computer Technology and Development, 2011, 21(2): 30-33, 38. ) [本文引用:1] [CJCR: 0.74]
[7] Qian W, Gong X, Zhou A. Clustering in Very Large Databases Based on Distance and Density[J]. Journal of Computer Science and Technology, 2003, 18(1): 67-76. [本文引用:1] [CJCR: 0.4]
[8] Clustering[EB/OL]. [2012-02-13]. http://docs.oracle.com/cd/B28359_01/datamine.111/b28129/clustering.htm#CHDIIABF. [本文引用:1]
[9] O-Cluster[EB/OL]. [2012-02-13], http://docs.oracle.com/cd/B28359_01/datamine.111/b28129/algo_oc.htm. [本文引用:1]
[10] Clustering in Oracle Data Mining[EB/OL]. [2012-02-13]. http://www.chinakdd.com/portal.php?mod=view&aid=2368. [本文引用:1]
[11] 李凯. 自动化数据挖掘在电信业中的应用[D]. 北京: 北京邮电大学, 2008.
(Li Kai. Automatically Data Mining in Telecom Business[D]. BeiJing: BeiJing University of Posts and Telecommunications, 2008. ) [本文引用:1]