基于图书评论属性挖掘的群组推荐研究*

doi:10.11925/infotech.2096-3467.2019.0649

基于图书评论属性挖掘的群组推荐研究*

熊回香^,^,¹, 李晓敏¹, 李跃艳²

¹华中师范大学信息管理学院武汉 430079

²南京大学信息管理学院南京 210023

Group Recommendation Based on Attribute Mining of Book Reviews

Xiong Huixiang^,^,¹, Li Xiaomin¹, Li Yueyan²

¹School of Information Management, Central China Normal University, Wuhan 430079, China

²School of Information Management, Nanjing University, Nanjing 210023, China

通讯作者: 熊回香,ORCID：0000-0001-9956-3396,E-mail：hxxiong@mail.ccnu.edu.cn。

第一联系人:

收稿日期: 2019-06-11 修回日期: 2019-08-1 网络出版日期: 2020-02-25

基金资助:

*本文系华中师范大学中央高校基本科研业务费(人文社科类)重大项目“基于语义网的在线健康信息的挖掘与推荐研究”. CCNU19Z02004
国家社会科学基金项目“融合知识图谱和深度学习的在线学术资源挖据与推荐研究”的研究成果之一. 19BTQ005

Received: 2019-06-11 Revised: 2019-08-1 Online: 2020-02-25

摘要

【目的】 利用用户、标签、图书三者之间的关系实现群组推荐。【方法】 通过用户-标签、图书-标签的标注关系,利用K-means算法进行用户聚类和图书聚类,形成用户群组和图书群组,并进行余弦相似度计算,从图书评论属性角度对不同图书类型进行对比,并对图书进行打分、排序和聚类,实现个性化推荐。以“豆瓣网”为例对模型进行验证。【结果】 基于图书评论属性挖掘的推荐模型能够为用户群组准确有效地推荐资源,推荐效果较好。【局限】 样本数据集有限,采集的用户以及图书数量较少。【结论】 结合图书评论属性挖掘的推荐模型对个性化推荐效果有一定的提升。

关键词： 社会化标注 ; 群组推荐 ; 聚类 ; 图书评论

Abstract

[Objective] This paper conducts group recommendation using the relationship among users, tags and books.[Methods] First, we used the K-means algorithm to cluster users and books. Then, we calculated cosine similarity of the two groups. Third, we compared various books based on their reviews. Finally, we sorted and clustered books to personalize the recommendation results.[Results] We examined the proposed model with data from “Douban Net” and our model recommended better resources for user groups.[Limitations] The sample data size needs to be expanded.[Conclusions] The proposed model improves the personalized recommendation of books.

Keywords： Social Tagging ; Group Recommendation ; Clustering ; Book Comments

PDF (750KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

熊回香, 李晓敏, 李跃艳. 基于图书评论属性挖掘的群组推荐研究*. 数据分析与知识发现[J], 2020, 4(2/3): 214-222 doi:10.11925/infotech.2096-3467.2019.0649

Xiong Huixiang. Group Recommendation Based on Attribute Mining of Book Reviews. Data Analysis and Knowledge Discovery[J], 2020, 4(2/3): 214-222 doi:10.11925/infotech.2096-3467.2019.0649

1 引言

Web2.0时代,国内外涌现出一批Web2.0网站,如Delicious、Flickr、豆瓣、博客等。这些网站将互联网用户从信息接受者转变为信息创建者、组织者和传播者,从受众转向主体,从单个个体转向社团^[1]。在线评论作为一种由用户自己创建的网络信息,快速增长,海量的评论会造成信息过载,对用户有价值的信息也会淹没其中^[2]。因此,有必要对评论信息进行分析挖掘。

典型的个性化推荐技术包括协同过滤、基于内容的推荐及混合推荐。协同过滤技术的基本原理是通过分析历史数据,生成与当前用户行为兴趣最相近的用户集,将他们最感兴趣的项作为当前用户的推荐结果^[3]。基于协同过滤技术的推荐过程可分为三个阶段：数据表述、发现最新邻居、产生推荐数据集^[4]。基于内容的推荐技术是系统基于用户评价对象的特征学习用户的兴趣,根据用户资料与待预测项目的匹配程度进行推荐^[5]。混合推荐是为弥补单个推荐方法的不足而出现的,基本思路是结合多种方法避免单一推荐方法的缺点。文献[6]借鉴社会网络中人与人之间的信任评价方法,提出基于信任机制的协同过滤算法;文献[7]将K-means聚类算法应用到基于内容的推荐中,并利用朴素贝叶斯分类器计算目标用户喜欢某产品的概率,推荐概率值最高的产品;文献[8]将基于内容的推荐方法和协同过滤推荐方法的预测结果进行简单的线性融合,并在推荐结果的评估过程中不断调整两者权重,直至得到最优推荐结果。

近年来,有不少研究者对评论进行挖掘,以期将评论中的有用信息融入到个性化推荐中。如文献[9]将评论属性引入到主题分析中,根据主题评估函数计算主题的满意度,主题权重根据观众喜好设定,为观众提供一个可供选择的影片序列;文献[10]利用Apriori关联规则算法及MapReduce并行化处理技术对豆瓣读书中的图书评论进行挖掘,实现了图书推荐系统;文献[11]使用多种方法融合电影短评和剧情简介实现标签推荐;文献[12]对评论中用户多方面观点描述进行提取,计算其情感倾向得到多方面观点评分,通过张量分解建立融合评论中用户观点的评分预测模型,并依据预测评分生成推荐;文献[13]从评论中“有用”及“无用”投票信息得到评分质量,将此作为评分权重用于协同过滤;文献[14]通过评论中情感词的分析计算评论虚拟评分,并用于基于用户的协同过滤推荐方法中,推荐效果提升显著。

由此可见,基于评论进行个性化推荐的研究中,大多数是针对单个用户进行推荐。因此,本文通过挖掘图书评论属性实现群组推荐,并利用数据验证算法的可行性。对用户、图书利用K-means方法聚类,形成用户群组和图书群组,然后将用户群组和图书群组进行匹配,分析挖掘图书评论属性,比较不同图书群组对评论属性的关注程度;利用图书评论属性对图书群组中的图书进行打分排序,再次利用K-means方法进行图书聚类,最后选择聚类后的群组中前topN本图书推荐给用户群组。

2 推荐框架

2.1 资源推荐模型

网络在线评论数量不断增长,评论信息挖掘得到持续关注。“豆瓣读书”频道拥有各类图书资源的评论。将“豆瓣读书”中用户、图书、标签以及图书评论4种元素结合,构建基于评论属性挖掘的个性化推荐模型,如图1所示。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 群组推荐模型框架

Fig.1 Group Recommendation Framework

该模型分为6个模块:数据收集、数据处理、用户群组和图书群组生成、相似度计算、评论属性挖掘、推荐结果生成。模型从豆瓣网“读书”频道采集用户-标签、图书-标签以及图书资源评论数据,利用K-means算法分别对用户和图书进行聚类,计算余弦相似度,通过图书评论对聚类形成的不同图书群组进行属性权重比较和评分,实现图书个性化推荐。

2.2 实验数据

从豆瓣读书频道^[15]进行数据采集,通过人工浏览方式随机选取20名用户,选取标准为每个用户至少对20本图书进行标签标注。从这20名用户读过的书中分别选择前20本图书的图书名称、图书标签以及图书短评作为本文实验研究的基础数据。

社会化标注网站允许用户自由对资源进行标签标注,这具有一定的随意性,会产生不规范的标签,如复合标签、繁体标签、同义异形标签等,需要进行规范化处理。将“豆瓣读书”中所有热门标签加入用户自定义词典,利用中国科学院NLPIR汉语分词系统^[16]对用户标注中产生的复合标签进行分词。经过规范化后,同一标签可能在某一用户或资源中重复出现,剔除重复标签并将重复的图书进行合并。对于图书评论数据,过滤掉长度小于4个汉字以及重复的评论,从而保证数据的有效性。经处理后,得到的数据为20名用户、373本图书资源、674个用户标签和2 528个图书常用标签,如表1-表3所示。

表1 用户、图书及其标签数据集

Table 1 Users、Books and Tag Datasets

编号	用户	图书名称	标签
1	柳无码	《发现艺术家系列：谁是毕加索?》《这不是一本科学书》 … 《时间的珍藏》	绘本;童书童书 … 自然;绘本
2	YING	《梁启超全集》《民国佛教期刊文献集成》 … 《放生羊》	文学;晚清;梁启超宗教;佛教 … 文学;小说;西藏;佛教
…	…	…	…
20	Jacky	《大秦帝国》《未来简史》 … 《流畅的Python》	历史;小说历史;思维 … programming;Python

新窗口打开| 下载CSV

表2 图书资源及标签数据集

Table 2 Books and Tag Datasets

编号	图书名称	标签
1	《发现艺术家系列：谁是毕加索?》	艺术;童书;…;读书
2	《这不是一本科学书》	益智;趣味;…;浪花朵朵
3	《镜子》	历史;世界史;…;乌拉圭
4	《常识》	科普;百科;…;DK
5	《少年维特的烦恼》	歌德;少年维特的烦恼;…;名著
6	《谁的骨头?》	科普;童书;…;读书
7	《恐龙大冒险》	童书;绘本;…;浪花朵朵
8	《会飞的帽子》	绘本;童书;…;后浪
9	《孩子和猫》	绘本;浪花朵朵;…;儿童
10	《日月的容曜》	小说;古言;…;言情
…	…	…
373	《Python核心编程(第二版)》	Python;编程;…;开发

新窗口打开| 下载CSV

表3 豆瓣网图书评论数据

Table 3 Book Reviews of Douban

编号	图书名称	评论内容
1	《发现艺术家系列：谁是毕加索?》	本书中,作者布丽塔·本克精选了毕加索的儿童画以及其他富有童趣的艺术作品,…了解到毕加索的艺术理念。
2	《这不是一本科学书》	非常非常好玩,有一些实验最近正打算亲自做。这个系列还有一本数学也非常好。回头我做一个视频发豆瓣。 … 错觉系还挺多的
3	《镜子》	一本过于强调女性、少数族裔、同性恋政治正确而矫枉过正的书。 … 不能说是世界,但我爱他的言语。
…	…	…
373	《Python核心编程(第二版)》	系统的梳理了我那半调子的python,…总之作为第一本系统了解python基础的书很赞：） … 内容有点乱。感觉翻译的也不好

新窗口打开| 下载CSV

3 聚类分析

3.1 用户聚类

将表1中的标签作为用户的特征向量,利用Python中的K-means算法进行聚类,结果如表4所示。

表4 用户聚类结果

Table 4 Results of User Clustering

用户群组	用户
1	柳无码;luancheng;Rek大叔;杜扬Seatory;ag獭
2	YING;暗影摄手;举个栗子手酸
3	日落西山;阅夜吴声;白色液体;Leo____L
4	匿名用户;Johnlukia;yuedong;Jacky
5	tiiiiiiiiin;李小暖;snowrainbow;僻野村夫

新窗口打开| 下载CSV

为进一步提升聚类效果,对用户群组之间进行余弦相似度计算,结果如表5所示。

表5 用户群组相似度

Table 5 Similarity of User Groups

用户群组	1	2	3	4	5
1	1	0.17	0.08	0.12	0.64
2	0.17	1	0.12	0.09	0.21
3	0.08	0.12	1	0.22	0.13
4	0.12	0.09	0.22	1	0.13
5	0.64	0.21	0.13	0.13	1

新窗口打开| 下载CSV

从表5可以看出,用户群组1和用户群组5之间的余弦值为0.64,远远大于其他两两群组之间的余弦值,因此将群组1与群组5进行合并,合并后的用户群组如表6所示。

表6 合并后的用户群组

Table 6 Merged User Groups

用户群组	用户
1	柳无码;luancheng;Rek大叔;杜扬Seatory;ag獭;tiiiiiiiiin;李小暖;snowrainbow;僻野村夫
2	YING; 暗影摄手; 举个栗子手酸
3	日落西山; 阅夜吴声;白色液体;Leo____L
4	匿名用户; Johnlukia;yuedong;Jacky

新窗口打开| 下载CSV

3.2 图书聚类

将表2中的标签作为图书的特征向量,利用Python中的K-means算法进行聚类,结果如表7所示。

表7 图书聚类结果

Table 7 Results of Book Clustering

资源群组	图书名称
1	少年维特的烦恼;何以笙箫默;罪与罚;…;天蓝色的彼岸
2	大数据时代;Python数据分析基础;…;Data Science from Scratch
3	镜子;金叶 : 来自金枝的故事;…;刑法的私塾
4	证券公司图鉴;金融的解释;…;小岛经济学
5	祈祷落幕时;推理竞技场;…;解忧杂货店
…	…
22	专注;从自我苛求中解放出来;…;把时间当作朋友

新窗口打开| 下载CSV

对图书群组也进行余弦相似度计算,结果如表8所示。

表8 图书群组相似度

Table 8 Similarity of Book Groups

图书群组	1	2	3	4	5	…	22
1	1	0	0.21	0	0.22	…	0
2	0	1	0	0	0	…	0
3	0.21	0	1	0.04	0.14	…	0.06
4	0	0	0.04	1	0	…	0.14
5	0.22	0	0.14	0.14	1	…	0
…	…	…	…	…	…	…	…
22	0	0	0.06	0.06	0	…	1

新窗口打开| 下载CSV

图书群组1、图书群组9、图书群组14和图书群组18的余弦相似度分别为0.51、0.57、0.50,图书群组2和图书群组10的余弦相似度为0.33,图书群组12与图书群组19的余弦相似度为0.37、图书群组16与图书群组22的余弦相似度为0.75,均远大于群组1、群组2、群组12、群组16与其他群组的余弦相似度,因此将上述群组分别进行合并,最终结果如表9所示。

表9 合并后的图书群组

Table 9 Merged Book Groups

图书群组	图书名称
1	少年维特的烦恼;何以笙箫默;罪与罚;…;自媒体写作,从基本功到实战方法
2	大数据时代;Python数据分析基础;…;Python核心编程（第二版）
3	镜子;金叶 : 来自金枝的故事;…;刑法的私塾
4	证券公司图鉴;金融的解释;…;小岛经济学
…	…
16	Huxley's Church and Maxwell's Demon;时间简史;…;费曼手札

新窗口打开| 下载CSV

4 群组推荐

4.1 基于相似度的推荐

对用户群组与图书群组进行余弦相似度计算,结果如表10所示。

表10 用户群组与图书群组的相似度

Table 10 Similarity of User Groups and Book Groups

图书群组用户群组	1	2	3	4
1	0.78	0.30	0.23	0.15
2	0	0.01	0.11	0.51
3	0.43	0.45	0.27	0.18
4	0.01	0.02	0.31	0.16
5	0.41	0.23	0.08	0.05
6	0.14	0.03	0.08	0.05
7	0.29	0.20	0.16	0.12
8	0.04	0.05	0.51	0.27
9	0.22	0.05	0.08	0.06
10	0.15	0.13	0.07	0.05
11	0.33	0.31	0.23	0.10
12	0.25	0.36	0.07	0.08
13	0.02	0.05	0.39	0.34
14	0.26	0.21	0.12	0.03
15	0.08	0.11	0.07	0.03
16	0.02	0.03	0.07	0.07

新窗口打开| 下载CSV

从表10中可以看出,用户群组1与图书群组1的余弦相似度最大,用户群组2与图书群组3的余弦相似度最大,用户群组3与图书群组8的余弦相似度最大,用户群组4与图书群组2的余弦相似度最大,将与用户群组余弦相似度最大的图书群组推荐给用户群组,实现基于相似度的推荐。在基于相似度进行推荐的基础上,结合图书评论属性实现精准推荐。

4.2 图书评论属性挖掘

属性挖掘是评论挖掘研究中的重要任务之一,从属性角度对评论信息进行分析,挖掘出其中有价值的信息为个性化推荐服务。根据已有的图书属性集^[17],图书评论属性总共有15个,包括内容、作者、纸张、包装、封面、价格、版本、物流、插图、字体、印刷、适用人群、类型、文笔和出版社。对比亚马逊、当当、豆瓣图书评论,发现豆瓣图书评论属性更倾向于内容、文笔、作者等图书内在信息的属性^[18]。所以剔除纸张、包装、价格、物流、字体等5个属性,保留内容、作者、封面、版本、插图、印刷、适用人群、类型、文笔、出版社等10个属性。由于不同类型的图书侧重不同的属性,因此同一属性在不同图书群组中所占的权重是不同的。

采用情感词典匹配的方式,根据属性的情感极性,对图书资源进行评分。以句末标点(“。”、“.”、“！”、“!”、“?”、“?”、“…”等)为标识进行句子切分;借助大连理工大学开发的情感词典^[19],依据距离属性词最近的情感词的情感值,对图书群组内每一本图书的评论属性打分,将每个属性分值乘以一定的权重并相加,得到每本图书的得分,并对每个群组内的图书再次聚类,将聚类后的前topN本图书推荐给用户群组。

（1）图书评分计算

①计算每条评论的分值。每本书有10个属性值 $(a_{1}, a_{2}, \dots, a_{i}, \dots, a_{10})$ ,若属性词 $a_{i}$ 出现在评论 $R_{j}$ 中,其分值的计算方法如公式（1）所示。

(1)

Scor e_{j} = \{\begin{matrix} + 1, & W_{q} = 1 \\ - 1, & W_{q} = 2 \\ 0, & W_{q} = 0 \end{matrix}

其中, $W_{q}$ 为距离属性词最近的情感词的极性值,0代表中性,1代表褒义,2代表贬义。例如,评论“内容详实,文字诚恳”,距离属性词“内容”最近的情感词为“详实”,查阅情感词典,“详实”的情感极性值为1,所以该评论的内容属性分值为+1。

②以图书为单位,计算图书属性值的得分。假设10个属性每个属性满分为10分,某一属性分值的计算方法如公式（2）所示。

(2)

Bscore = 10 \times (1 - \frac{n}{N})

其中, $n$ 为某一属性分值为-1的评论个数, $N$ 为包含该属性的评论数。例如,某一本图书包含内容属性的评论数为110条,属性分值为-1的评论数为20条,则该属性的分值约为8.18。

③在得到所有属性的得分后,计算各个属性的权重,计算方法如公式（3）所示。

(3)

W = \frac{p}{q}

其中, $p$ 为某一图书群组中有该属性分值的图书的个数, $q$ 为该图书群组中图书的总数。例如,图书群组8内有28本图书,22本图书评论提到内容属性,则内容属性的权重约为0.79。

④得到各个属性的权重之后,进行归一化,如公式（4）所示。

(4)

Weight = \frac{W}{\sum W_{i}}

其中, $\sum W_{i}$ 为10个属性权重之和。

（2）图书群组属性权重选取

计算每个图书群组的属性权重,并将不同类型图书群组的属性权重进行对比,结果如表11所示。

表11 图书群组属性权重对照

Table 11 Attribute Comparison of Book Groups

图书群组属性	内容	作者	封面	版本	插图	印刷	适用人群	类型	文笔	出版社
1	0.14	0.16	0.11	0.12	0.02	0.04	0.11	0.09	0.15	0.05
2	0.30	0.25	0.02	0.02	0.02	0.02	0.30	0.04	0.03	0.02
3	0.19	0.19	0.08	0.06	0.08	0.07	0.15	0.04	0.11	0.03
4	0.26	0.24	0.03	0.05	0.01	0.04	0.24	0.00	0.09	0.03
5	0.22	0.25	0.05	0.08	0.01	0.05	0.07	0.05	0.15	0.07
6	0.17	0.34	0.08	0.00	0.12	0.08	0.21	0.00	0.00	0.00
7	0.17	0.29	0.04	0.08	0.04	0.00	0.08	0.08	0.17	0.04
8	0.28	0.24	0.04	0.03	0.01	0.03	0.15	0.05	0.10	0.06
9	0.25	0.20	0.06	0.06	0.20	0.08	0.02	0.04	0.08	0.02
10	0.17	0.28	0.15	0.05	0.00	0.00	0.02	0.00	0.30	0.00
11	0.14	0.15	0.15	0.09	0.02	0.05	0.09	0.12	0.14	0.05
12	0.19	0.21	0.11	0.04	0.02	0.01	0.07	0.14	0.20	0.00
13	0.30	0.26	0.04	0.05	0.01	0.00	0.19	0.06	0.07	0.02
14	0.18	0.18	0.13	0.05	0.05	0.11	0.11	0.08	0.03	0.08
15	0.25	0.17	0.08	0.17	0.08	0.00	0.08	0.08	0.08	0.00
16	0.16	0.23	0.10	0.06	0.06	0.10	0.10	0.00	0.13	0.06

新窗口打开| 下载CSV

从表11可以看出,评论属性在不同图书群组中所占的权重是不同的,即不同图书群组对属性的关注程度是不同的,例如属性“插图”在群组9的权重明显高于其他群组,属性“版本”在群组1和群组15的权重明显高于其他群组,属性“文笔”在群组10的权重明显高于其他群组。因此,基于不同图书群组属性权重不同,结合各自的权重计算图书得分,并在群组内实现聚类、排序和前topN本图书推荐。

（3）群组推荐

根据表10计算结果,选择与用户群组余弦相似度值最大的图书群组,在图书群组内,从评论属性角度对图书进行打分,再将图书群组中的图书进行聚类,将每一类中的前topN推荐给用户群组。例如,用户群组4与图书群组2余弦相似度最大,将图书群组2中的图书进行评分,结果如表12所示。

表12 图书群组2中图书得分

Table 12 Book Scores of Group2

图书编号	内容	作者	封面	版本	插图	印刷	适用人群	类型	文笔	出版社	评分
1	5.05	6.63	0	0	0	0	8.57	6.00	2.00	0	6.01
2	8.57	0	0	0	0	0	10.00	0	0	0	5.55
3	7.69	0	0	0	0	0	7.50	0	0	0	4.54
4	8.18	10.00	3.33	6.67	0	10	8.82	0	0	10.00	7.96
5	5.88	6.67	0	0	0	0	8.89	0	0	0	6.24
…	…	…	…	…	…	…	…	…	…	…	…
44	8.07	6.92	0	0	7.50	10.00	10.00	0	0	0	7.42

新窗口打开| 下载CSV

在对图书群组2中的图书进行打分排序后,利用K-means算法进行聚类,结果如表13所示。

表13 图书群组2的聚类结果

Table 13 Book Clustering of Group2

图书聚类	图书名称
1	Python编程;Python Cookbook;…;Python高手之路
2	大数据时代;Python数据分析基础;…;Data Science from Scratch
3	鸟哥的Linux私房菜;Go语言入门经典…;简约至上
4	大型网站技术架构;Python Web开发实战;…;Flask Web开发：基于Python的Web应用开发实战
5	A Byte of Python;流畅的Python;.…Python核心编程（第二版）

新窗口打开| 下载CSV

对图书进行聚类后,将每个类别中得分靠前的topN本图书推荐给用户。由于样本数量有限, $N$ 选择为5,结果如表14所示。

表14 图书群组内top5图书推荐

Table 14 Book Recommendations of top5

群组	评分	图书名称
1	8.50	代码大全（第2版）
	7.96	Python编程
	7.62	Head First 设计模式（中文版）
	7.02	黑客与画家
	6.96	Python网络编程（第3版）
2	7.67	最简单的图形与最复杂的信息
	7.20	深入浅出统计学
	7.10	集体智慧编程
	6.01	大数据时代
	5.97	Data Science from Scratch
3	7.42	简约至上
	6.88	MySQL必知必会
	6.81	鸟哥的Linux私房菜
	5.52	Python Linux系统管理与自动化运维
	1.51	Go语言入门经典
4	7.32	大型网站技术架构
	7.06	Flask Web开发：基于Python的Web应用开发实战
	6.36	Java面向对象编程 (第2版)
	5.32	Python Web开发实战
	2.50	JSP & Servlet学习笔记
5	6.98	流畅的Python
	6.55	C程序设计语言
	6.32	Head First Python（中文版）
	6.24	A Byte of Python
	5.81	Python核心编程（第二版）

新窗口打开| 下载CSV

4.3 结果评价与分析

分析本文群组推荐生成的结果。例如,用户群组4中有4个用户,分别是“匿名用户”、“Johnlukia”、“yuedong”和“Jacky”。针对“匿名用户”,该用户标注过的图书有《Python数据分析基础》、《Python数据分析与挖掘实战》、《Python编程》、《A Byte of Python》、《深入浅出统计学》、《利用Python进行数据分析原书第2版》、《最简单的图形与最复杂的信息》,根据表13的聚类结果可知,《Python数据分析基础》、《Python数据分析与挖掘实战》、《深入浅出统计学》、《利用Python进行数据分析原书第2版》与《最简单的图形与最复杂的信息》聚为一类,《Python编程》与其他图书聚为一类,《A Byte of Python》与其他图书聚为一类,将每一类得分最高的前5本图书中用户未进行标签标注的图书进行推荐。第一类中推荐的图书名称为《集体智慧编程》、《大数据时代》、《Data Science from Scratch》;第二类中推荐的图书名称为《代码大全（第2版）》、《Head First 设计模式（中文版）》、《黑客与画家》与《Python网络编程（第3版）》;第三类中推荐的图书名称为《流畅的Python》、《C程序设计语言》、《Head First Python（中文版）》与《Python核心编程（第二版）》,推荐效果较好。

5 结语

本文从评论属性角度对豆瓣图书评论信息进行挖掘,以用户群组为推荐对象,通过聚类、相似度计算等方法实现图书群组与用户群组的匹配,并从评论属性角度比较不同类型图书属性权重,通过打分、排序、再次聚类,实现群组推荐,提高了图书推荐的有效性。将提出的模型应用于真实数据集,证明了此模型的可行性。但是,本文也存在一定的局限性：仅采用较少的数据集进行实证。未来需扩大数据集,完善模型的相关算法,进一步推动模型从理论走向实践。

作者贡献声明

熊回香：提出研究思路,设计研究方案;

李晓敏：采集、清洗和分析数据,论文起草;

李跃艳：论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail：1149636981@qq.com。

[1] 熊回香,李晓敏,李跃艳.用户数据.xlsx.用户相关数据.

[2] 熊回香,李晓敏,李跃艳.图书数据.xlsx.图书相关数据.

[3] 熊回香,李晓敏,李跃艳.用户聚类.xlsx.用户群组.

[4] 熊回香,李晓敏,李跃艳.图书聚类.xlsx.图书群组.

[5] 熊回香,李晓敏,李跃艳.属性得分.xlsx.基于评论的图书群组属性得分.

[6] 熊回香,李晓敏,李跃艳.图书推荐.xlsx.最终推荐结果.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

熊回香

情报资料工作

[J].情报资料工作, 2007(5):29-32,50.

检索词推荐：