Please wait a minute...
Advanced Search
数据分析与知识发现  2020, Vol. 4 Issue (2/3): 214-222     https://doi.org/10.11925/infotech.2096-3467.2019.0649
  专辑 本期目录 | 过刊浏览 | 高级检索 |
基于图书评论属性挖掘的群组推荐研究*
熊回香1(),李晓敏1,李跃艳2
1华中师范大学信息管理学院 武汉 430079
2南京大学信息管理学院 南京 210023
Group Recommendation Based on Attribute Mining of Book Reviews
Xiong Huixiang1(),Li Xiaomin1,Li Yueyan2
1School of Information Management, Central China Normal University, Wuhan 430079, China
2School of Information Management, Nanjing University, Nanjing 210023, China
全文: PDF (750 KB)   HTML ( 10
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 利用用户、标签、图书三者之间的关系实现群组推荐。【方法】 通过用户-标签、图书-标签的标注关系,利用K-means算法进行用户聚类和图书聚类,形成用户群组和图书群组,并进行余弦相似度计算,从图书评论属性角度对不同图书类型进行对比,并对图书进行打分、排序和聚类,实现个性化推荐。以“豆瓣网”为例对模型进行验证。【结果】 基于图书评论属性挖掘的推荐模型能够为用户群组准确有效地推荐资源,推荐效果较好。【局限】 样本数据集有限,采集的用户以及图书数量较少。【结论】 结合图书评论属性挖掘的推荐模型对个性化推荐效果有一定的提升。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
熊回香
李晓敏
李跃艳
关键词 社会化标注群组推荐聚类图书评论    
Abstract

[Objective] This paper conducts group recommendation using the relationship among users, tags and books.[Methods] First, we used the K-means algorithm to cluster users and books. Then, we calculated cosine similarity of the two groups. Third, we compared various books based on their reviews. Finally, we sorted and clustered books to personalize the recommendation results.[Results] We examined the proposed model with data from “Douban Net” and our model recommended better resources for user groups.[Limitations] The sample data size needs to be expanded.[Conclusions] The proposed model improves the personalized recommendation of books.

Key wordsSocial Tagging    Group Recommendation    Clustering    Book Comments
收稿日期: 2019-06-11      出版日期: 2020-04-26
ZTFLH:  G230  
基金资助:*本文系华中师范大学中央高校基本科研业务费(人文社科类)重大项目“基于语义网的在线健康信息的挖掘与推荐研究”(CCNU19Z02004);国家社会科学基金项目“融合知识图谱和深度学习的在线学术资源挖据与推荐研究”的研究成果之一(19BTQ005)
通讯作者: 熊回香     E-mail: hxxiong@mail.ccnu.edu.cn
引用本文:   
熊回香,李晓敏,李跃艳. 基于图书评论属性挖掘的群组推荐研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 214-222.
Xiong Huixiang,Li Xiaomin,Li Yueyan. Group Recommendation Based on Attribute Mining of Book Reviews. Data Analysis and Knowledge Discovery, 2020, 4(2/3): 214-222.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0649      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2020/V4/I2/3/214
Fig.1  群组推荐模型框架
编号 用户 图书名称 标签
1 柳无码 《发现艺术家系列:谁是毕加索?》
《这不是一本科学书》

《时间的珍藏》
绘本;童书
童书

自然;绘本
2 YING 《梁启超全集》
《民国佛教期刊文献集成》

《放生羊》
文学;晚清;梁启超
宗教;佛教

文学;小说;西藏;佛教
20 Jacky 《大秦帝国》
《未来简史》

《流畅的Python》
历史;小说
历史;思维

programming;Python
Table 1  用户、图书及其标签数据集
编号 图书名称 标签
1 《发现艺术家系列:谁是毕加索?》 艺术;童书;…;读书
2 《这不是一本科学书》 益智;趣味;…;浪花朵朵
3 《镜子》 历史;世界史;…;乌拉圭
4 《常识》 科普;百科;…;DK
5 《少年维特的烦恼》 歌德;少年维特的烦恼;…;名著
6 《谁的骨头?》 科普;童书;…;读书
7 《恐龙大冒险》 童书;绘本;…;浪花朵朵
8 《会飞的帽子》 绘本;童书;…;后浪
9 《孩子和猫》 绘本;浪花朵朵;…;儿童
10 《日月的容曜》 小说;古言;…;言情
373 《Python核心编程(第二版)》 Python;编程;…;开发
Table 2  图书资源及标签数据集
编号 图书名称 评论内容
1 《发现艺术家系列:谁是毕加索?》 本书中,作者布丽塔·本克精选了毕加索的儿童画以及其他富有童趣的艺术作品,…了解到毕加索的艺术理念。
2 《这不是一本科学书》 非常非常好玩,有一些实验最近正打算亲自做。这个系列还有一本数学也非常好。回头我做一个视频发豆瓣。

错觉系还挺多的
3 《镜子》 一本过于强调女性、少数族裔、同性恋政治正确而矫枉过正的书。

不能说是世界,但我爱他的言语。
373 《Python核心编程(第二版)》 系统的梳理了我那半调子的python,…总之作为第一本系统了解python基础的书很赞:)

内容有点乱。 感觉翻译的也不好
Table 3  豆瓣网图书评论数据
用户群组 用户
1 柳无码;luancheng;Rek大叔;杜扬Seatory;ag獭
2 YING;暗影摄手;举个栗子手酸
3 日落西山;阅夜吴声;白色液体;Leo____L
4 匿名用户;Johnlukia;yuedong;Jacky
5 tiiiiiiiiin;李小暖;snowrainbow;僻野村夫
Table 4  用户聚类结果
用户群组 1 2 3 4 5
1 1 0.17 0.08 0.12 0.64
2 0.17 1 0.12 0.09 0.21
3 0.08 0.12 1 0.22 0.13
4 0.12 0.09 0.22 1 0.13
5 0.64 0.21 0.13 0.13 1
Table 5  用户群组相似度
用户群组 用户
1 柳无码;luancheng;Rek大叔;杜扬Seatory;ag獭;tiiiiiiiiin;李小暖;snowrainbow;僻野村夫
2 YING; 暗影摄手; 举个栗子手酸
3 日落西山; 阅夜吴声;白色液体;Leo____L
4 匿名用户; Johnlukia;yuedong;Jacky
Table 6  合并后的用户群组
资源群组 图书名称
1 少年维特的烦恼;何以笙箫默;罪与罚;…;天蓝色的彼岸
2 大数据时代;Python数据分析基础;…;Data Science from Scratch
3 镜子;金叶 : 来自金枝的故事;…;刑法的私塾
4 证券公司图鉴;金融的解释;…;小岛经济学
5 祈祷落幕时;推理竞技场;…;解忧杂货店
22 专注;从自我苛求中解放出来;…;把时间当作朋友
Table 7  图书聚类结果
图书群组 1 2 3 4 5 22
1 1 0 0.21 0 0.22 0
2 0 1 0 0 0 0
3 0.21 0 1 0.04 0.14 0.06
4 0 0 0.04 1 0 0.14
5 0.22 0 0.14 0.14 1 0
22 0 0 0.06 0.06 0 1
Table 8  图书群组相似度
图书群组 图书名称
1 少年维特的烦恼;何以笙箫默;罪与罚;…;自媒体写作,从基本功到实战方法
2 大数据时代;Python数据分析基础;…;Python核心编程(第二版)
3 镜子;金叶 : 来自金枝的故事;…;刑法的私塾
4 证券公司图鉴;金融的解释;…;小岛经济学
16 Huxley's Church and Maxwell's Demon;时间简史;…;费曼手札
Table 9  合并后的图书群组
图书群组

用户群组
1 2 3 4
1 0.78 0.30 0.23 0.15
2 0 0.01 0.11 0.51
3 0.43 0.45 0.27 0.18
4 0.01 0.02 0.31 0.16
5 0.41 0.23 0.08 0.05
6 0.14 0.03 0.08 0.05
7 0.29 0.20 0.16 0.12
8 0.04 0.05 0.51 0.27
9 0.22 0.05 0.08 0.06
10 0.15 0.13 0.07 0.05
11 0.33 0.31 0.23 0.10
12 0.25 0.36 0.07 0.08
13 0.02 0.05 0.39 0.34
14 0.26 0.21 0.12 0.03
15 0.08 0.11 0.07 0.03
16 0.02 0.03 0.07 0.07
Table 10  用户群组与图书群组的相似度
图书群组

属性
内容 作者 封面 版本 插图 印刷 适用人群 类型 文笔 出版社
1 0.14 0.16 0.11 0.12 0.02 0.04 0.11 0.09 0.15 0.05
2 0.30 0.25 0.02 0.02 0.02 0.02 0.30 0.04 0.03 0.02
3 0.19 0.19 0.08 0.06 0.08 0.07 0.15 0.04 0.11 0.03
4 0.26 0.24 0.03 0.05 0.01 0.04 0.24 0.00 0.09 0.03
5 0.22 0.25 0.05 0.08 0.01 0.05 0.07 0.05 0.15 0.07
6 0.17 0.34 0.08 0.00 0.12 0.08 0.21 0.00 0.00 0.00
7 0.17 0.29 0.04 0.08 0.04 0.00 0.08 0.08 0.17 0.04
8 0.28 0.24 0.04 0.03 0.01 0.03 0.15 0.05 0.10 0.06
9 0.25 0.20 0.06 0.06 0.20 0.08 0.02 0.04 0.08 0.02
10 0.17 0.28 0.15 0.05 0.00 0.00 0.02 0.00 0.30 0.00
11 0.14 0.15 0.15 0.09 0.02 0.05 0.09 0.12 0.14 0.05
12 0.19 0.21 0.11 0.04 0.02 0.01 0.07 0.14 0.20 0.00
13 0.30 0.26 0.04 0.05 0.01 0.00 0.19 0.06 0.07 0.02
14 0.18 0.18 0.13 0.05 0.05 0.11 0.11 0.08 0.03 0.08
15 0.25 0.17 0.08 0.17 0.08 0.00 0.08 0.08 0.08 0.00
16 0.16 0.23 0.10 0.06 0.06 0.10 0.10 0.00 0.13 0.06
Table 11  图书群组属性权重对照
图书编号 内容 作者 封面 版本 插图 印刷 适用人群 类型 文笔 出版社 评分
1 5.05 6.63 0 0 0 0 8.57 6.00 2.00 0 6.01
2 8.57 0 0 0 0 0 10.00 0 0 0 5.55
3 7.69 0 0 0 0 0 7.50 0 0 0 4.54
4 8.18 10.00 3.33 6.67 0 10 8.82 0 0 10.00 7.96
5 5.88 6.67 0 0 0 0 8.89 0 0 0 6.24
44 8.07 6.92 0 0 7.50 10.00 10.00 0 0 0 7.42
Table 12  图书群组2中图书得分
图书聚类 图书名称
1 Python编程;Python Cookbook;…;Python高手之路
2 大数据时代;Python数据分析基础;…;Data Science from Scratch
3 鸟哥的Linux私房菜;Go语言入门经典…;简约至上
4 大型网站技术架构;Python Web开发实战;…;Flask Web开发:基于Python的Web应用开发实战
5 A Byte of Python;流畅的Python;.…Python核心编程(第二版)
Table 13  图书群组2的聚类结果
群组 评分 图书名称
1 8.50 代码大全(第2版)
7.96 Python编程
7.62 Head First 设计模式(中文版)
7.02 黑客与画家
6.96 Python网络编程(第3版)
2 7.67 最简单的图形与最复杂的信息
7.20 深入浅出统计学
7.10 集体智慧编程
6.01 大数据时代
5.97 Data Science from Scratch
3 7.42 简约至上
6.88 MySQL必知必会
6.81 鸟哥的Linux私房菜
5.52 Python Linux系统管理与自动化运维
1.51 Go语言入门经典
4 7.32 大型网站技术架构
7.06 Flask Web开发:基于Python的Web应用开发实战
6.36 Java面向对象编程 (第2版)
5.32 Python Web开发实战
2.50 JSP & Servlet学习笔记
5 6.98 流畅的Python
6.55 C程序设计语言
6.32 Head First Python(中文版)
6.24 A Byte of Python
5.81 Python核心编程(第二版)
Table 14  图书群组内top5图书推荐
[1] 熊回香 . 情报资料工作[J].情报资料工作, 2007(5):29-32,50.
[1] ( Xiong Huixiang . Network Information Organization on the Environment of Web2.0[J].Information and Documentation Services, 2007(5):29-32,50.)
[2] 王军, 丁丹丹 . 在线评论有用性与时间距离和社会距离关系的研究[J]. 情报理论与实践, 2016,39(2):73-77,81.
[2] ( Wang Jun, Ding Dandan . Research on the Relationship Between the Usefulness of Online Review and the Time and Social Distance[J]. Information Studies: Theory & Application, 2016,39(2):73-77,81.)
[3] 田莹颖 . 基于社会化标签系统的个性化信息推荐探讨[J]. 图书情报工作, 2010,54(1):50-53,120.
[3] ( Tian Yingying . On Personalized Information Recommendation Based on Social Tagging System[J]. Library and Information Service, 2010,54(1):50-53,120.)
[4] 赵亮, 胡乃静, 张守志 . 个性化推荐算法设计[J]. 计算机研究与发展, 2002,39(8):986-991.
[4] ( Zhao Liang, Hu Naijing, Zhang Shouzhi . Algorithm Design for Personalization Recommendation Systems[J]. Journal of Computer Research and Development, 2002,39(8):986-991.)
[5] 余力, 刘鲁 . 电子商务个性化推荐研究[J]. 计算机集成制造系统, 2004,10(10):1306-1313.
[5] ( Yu Li, Liu Lu . Research on Personalized Recommendations in E-business[J]. Computer Integrated Manufacturing Systems, 2004,10(10):1306-1313.)
[6] 夏小伍, 王卫平 . 基于信任模型的协同过滤推荐算法[J]. 计算机工程, 2011,37(21):26-28.
[6] ( Xia Xiaowu, Wang Weiping . Collaborative Filtering Recommendation Algorithm Based on Trust Model[J]. Computer Engineering, 2011,37(21):26-28.)
[7] 单京晶 . 基于内容的个性化推荐系统研究[D]. 长春:东北师范大学, 2015.
[7] ( Shan Jingjing . Research on Content-based Personalized Recommendation Systems[D]. Changchun: Northeast Normal University, 2015.)
[8] Pronk V, Verhaegh W, Proidl A , et al. Incorporating User Control into Recommender Systems Based on Naive Bayesian Classification [C]// Proceedings of the 2007 ACM Conference on Recommender Systems. New York, USA: ACM, 2007: 73-80.
[9] 董学阳, 郜山权, 刘磊 , 等. 基于评论的影片个性化推荐方法[J]. 吉林大学学报: 理学版, 2018,56(4):965-968.
[9] ( Dong Xueyang, Gao Shanquan, Liu Lei , et al. Personalized Recommendation Method of Film Based on Reviews[J]. Journal of Jilin University: Science Edition, 2018,56(4):965-968.)
[10] 陈宇亮, 沈奎林 . 基于读者评论的图书推荐系统研究[J]. 图书情报导刊, 2016,1(9):6-9.
[10] ( Chen Yuliang, Shen Kuilin . Study on the Book Recommendation System Based on the Reader’s Comments[J]. Journal of Library and Information Science, 2016,1(9):6-9.)
[11] 褚晓敏, 王中卿, 朱巧明 , 等. 基于简介和评论的标签推荐方法研究[J]. 中文信息学报, 2015,29(6):179-184.
[11] ( Chu Xiaomin, Wang Zhongqing, Zhu Qiaoming , et al. Tag Recommendation with Summary and Comment Information[J]. Journal of Chinese Information Processing, 2015,29(6):179-184.)
[12] 甘雨虹 . 基于评论中用户观点挖掘的推荐方法研究[D]. 武汉:华中科技大学, 2017.
[12] ( Gan Yuhong . Research on Recommendation Method Based on User’s Opinion Mining in Reviews[D]. Wuhan: Huazhong University of Science and Technology, 2017.)
[13] Raghavan S, Gunasekar S, Ghosh J . Review Quality Aware Collaborative Filtering [C]//Proceedings of the 6th ACM Conference on Recommender Systems. New York, USA: ACM, 2012: 123-130.
[14] Zhang W, Ding G, Chen L , et al. Generating Virtual Ratings from Chinese Reviews to Augment Online Recommendations[J]. ACM Transactions on Intelligent Systems and Technology, 2013, 4(1): Article No. 9.
[15] 豆瓣读书[EB/OL]. [2019- 04- 26].https://book.douban.com/.
[15] ( Douban[EB/OL]. [2019- 04- 26].https://book.douban.com/.)
[16] NLPIR/ICTCLAS汉语分词系统[EB/OL]. [ 2019- 04- 28]. http://ictclas.nlpir.org/.
[16] ( NLPIR/ICTCLAS Chinese Segmentation System[EB/OL].[ 2019- 04- 28]. http://ictclas.nlpir.org/.)
[17] 周清清, 章成志 . 在线用户评论细粒度属性抽取[J]. 情报学报, 2017,36(5):484-493.
[17] ( Zhou Qingqing, Zhang Chengzhi . Fine-grained Aspect Extraction from Online Customer Reviews[J]. Journal of the China Society for Scientific and Technical Information, 2017,36(5):484-493.)
[18] 章成志, 童甜甜, 周清清 . 整合不同评论平台的图书综合影响力评价研究[J]. 情报学报, 2018,37(9):861-873.
[18] ( Zhang Chengzhi, Tong Tiantian, Zhou Qingqing . Combing Multiple Platforms of Online Reviews to Measure the Comprehensive Impact of Books[J]. Journal of the China Society for Scientific and Technical Information, 2018,37(9):861-873.)
[19] 大连理工大学信息检索研究室[EB/OL]. [ 2019- 04- 30]. http://ir.dlut.edu.cn/EmotionOntologyDownload.
[19] ( DUTIR[EB/OL].[ 2019- 04- 30]. http://ir.dlut.edu.cn/EmotionOntologyDownload.)
[1] 王若琳, 牛振东, 蔺奇卡, 朱一凡, 邱萍, 陆浩, 刘东磊. 基于异质信息嵌入与RNN聚类参数预测的作者姓名消歧方法*[J]. 数据分析与知识发现, 2021, 5(8): 13-24.
[2] 王晰巍,贾若男,韦雅楠,张柳. 多维度社交网络舆情用户群体聚类分析方法研究*[J]. 数据分析与知识发现, 2021, 5(6): 25-35.
[3] 卢利农,祝忠明,张旺强,王小春. 基于Lingo3G聚类算法的机构知识库跨库知识整合与知识指纹服务实现[J]. 数据分析与知识发现, 2021, 5(5): 127-132.
[4] 张梦瑶, 朱广丽, 张顺香, 张标. 基于情感分析的微博热点话题用户群体划分模型 *[J]. 数据分析与知识发现, 2021, 5(2): 43-49.
[5] 丁浩, 艾文华, 胡广伟, 李树青, 索炜. 融合用户兴趣波动时序的个性化推荐模型*[J]. 数据分析与知识发现, 2021, 5(11): 45-58.
[6] 杨辰, 陈晓虹, 王楚涵, 刘婷婷. 基于用户细粒度属性偏好聚类的推荐策略*[J]. 数据分析与知识发现, 2021, 5(10): 94-102.
[7] 于丰畅,程齐凯,陆伟. 基于几何对象聚类的学术文献图表定位研究[J]. 数据分析与知识发现, 2021, 5(1): 140-149.
[8] 邬金鸣,侯跃芳,崔雷. 基于医学主题词标引规则的词共现聚类分析结果自动判读和表达的研究[J]. 数据分析与知识发现, 2020, 4(9): 133-144.
[9] 温萍梅,叶志炜,丁文健,刘颖,徐健. 命名实体消歧研究进展综述*[J]. 数据分析与知识发现, 2020, 4(9): 15-25.
[10] 席运江, 杜蝶蝶, 廖晓, 仉学红. 基于超网络的企业微博用户聚类研究及特征分析*[J]. 数据分析与知识发现, 2020, 4(8): 107-118.
[11] 杨旭,钱晓东. 基于改进的Vicsek模型的社会网络同步聚类算法*[J]. 数据分析与知识发现, 2020, 4(4): 119-128.
[12] 张纯金,郭盛辉,纪淑娟,杨伟,伊磊. 基于多属性评分隐表征学习的群组推荐算法*[J]. 数据分析与知识发现, 2020, 4(12): 120-135.
[13] 魏家泽,董诚,何彦青,刘志辉,彭柯芸. 基于均衡段落和分话题向量的新闻热点话题检测研究*[J]. 数据分析与知识发现, 2020, 4(10): 70-79.
[14] 赵华茗,余丽,周强. 基于均值漂移算法的文本聚类数目优化研究 *[J]. 数据分析与知识发现, 2019, 3(9): 27-35.
[15] 李珊,姚叶慧,厉浩,刘洁,嘎玛白姆. 基于ISA联合聚类的组推荐算法研究 *[J]. 数据分析与知识发现, 2019, 3(8): 77-87.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn