Please wait a minute...
Advanced Search
数据分析与知识发现  2020, Vol. 4 Issue (2/3): 214-222    DOI: 10.11925/infotech.2096-3467.2019.0649
  专辑 本期目录 | 过刊浏览 | 高级检索 |
基于图书评论属性挖掘的群组推荐研究*
熊回香1(),李晓敏1,李跃艳2
1华中师范大学信息管理学院 武汉 430079
2南京大学信息管理学院 南京 210023
Group Recommendation Based on Attribute Mining of Book Reviews
Xiong Huixiang1(),Li Xiaomin1,Li Yueyan2
1School of Information Management, Central China Normal University, Wuhan 430079, China
2School of Information Management, Nanjing University, Nanjing 210023, China
全文: PDF(750 KB)   HTML ( 4
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 利用用户、标签、图书三者之间的关系实现群组推荐。【方法】 通过用户-标签、图书-标签的标注关系,利用K-means算法进行用户聚类和图书聚类,形成用户群组和图书群组,并进行余弦相似度计算,从图书评论属性角度对不同图书类型进行对比,并对图书进行打分、排序和聚类,实现个性化推荐。以“豆瓣网”为例对模型进行验证。【结果】 基于图书评论属性挖掘的推荐模型能够为用户群组准确有效地推荐资源,推荐效果较好。【局限】 样本数据集有限,采集的用户以及图书数量较少。【结论】 结合图书评论属性挖掘的推荐模型对个性化推荐效果有一定的提升。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
熊回香
李晓敏
李跃艳
关键词 社会化标注群组推荐聚类图书评论    
Abstract

[Objective] This paper conducts group recommendation using the relationship among users, tags and books.[Methods] First, we used the K-means algorithm to cluster users and books. Then, we calculated cosine similarity of the two groups. Third, we compared various books based on their reviews. Finally, we sorted and clustered books to personalize the recommendation results.[Results] We examined the proposed model with data from “Douban Net” and our model recommended better resources for user groups.[Limitations] The sample data size needs to be expanded.[Conclusions] The proposed model improves the personalized recommendation of books.

Key wordsSocial Tagging    Group Recommendation    Clustering    Book Comments
收稿日期: 2019-06-11     
中图分类号:  G230  
基金资助:*本文系华中师范大学中央高校基本科研业务费(人文社科类)重大项目“基于语义网的在线健康信息的挖掘与推荐研究”(CCNU19Z02004);国家社会科学基金项目“融合知识图谱和深度学习的在线学术资源挖据与推荐研究”的研究成果之一(19BTQ005)
通讯作者: 熊回香     E-mail: hxxiong@mail.ccnu.edu.cn
引用本文:   
熊回香,李晓敏,李跃艳. 基于图书评论属性挖掘的群组推荐研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 214-222.
Xiong Huixiang,Li Xiaomin,Li Yueyan. Group Recommendation Based on Attribute Mining of Book Reviews. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2019.0649.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0649
图1  群组推荐模型框架
编号 用户 图书名称 标签
1 柳无码 《发现艺术家系列:谁是毕加索?》
《这不是一本科学书》

《时间的珍藏》
绘本;童书
童书

自然;绘本
2 YING 《梁启超全集》
《民国佛教期刊文献集成》

《放生羊》
文学;晚清;梁启超
宗教;佛教

文学;小说;西藏;佛教
20 Jacky 《大秦帝国》
《未来简史》

《流畅的Python》
历史;小说
历史;思维

programming;Python
表1  用户、图书及其标签数据集
编号 图书名称 标签
1 《发现艺术家系列:谁是毕加索?》 艺术;童书;…;读书
2 《这不是一本科学书》 益智;趣味;…;浪花朵朵
3 《镜子》 历史;世界史;…;乌拉圭
4 《常识》 科普;百科;…;DK
5 《少年维特的烦恼》 歌德;少年维特的烦恼;…;名著
6 《谁的骨头?》 科普;童书;…;读书
7 《恐龙大冒险》 童书;绘本;…;浪花朵朵
8 《会飞的帽子》 绘本;童书;…;后浪
9 《孩子和猫》 绘本;浪花朵朵;…;儿童
10 《日月的容曜》 小说;古言;…;言情
373 《Python核心编程(第二版)》 Python;编程;…;开发
表2  图书资源及标签数据集
编号 图书名称 评论内容
1 《发现艺术家系列:谁是毕加索?》 本书中,作者布丽塔·本克精选了毕加索的儿童画以及其他富有童趣的艺术作品,…了解到毕加索的艺术理念。
2 《这不是一本科学书》 非常非常好玩,有一些实验最近正打算亲自做。这个系列还有一本数学也非常好。回头我做一个视频发豆瓣。

错觉系还挺多的
3 《镜子》 一本过于强调女性、少数族裔、同性恋政治正确而矫枉过正的书。

不能说是世界,但我爱他的言语。
373 《Python核心编程(第二版)》 系统的梳理了我那半调子的python,…总之作为第一本系统了解python基础的书很赞:)

内容有点乱。 感觉翻译的也不好
表3  豆瓣网图书评论数据
用户群组 用户
1 柳无码;luancheng;Rek大叔;杜扬Seatory;ag獭
2 YING;暗影摄手;举个栗子手酸
3 日落西山;阅夜吴声;白色液体;Leo____L
4 匿名用户;Johnlukia;yuedong;Jacky
5 tiiiiiiiiin;李小暖;snowrainbow;僻野村夫
表4  用户聚类结果
用户群组 1 2 3 4 5
1 1 0.17 0.08 0.12 0.64
2 0.17 1 0.12 0.09 0.21
3 0.08 0.12 1 0.22 0.13
4 0.12 0.09 0.22 1 0.13
5 0.64 0.21 0.13 0.13 1
表5  用户群组相似度
用户群组 用户
1 柳无码;luancheng;Rek大叔;杜扬Seatory;ag獭;tiiiiiiiiin;李小暖;snowrainbow;僻野村夫
2 YING; 暗影摄手; 举个栗子手酸
3 日落西山; 阅夜吴声;白色液体;Leo____L
4 匿名用户; Johnlukia;yuedong;Jacky
表6  合并后的用户群组
资源群组 图书名称
1 少年维特的烦恼;何以笙箫默;罪与罚;…;天蓝色的彼岸
2 大数据时代;Python数据分析基础;…;Data Science from Scratch
3 镜子;金叶 : 来自金枝的故事;…;刑法的私塾
4 证券公司图鉴;金融的解释;…;小岛经济学
5 祈祷落幕时;推理竞技场;…;解忧杂货店
22 专注;从自我苛求中解放出来;…;把时间当作朋友
表7  图书聚类结果
图书群组 1 2 3 4 5 22
1 1 0 0.21 0 0.22 0
2 0 1 0 0 0 0
3 0.21 0 1 0.04 0.14 0.06
4 0 0 0.04 1 0 0.14
5 0.22 0 0.14 0.14 1 0
22 0 0 0.06 0.06 0 1
表8  图书群组相似度
图书群组 图书名称
1 少年维特的烦恼;何以笙箫默;罪与罚;…;自媒体写作,从基本功到实战方法
2 大数据时代;Python数据分析基础;…;Python核心编程(第二版)
3 镜子;金叶 : 来自金枝的故事;…;刑法的私塾
4 证券公司图鉴;金融的解释;…;小岛经济学
16 Huxley's Church and Maxwell's Demon;时间简史;…;费曼手札
表9  合并后的图书群组
图书群组

用户群组
1 2 3 4
1 0.78 0.30 0.23 0.15
2 0 0.01 0.11 0.51
3 0.43 0.45 0.27 0.18
4 0.01 0.02 0.31 0.16
5 0.41 0.23 0.08 0.05
6 0.14 0.03 0.08 0.05
7 0.29 0.20 0.16 0.12
8 0.04 0.05 0.51 0.27
9 0.22 0.05 0.08 0.06
10 0.15 0.13 0.07 0.05
11 0.33 0.31 0.23 0.10
12 0.25 0.36 0.07 0.08
13 0.02 0.05 0.39 0.34
14 0.26 0.21 0.12 0.03
15 0.08 0.11 0.07 0.03
16 0.02 0.03 0.07 0.07
表10  用户群组与图书群组的相似度
图书群组

属性
内容 作者 封面 版本 插图 印刷 适用人群 类型 文笔 出版社
1 0.14 0.16 0.11 0.12 0.02 0.04 0.11 0.09 0.15 0.05
2 0.30 0.25 0.02 0.02 0.02 0.02 0.30 0.04 0.03 0.02
3 0.19 0.19 0.08 0.06 0.08 0.07 0.15 0.04 0.11 0.03
4 0.26 0.24 0.03 0.05 0.01 0.04 0.24 0.00 0.09 0.03
5 0.22 0.25 0.05 0.08 0.01 0.05 0.07 0.05 0.15 0.07
6 0.17 0.34 0.08 0.00 0.12 0.08 0.21 0.00 0.00 0.00
7 0.17 0.29 0.04 0.08 0.04 0.00 0.08 0.08 0.17 0.04
8 0.28 0.24 0.04 0.03 0.01 0.03 0.15 0.05 0.10 0.06
9 0.25 0.20 0.06 0.06 0.20 0.08 0.02 0.04 0.08 0.02
10 0.17 0.28 0.15 0.05 0.00 0.00 0.02 0.00 0.30 0.00
11 0.14 0.15 0.15 0.09 0.02 0.05 0.09 0.12 0.14 0.05
12 0.19 0.21 0.11 0.04 0.02 0.01 0.07 0.14 0.20 0.00
13 0.30 0.26 0.04 0.05 0.01 0.00 0.19 0.06 0.07 0.02
14 0.18 0.18 0.13 0.05 0.05 0.11 0.11 0.08 0.03 0.08
15 0.25 0.17 0.08 0.17 0.08 0.00 0.08 0.08 0.08 0.00
16 0.16 0.23 0.10 0.06 0.06 0.10 0.10 0.00 0.13 0.06
表11  图书群组属性权重对照
图书编号 内容 作者 封面 版本 插图 印刷 适用人群 类型 文笔 出版社 评分
1 5.05 6.63 0 0 0 0 8.57 6.00 2.00 0 6.01
2 8.57 0 0 0 0 0 10.00 0 0 0 5.55
3 7.69 0 0 0 0 0 7.50 0 0 0 4.54
4 8.18 10.00 3.33 6.67 0 10 8.82 0 0 10.00 7.96
5 5.88 6.67 0 0 0 0 8.89 0 0 0 6.24
44 8.07 6.92 0 0 7.50 10.00 10.00 0 0 0 7.42
表12  图书群组2中图书得分
图书聚类 图书名称
1 Python编程;Python Cookbook;…;Python高手之路
2 大数据时代;Python数据分析基础;…;Data Science from Scratch
3 鸟哥的Linux私房菜;Go语言入门经典…;简约至上
4 大型网站技术架构;Python Web开发实战;…;Flask Web开发:基于Python的Web应用开发实战
5 A Byte of Python;流畅的Python;.…Python核心编程(第二版)
表13  图书群组2的聚类结果
群组 评分 图书名称
1 8.50 代码大全(第2版)
7.96 Python编程
7.62 Head First 设计模式(中文版)
7.02 黑客与画家
6.96 Python网络编程(第3版)
2 7.67 最简单的图形与最复杂的信息
7.20 深入浅出统计学
7.10 集体智慧编程
6.01 大数据时代
5.97 Data Science from Scratch
3 7.42 简约至上
6.88 MySQL必知必会
6.81 鸟哥的Linux私房菜
5.52 Python Linux系统管理与自动化运维
1.51 Go语言入门经典
4 7.32 大型网站技术架构
7.06 Flask Web开发:基于Python的Web应用开发实战
6.36 Java面向对象编程 (第2版)
5.32 Python Web开发实战
2.50 JSP & Servlet学习笔记
5 6.98 流畅的Python
6.55 C程序设计语言
6.32 Head First Python(中文版)
6.24 A Byte of Python
5.81 Python核心编程(第二版)
表14  图书群组内top5图书推荐
[1] 熊回香 . 情报资料工作[J].情报资料工作, 2007(5):29-32,50.
( Xiong Huixiang . Network Information Organization on the Environment of Web2.0[J].Information and Documentation Services, 2007(5):29-32,50.)
[2] 王军, 丁丹丹 . 在线评论有用性与时间距离和社会距离关系的研究[J]. 情报理论与实践, 2016,39(2):73-77,81.
( Wang Jun, Ding Dandan . Research on the Relationship Between the Usefulness of Online Review and the Time and Social Distance[J]. Information Studies: Theory & Application, 2016,39(2):73-77,81.)
[3] 田莹颖 . 基于社会化标签系统的个性化信息推荐探讨[J]. 图书情报工作, 2010,54(1):50-53,120.
( Tian Yingying . On Personalized Information Recommendation Based on Social Tagging System[J]. Library and Information Service, 2010,54(1):50-53,120.)
[4] 赵亮, 胡乃静, 张守志 . 个性化推荐算法设计[J]. 计算机研究与发展, 2002,39(8):986-991.
( Zhao Liang, Hu Naijing, Zhang Shouzhi . Algorithm Design for Personalization Recommendation Systems[J]. Journal of Computer Research and Development, 2002,39(8):986-991.)
[5] 余力, 刘鲁 . 电子商务个性化推荐研究[J]. 计算机集成制造系统, 2004,10(10):1306-1313.
( Yu Li, Liu Lu . Research on Personalized Recommendations in E-business[J]. Computer Integrated Manufacturing Systems, 2004,10(10):1306-1313.)
[6] 夏小伍, 王卫平 . 基于信任模型的协同过滤推荐算法[J]. 计算机工程, 2011,37(21):26-28.
( Xia Xiaowu, Wang Weiping . Collaborative Filtering Recommendation Algorithm Based on Trust Model[J]. Computer Engineering, 2011,37(21):26-28.)
[7] 单京晶 . 基于内容的个性化推荐系统研究[D]. 长春:东北师范大学, 2015.
( Shan Jingjing . Research on Content-based Personalized Recommendation Systems[D]. Changchun: Northeast Normal University, 2015.)
[8] Pronk V, Verhaegh W, Proidl A , et al. Incorporating User Control into Recommender Systems Based on Naive Bayesian Classification [C]// Proceedings of the 2007 ACM Conference on Recommender Systems. New York, USA: ACM, 2007: 73-80.
[9] 董学阳, 郜山权, 刘磊 , 等. 基于评论的影片个性化推荐方法[J]. 吉林大学学报: 理学版, 2018,56(4):965-968.
( Dong Xueyang, Gao Shanquan, Liu Lei , et al. Personalized Recommendation Method of Film Based on Reviews[J]. Journal of Jilin University: Science Edition, 2018,56(4):965-968.)
[10] 陈宇亮, 沈奎林 . 基于读者评论的图书推荐系统研究[J]. 图书情报导刊, 2016,1(9):6-9.
( Chen Yuliang, Shen Kuilin . Study on the Book Recommendation System Based on the Reader’s Comments[J]. Journal of Library and Information Science, 2016,1(9):6-9.)
[11] 褚晓敏, 王中卿, 朱巧明 , 等. 基于简介和评论的标签推荐方法研究[J]. 中文信息学报, 2015,29(6):179-184.
( Chu Xiaomin, Wang Zhongqing, Zhu Qiaoming , et al. Tag Recommendation with Summary and Comment Information[J]. Journal of Chinese Information Processing, 2015,29(6):179-184.)
[12] 甘雨虹 . 基于评论中用户观点挖掘的推荐方法研究[D]. 武汉:华中科技大学, 2017.
( Gan Yuhong . Research on Recommendation Method Based on User’s Opinion Mining in Reviews[D]. Wuhan: Huazhong University of Science and Technology, 2017.)
[13] Raghavan S, Gunasekar S, Ghosh J . Review Quality Aware Collaborative Filtering [C]//Proceedings of the 6th ACM Conference on Recommender Systems. New York, USA: ACM, 2012: 123-130.
[14] Zhang W, Ding G, Chen L , et al. Generating Virtual Ratings from Chinese Reviews to Augment Online Recommendations[J]. ACM Transactions on Intelligent Systems and Technology, 2013, 4(1): Article No. 9.
[15] 豆瓣读书[EB/OL]. [2019- 04- 26].https://book.douban.com/.
( Douban[EB/OL]. [2019- 04- 26].https://book.douban.com/.)
[16] NLPIR/ICTCLAS汉语分词系统[EB/OL]. [ 2019- 04- 28]. http://ictclas.nlpir.org/.
( NLPIR/ICTCLAS Chinese Segmentation System[EB/OL].[ 2019- 04- 28]. http://ictclas.nlpir.org/.)
[17] 周清清, 章成志 . 在线用户评论细粒度属性抽取[J]. 情报学报, 2017,36(5):484-493.
( Zhou Qingqing, Zhang Chengzhi . Fine-grained Aspect Extraction from Online Customer Reviews[J]. Journal of the China Society for Scientific and Technical Information, 2017,36(5):484-493.)
[18] 章成志, 童甜甜, 周清清 . 整合不同评论平台的图书综合影响力评价研究[J]. 情报学报, 2018,37(9):861-873.
( Zhang Chengzhi, Tong Tiantian, Zhou Qingqing . Combing Multiple Platforms of Online Reviews to Measure the Comprehensive Impact of Books[J]. Journal of the China Society for Scientific and Technical Information, 2018,37(9):861-873.)
[19] 大连理工大学信息检索研究室[EB/OL]. [ 2019- 04- 30]. http://ir.dlut.edu.cn/EmotionOntologyDownload.
( DUTIR[EB/OL].[ 2019- 04- 30]. http://ir.dlut.edu.cn/EmotionOntologyDownload.)
[1] 赵华茗,余丽,周强. 基于均值漂移算法的文本聚类数目优化研究 *[J]. 数据分析与知识发现, 2019, 3(9): 27-35.
[2] 李珊,姚叶慧,厉浩,刘洁,嘎玛白姆. 基于ISA联合聚类的组推荐算法研究 *[J]. 数据分析与知识发现, 2019, 3(8): 77-87.
[3] 李柯,佐々木勇和. 基于多维小波聚类的空间文本数据情感分布分析[J]. 数据分析与知识发现, 2019, 3(7): 14-22.
[4] 祁瑞华,周俊艺,郭旭,刘彩虹. 基于知识库的图书评论主题抽取研究*[J]. 数据分析与知识发现, 2019, 3(6): 83-91.
[5] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[6] 陆泉,朱安琪,张霁月,陈静. 中文网络健康社区中的用户信息需求挖掘研究*——以求医网肿瘤板块数据为例[J]. 数据分析与知识发现, 2019, 3(4): 22-32.
[7] 吴江,赵颖慧,高嘉慧. 医疗舆情事件的微博意见领袖识别与分析研究*[J]. 数据分析与知识发现, 2019, 3(4): 53-62.
[8] 肖连杰,郜梦蕊,苏新宁. 一种基于模糊C-均值聚类的欠采样集成不平衡数据分类算法*[J]. 数据分析与知识发现, 2019, 3(4): 90-96.
[9] 叶佳鑫,熊回香. 基于标签的跨领域资源个性化推荐研究*[J]. 数据分析与知识发现, 2019, 3(2): 21-32.
[10] 毕崇武,叶光辉,李明倩,曾杰妍. 基于标签语义挖掘的城市画像感知研究 *[J]. 数据分析与知识发现, 2019, 3(12): 41-51.
[11] 贾君枝,叶壮壮. 基于潜在语义索引的Wikidata机构实体聚类研究 *[J]. 数据分析与知识发现, 2019, 3(10): 56-65.
[12] 高慧颖,魏甜,刘嘉唯. 基于用户聚类与动态交互信任关系的好友推荐方法研究 *[J]. 数据分析与知识发现, 2019, 3(10): 66-77.
[13] 张涛,马海群. 一种基于LDA主题模型的政策文本聚类方法研究*[J]. 数据分析与知识发现, 2018, 2(9): 59-65.
[14] 李湘东,高凡,李悠海. 共通语义空间下的跨文献类型文本自动分类研究*[J]. 数据分析与知识发现, 2018, 2(9): 66-73.
[15] 牟冬梅,金姗,琚沅红. 基于文献数据的疾病与基因关联关系研究*[J]. 数据分析与知识发现, 2018, 2(8): 98-106.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn