Please wait a minute...
Advanced Search
数据分析与知识发现  2020, Vol. 4 Issue (6): 15-21     https://doi.org/10.11925/infotech.2096-3467.2019.1332
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于并行协同过滤算法的领域知识推荐模型研究*
杨恒(),王思丽,祝忠明,刘巍,王楠
中国科学院西北生态环境资源研究院文献情报中心 兰州 730000
Recommending Domain Knowledge Based on Parallel Collaborative Filtering Algorithm
Yang Heng(),Wang Sili,Zhu Zhongming,Liu Wei,Wang Nan
Literature and Information Center of Northwest Institute of Eco-Environment and Resources,Chinese Academy of Sciences, Lanzhou 730000, China
全文: PDF (773 KB)   HTML ( 18
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 从海洋平台数据中过滤出用户需要的信息,并及时准确地推荐给用户。【方法】 通过基于内容的推荐算法和基于物品的协同过滤算法筛选候选集,采用并行MapReduce的方式提高系统对数据的并行挖掘能力;使用机器学习算法提高推荐候选准确度,实现精准匹配和个性化推荐的效果。【结果】 有效地根据用户点击的文章生成推荐列表,模型评估准确度为78.5%,均方根误差为0.22。【局限】 对用户特征以及文本特征还需深度挖掘;实验过程中多次使用分词工具,对其准确度有所依赖;模型训练算法还需优化。【结论】 本文模型能够在一定程度上满足用户的个性化推荐需求,可以为平台建设提供良好的支持。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
杨恒
王思丽
祝忠明
刘巍
王楠
关键词 推荐系统协同过滤MapReduce机器学习算法    
Abstract

[Objective] This paper tries to identify information needed by the users, and then makes timely and accurate recommendations. [Methods] First, we generated the candidate set through content-based recommendation algorithm and item-based collaborative filtering algorithm. Then, we used parallel MapReduce technique to improve the parallel data mining performance of the proposed method. Finally, we adopted machine learning algorithms to increase the accuracy of recommended candidates and referred, personalized documents to the users. [Results] We created the recommendation list based on articles checked by the individual user. The model’s evaluation accuracy was 78.5%, and its mean squared error was 0.22. [Limitations] The user and text features need to be further investigated. The accuracy of word segmentation and model training algorithm needs to be optimized. [Conclusions] The proposed model generates personalized recommendation lists for users, and provide good support for related services.

Key wordsRecommendation System    Collaborative Filtering    MapReduce    Machine Learning Algorithm
收稿日期: 2019-12-31      出版日期: 2020-07-07
ZTFLH:  TP391  
基金资助:*本文系国家重点研发计划课题“应对气候变化科学数据与知识集成共享平台建设”(2018YFC1509007);中国科学院兰州文献情报中心2019年文献情报创新能力建设项目“文献情报大数据计算环境的应用与示范”(Y9AJ012007);“开放学术资源的情景化组织与服务研究”的研究成果之一(Y9AX011001)
通讯作者: 杨恒     E-mail: yangh@llas.ac.cn
引用本文:   
杨恒,王思丽,祝忠明,刘巍,王楠. 基于并行协同过滤算法的领域知识推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 15-21.
Yang Heng,Wang Sili,Zhu Zhongming,Liu Wei,Wang Nan. Recommending Domain Knowledge Based on Parallel Collaborative Filtering Algorithm. Data Analysis and Knowledge Discovery, 2020, 4(6): 15-21.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.1332      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2020/V4/I6/15
Fig.1  海洋领域知识推荐系统架构
数据类型 数据属性
用户特征数据 用户ID、用户姓名、用户所属专题
文本特征数据 文本ID、文本标题、文本所属专题、评分
用户行为特征数据 用户ID、被访问文本ID
Table 1  数据类别划分
Fig.2  MapReduce化倒排式协同过滤实现流程
第一次MR阶段 第二次MR阶段 第三次MR阶段
Map输入 Map输入 Map输入
{userid,itemid,score} {userid,itemid,score} {itemid,itemid,score}
Map输出 Map输出 Map输出
{itemid,userid,score} {userid,itemid,score} {itemid,itemid,score}
Reduce输入 Reduce输入 Reduce输入
{itemid,userid,score} {userid,itemid,score} {itemid,itemid,score}
Reduce输出 Reduce输出 Reduce输出
{userid,itemid,score} {itemid,itemid,score} {itemid,itemid,score}
Table 2  MapReduce化倒排式协同过滤计算过程
Fig.3  模型训练数据样本
Fig.4  模型评估结果
[1] 翁小兰, 王志坚. 协同过滤推荐算法研究进展[J]. 计算机工程与应用, 2018,54(1):25-31.
[1] ( Weng Xiaolan, Wang Zhijian. Research Process of Collaborative Filtering Recommendation Algorithm[J]. Computer Engineering and Applications, 2018,54(1):25-31.)
[2] 何安. 协同过滤技术在电子商务推荐系统中的应用研究[D]. 杭州:浙江大学, 2007.
[2] ( He An. Research on Collaborative Filtering Technologies of Recommendation System for E-Commerce[D]. Hangzhou: Zhejiang University, 2007.)
[3] 张颖. 基于混合机制的新闻推荐系统研究[D]. 哈尔滨:哈尔滨工业大学, 2015.
[3] ( Zhang Ying. Research on News Recommendation System Based on Hybrid Mechanism[D]. Harbin: Harbin Institute of Technology, 2015.)
[4] Chen H, Li Z, Hu W. An Improved Collaborative Recommendation Algorithm Based on Optimized User Similarity[J]. The Journal of Supercomputing, 2016,72(7):2565-2578.
doi: 10.1007/s11227-015-1518-5
[5] 钱春琳, 张兴芳, 孙丽华. 基于在线评论情感分析的改进协同过滤推荐模型[J]. 山东大学学报:工学版, 2019,49(1):47-54.
[5] ( Qian Chunlin, Zhang Xingfang, Sun Lihua. Advanced Collaborative Filtering Recommendation Model Based on Sentiment Analysis of Online Review[J]. Journal of Shandong University: Engineering Science, 2019,49(1):47-54.)
[6] 杨佳莉, 李直旭, 许佳捷, 等. 一种自适应的混合协同过滤推荐算法[J]. 计算机工程, 2019,45(7):222-228.
doi: 10.19678/j.issn.1000-3428.0051041
[6] ( Yang Jiali, Li Zhixu, Xu Jiajie, et al. An Adaptive Hybrid Collaborative Filtering Recommendation Algorithm[J]. Computer Engineering, 2019,45(7):222-228.)
doi: 10.19678/j.issn.1000-3428.0051041
[7] Zhao W, Wang B, Yang M, et al. Leveraging Long and Short-Term Information in Content-Aware Movie Recommendation via Adversarial Training[J]. IEEE Transactions on Cybernetics. DOI: 10.1109/TCYB.2019.2896766.
doi: 10.1109/TCYB.2020.2997943 pmid: 32584775
[8] Sun F, Liu J, Wu J, et al. BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer[OL]. arXiv Preprint, arXiv: 1904. 06690.
[9] 张兴宇. 基于协同过滤和内容过滤的微博话题混合推荐算法[J]. 电脑编程技巧与维护, 2019(3):52-54.
[9] ( Zhang Xingyu. Microblog Topic Hybrid Recommendation Algorithm Based on Collaborative Filtering and Content Filtering[[J]. Computer Programming Skills and Maintenance, 2019(3):52-54.)
[10] Sarwar B, Karypis G, Konstan J, et al. Item-based Collaborative Filtering Recommendation Algorithms [C]//Proceedings of the 10th International Conference on World Wide Web. 2001.
[11] 范志强, 赵文涛. 改进的基于内容的协同过滤电影推荐算法[J]. 信息与电脑:理论版, 2019(13):42-43,47.
[11] ( Fan Zhiqiang, Zhao Wentao. Modified Content-based Collaborative Film Recommendation Algorithms[[J]. Information and Computer: Theoretical Edition, 2019(13):42-43,47. )
[12] 龚科瑜, 张一驰. 基于TF-IDF的古籍文本内容特征提取方法[J]. 电子技术与软件工程, 2019(17):130-131.
[12] ( Gong Keyu, Zhang Yichi. TF-IDF-based Feature Extraction Method for Ancient Text Content[[J]. Electronic Technology & Software Engineering, 2019(17):130-131.)
[13] 刘帝勇, 杨强. 基于机器学习的核电文档个性化推荐系统研究[J]. 电力大数据, 2019,22(9):43-48.
[13] ( Liu Diyong, Yang Qiang. Research on Nuclear Power Document Personalized Recommendation System Based on Machine[J]. Power Systems and Big Data, 2019,22(9):43-48.)
[14] 王卫红, 曾英杰. 基于聚类和用户偏好的协同过滤推荐算法[J]. 计算机工程与应用, 2020,56(3):68-73.
[14] ( Wang Weihong, Zeng Yingjie. Collaborative Filtering Recommendation Algorithm Based on Clustering and User Preference[J]. Computer Engineering and Applications, 2020,56(3):68-73.)
[1] 苏庆,陈思兆,吴伟民,李小妹,黄佃宽. 基于学习情况协同过滤算法的个性化学习推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(5): 105-117.
[2] 郑淞尹,谈国新,史中超. 基于分段用户群与时间上下文的旅游景点推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(5): 92-104.
[3] 温彦,马立健,曾庆田,郭文艳. 基于地理信息偏好修正和社交关系偏好隐式分析的POI推荐 *[J]. 数据分析与知识发现, 2019, 3(8): 30-39.
[4] 焦富森,李树青. 基于物品质量和用户评分修正的协同过滤推荐算法 *[J]. 数据分析与知识发现, 2019, 3(8): 62-67.
[5] 李珊,姚叶慧,厉浩,刘洁,嘎玛白姆. 基于ISA联合聚类的组推荐算法研究 *[J]. 数据分析与知识发现, 2019, 3(8): 77-87.
[6] 张怡文,张臣坤,杨安桔,计成睿,岳丽华. 基于条件型游走的四部图推荐方法*[J]. 数据分析与知识发现, 2019, 3(4): 117-125.
[7] 李杰,杨芳,徐晨曦. 考虑时间动态性和序列模式的个性化推荐算法*[J]. 数据分析与知识发现, 2018, 2(7): 72-80.
[8] 王道平,蒋中杨,张博卿. 基于灰色关联分析和时间因素的协同过滤算法*[J]. 数据分析与知识发现, 2018, 2(6): 102-109.
[9] 王永,王永东,郭慧芳,周玉敏. 一种基于离散增量的项目相似性度量方法*[J]. 数据分析与知识发现, 2018, 2(5): 70-76.
[10] 花凌锋,杨高明,王修君. 面向位置的多样性兴趣新闻推荐研究*[J]. 数据分析与知识发现, 2018, 2(5): 94-104.
[11] 刘东苏,霍辰辉. 基于图像特征匹配的推荐模型研究*[J]. 数据分析与知识发现, 2018, 2(3): 49-59.
[12] 薛福亮,刘君玲. 基于用户间信任关系改进的协同过滤推荐方法*[J]. 数据分析与知识发现, 2017, 1(7): 90-99.
[13] 覃幸新,王荣波,黄孝喜,谌志群. 基于多权值的Slope One协同过滤算法*[J]. 数据分析与知识发现, 2017, 1(6): 65-71.
[14] 高长元,于建萍,何晓燕. 基于改进粒子群算法的云计算产业联盟知识搜索算法研究*[J]. 数据分析与知识发现, 2017, 1(3): 81-89.
[15] 李道国,李连杰,申恩平. 基于用户评分时间改进的协同过滤推荐算法*[J]. 现代图书情报技术, 2016, 32(9): 65-69.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn