Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (12): 30-40    DOI: 10.11925/infotech.2096-3467.2019.0494
     研究论文 本期目录 | 过刊浏览 | 高级检索 |
结合词向量和词图算法的用户兴趣建模研究 *
聂卉()
中山大学资讯管理学院 广州 510006
Modeling Users with Word Vector and Term-Graph Algorithm
Hui Nie()
School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China
全文: PDF(1429 KB)   HTML ( 10
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】提出一个基于评论的用户建模算法, 实现评论资讯的个性化推荐。【方法】借助预训练词向量从评论观点句中提取细粒度的产品特征, 基于语义关联构建特征词图, 并运用TextRank关键词抽取算法计算用户对产品特性的关注度, 构建用户兴趣模型。【结果】结果显示, 结合词向量和词图算法生成的用户模型与人工归纳的用户模型吻合度较高, 语义关联度近90%。模型评测指标F1为0.5505, 优于基于词频的传统词袋模型(特征词模型F1为0.5269, 词项模型F1为0.3322)。【局限】通过人工标注的评测语料偏少; 基于通用语料获得的词向量对解决领域相关问题存有一定局限。【结论】对于形式表达不规范的评论语言, 信息凝聚与语义分析技术的有机结合能够有效提升用户建模的质量, 为评论质量的评价及评论在推荐系统中的有效利用提供了新思路。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
聂卉
关键词 用户兴趣建模个性化推荐评论挖掘    
Abstract

[Objective] This paper proposes a review-based user modeling method, aiming to improve the personalized information pushing services. [Methods] Firstly, we identified product feature-specific terms from reviews with the help of pre-trained word embedding model. Then, we built a term-specific graph based on semantic correlation among feature-specific words. Finally, we used the TextRank algorithm to compute user’s interest in product features, and model their preferences for products. [Results] User model generated by our new algorithm was consistent with the manually created ones (with nearly 90% semantic correlation). Our F1-score was 0.55, better than those of the classic TF-based word bag models. [Limitations] More manually labeled data and research is needed to improve the domain-specific analysis. [Conclusions] The proposed model helps us better analyze online reviews and develop new application for recommendation system.

Key wordsUser Modeling    Personal Recommendation    Review Mining
收稿日期: 2019-05-10     
中图分类号:  TP393 O212  
基金资助:*本文系国家社会科学基金项目“面向用户感知效用的在线评论的质量与控制研究”(项目编号: 15BTQ067)
通讯作者: 聂卉     E-mail: issnh@mail.sysu.edu.cn
引用本文:   
聂卉. 结合词向量和词图算法的用户兴趣建模研究 *[J]. 数据分析与知识发现, 2019, 3(12): 30-40.
Hui Nie. Modeling Users with Word Vector and Term-Graph Algorithm. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2019.0494.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0494
图1  用户兴趣模型构建流程
图2  特征词库构建流程
特征观点抽取规则模板 覆盖率 示例 说明
a(评价)←SBV←n(特征项) 73% 像素(n)挺高(a)的 SBV: 主谓关系
VOB: 动宾关系
ATT: 定中关系
COO: 并列关系
a: 形容词
v: 动词
n: 名词
a(评价)→VOB→v←SBV←n(特征项) 13.8% 就是价钱(n)有(v)点小贵(a)
a(评价)→COO→a(评价)←SBV←n(特征项) 5.6% 屏幕(n)精致(a)漂亮(a)
a(评价)←SBV←v(特征项) 4.2% 运行(v)挺流畅(a)的
a(评价)←SBV←v←ATT←n(特征项) 1.9% 电池(n)续航(v)很给力(a)
表1  提取特征词的依存句法[21]
图3  词库扩充归并阈值设定
未登录词 语义相关特征词/相似度 特征词平均语义关联度 是否归并特征词库
菜单 按钮/0.625, 闪屏/0.619, 截屏/0.591, 图标/0.565, 屏保/0.552 0.591
人脸 人脸识别/0.607, 图像/0.563, 截屏/0.535, 照片/0.488, 成像/0.485 0.536
物美价廉 性价比/0.586, 国产货/0.550, 回头率/0.504, 价钱/0.502, 正品/0.493 0.527
水货 行货/0.741, 国产货/0.603, 换货/0.586, 正品/0.581, 国产机/0.577 0.618
京东 商城/0.348, 物流/0.247, android/0.239, 新品/0.238, 国产/0.236 0.261
华为 ?手机/0.393, 网络/0.330, 电信/0.329, 三星/0.328, IOS/0.324 0.341
表2  未登录词与特征词的关联度计算结果与示例(topk=5,$\varepsilon $=0.5)
图4  偏好模型构建示例
用户兴趣模型 模型描述 正确率P (均值) 召回率R (均值) F1(均值)
Semantic_Model 基于Word2Vec的词图模型, $\varepsilon $=0.5 0.4564 0.7582 0.5505
Feature_Model 面向评论内容中的特征词, 基于词频建立的用户兴趣模型 0.4336 0.7339 0.5269
Term_Model 面向评论内容中的词项(名词, 动名词, 动词), 基于词频建立的用户兴趣模型 0.2278 0.7327 0.3322
表3  用户偏好性能模型对比
图5  偏好模型对比实例
[1] 姜霖, 张麒麟 . 基于评论情感分析的个性化推荐策略研究-以豆瓣影评为例[J]. 情报理论与实践, 2017,40(8):99-104.
( Jiang Lin, Zhang Qilin . Research on Personalized Recommendation Strategy Based on Sentimental Analysis of the Reviews[J]. Information Studies: Theory & Application, 2017,40(8):99-104.)
[2] Chen L, Chen G, Wang F . Recommender Systems Based on User Reviews: The State of the Art[J]. User Modeling and User-Adapted Interaction, 2015,25(2):99-154.
[3] 宁建飞, 刘降珍 . 融合Word2vec与TextRank的关键词抽取研究[J]. 现代图书情报技术, 2016(6):20-27.
( Ning Jianfei, Liu Jiangzhen . Using Word2vec with TextRank to Extract Keywords[J]. New Technology of Library and Information Service, 2016(6):20-27.)
[4] 徐文海, 温有奎 . 一种基于TFIDF方法的中文关键词抽取算法[J]. 情报理论与实践, 2008,31(2):298-302.
( Xu Wenhai, Wen Youkui . An TFIDF_based Algorithm for Chinese Keywords Extraction[J]. Information Studies: Theory & Application, 2008,31(2):298-302.)
[5] 刘俊, 邹东升, 邢欣来 , 等. 基于主题特征的关键词抽取[J]. 计算机应用研究, 2012,29(11):4224-4227.
( Liu Jun, Zou Dongsheng, Xing Xinlai , et al. Keyphrase Extraction Based on Topic Feature[J]. Application Research of Computers, 2012,29(11):4224-4227.)
[6] Mihalcea R, Tarau P . TextRank: Bringing Order into Texts [C]//Proceedings of Empirical Methods in Natural Language Processing, Barcelona, Spain. 2004: 404-411.
[7] 夏天 . 词语位置加权TextRank的关键词抽取研究[J]. 现代图书情报技术, 2013(9):30-34.
( Xia Tian . Study on Keyword Extraction Using Word Position Weighted TextRank[J]. New Technology of Library and Information Service, 2013(9):30-34.)
[8] 谢玮, 沈一, 马永征 . 基于图计算的论文审稿自动推荐系统[J]. 计算机应用研究, 2016,33(3):798-801.
( Xie Wei, Shen Yi, Ma Yongzheng . Recommendation System for Paper Reviewing Based on Graph Computing[J]. Application Research of Computers, 2016,33(3):798-801.)
[9] 顾益军, 夏天 . 融合LDA与TextRank的关键词抽取研究[J]. 现代图书情报技术, 2014(7/8):41-47.
( Gu Yijun, Xia Tian . Study on Keyword Extraction with LDA and TextRank Combination[J]. New Technology of Library and Information Service, 2014(7/8):41-47.)
[10] 夏天 . 词向量聚类加权TextRank的关键词抽取[J]. 数据分析与知识发现, 2017,1(2):28-34.
( Xia Tian . Extracting Keywords with Modified TextRank Model[J]. Data Analysis and Knowledge Discovery, 2017,1(2):28-34.)
[11] Esparza S G, O’Mahony M P, Smyth B . Effective Product Recommendation Using the Real-Time Web [C]//Proceedings of the 30th SGAI International Conference on Innovative Techniques and Applications of Artificial Intelligence, Cambridge, UK. Springer, 2010: 5-18.
[12] Zhang W, Ding G, Chen L , et al. Generating Virtual Ratings from Chinese Reviews to Augment Online Recommendations [J]. ACM Transactions on Intelligent Systems and Technology, 2013, 4(1): Article No. 9.
[13] Musat C C, Liang Y, Faltings B . Recommendation Using Textual Opinions [C]//Proceedings of the 23rd International Joint Conference on Artificial Intelligence, Beijing, China. AAAI Press, 2013: 2684-2690.
[14] McAuley J, Leskovec J . Hidden Factors and Hidden Topics: Understanding Rating Dimensions with Review Text [C] //Proceedings of the 7th ACM International Conference on Recommender Systems, Hong Kong, China. New York, USA: ACM, 2013: 165-172.
[15] Liu H, He J, Wang T , et al. Combining User Preferences and User Opinions for Accurate Recommendation[J]. Electronic Commerce Research and Applications, 2013,12(1):14-23.
[16] Chen L, Wang F . Preference-based Clustering Reviews for Augmenting E-commerce Recommendation[J]. Knowledge-Based Systems, 2013,50:44-59.
[17] Chen L, Wang F . Explaining Recommendations Based on Feature Sentiments in Product Reviews [C]// Proceedings of the 22nd International Conference on Intelligent User Interfaces, Limasso, Cyprus. New York, USA: ACM, 2017: 17-28.
[18] 王伟, 王洪伟 . 面向竞争力的特征比较网络: 情感分析方法[J]. 管理科学学报, 2016,19(9):109-126.
( Wang Wei, Wang Hongwei . Comparative Network for Product Competition in Feature-levels Through Sentiment Analysis[J]. Journal of Management Sciences in China, 2016,19(9):109-126.)
[19] Hong Y, Lu J, Yao J , et al. What Reviews are Satisfactory: Novel Features for Automatic Helpfulness Voting [C] //Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval, Portland, Oregon, USA. New York, USA: ACM, 2012: 495-504.
[20] Chinese Word Vectors: 目前最全的中文预训练词向量集合[EB/OL]. [ 2018- 10- 20]. http://www.mingriqingbao.com/web/detail/forword/P/12571.
( Chinese Word Vectors: The Most Complete Set of Chinese Pre-trained Word Vectors [EB/OL]. [ 2018- 10- 20]. http://www.mingriqingbao.com/web/detail/forword/P/12571
[21] 聂卉, 杜嘉忠 . 依存句法模板下的商品特征标签抽取研究[J]. 现代图书情报技术, 2014(12):44-50.
( Nie Hui, Du Jiazhong . Using Dependency Parsing Pattern to Extract Product Feature Tags[J]. New Technology of Library and Information Service, 2014(12):44-50.)
[22] LTP语言技术平台 [EB/OL]. [ 2018- 10- 01]. http://ltp.ai.
( Language Technology Platform [EB/OL]. [ 2018- 10- 01]. http://ltp.ai
[1] 李博诚,张云秋,杨铠西. 面向微博商品评论的情感标签抽取研究 *[J]. 数据分析与知识发现, 2019, 3(9): 115-123.
[2] 张怡文,张臣坤,杨安桔,计成睿,岳丽华. 基于条件型游走的四部图推荐方法*[J]. 数据分析与知识发现, 2019, 3(4): 117-125.
[3] 叶佳鑫,熊回香. 基于标签的跨领域资源个性化推荐研究*[J]. 数据分析与知识发现, 2019, 3(2): 21-32.
[4] 丁浩,李树青. 基于用户多类型兴趣波动趋势预测分析的个性化推荐方法 *[J]. 数据分析与知识发现, 2019, 3(11): 43-51.
[5] 李杰,杨芳,徐晨曦. 考虑时间动态性和序列模式的个性化推荐算法*[J]. 数据分析与知识发现, 2018, 2(7): 72-80.
[6] 侯银秀,李伟卿,王伟军,张婷婷. 基于用户偏好与商品属性情感匹配的图书个性化推荐研究*[J]. 数据分析与知识发现, 2017, 1(8): 9-17.
[7] 陈梅梅,薛康杰. 基于标签簇多构面信任关系的个性化推荐算法研究*[J]. 数据分析与知识发现, 2017, 1(5): 94-101.
[8] 曾金,陆伟,丁恒,陈海华. 基于图像语义的用户兴趣建模*[J]. 数据分析与知识发现, 2017, 1(4): 76-83.
[9] 陈梅梅, 薛康杰. 基于改进张量分解模型的个性化推荐算法研究*[J]. 数据分析与知识发现, 2017, 1(3): 38-45.
[10] 谭学清,张磊,黄翠翠,罗琳. 融合领域专家信任与相似度的协同过滤推荐算法研究*[J]. 现代图书情报技术, 2016, 32(7-8): 101-109.
[11] 谢琪,崔梦天. 基于相似性群体的混合型Web服务推荐*[J]. 现代图书情报技术, 2016, 32(6): 80-87.
[12] 张艳丰,李贺,彭丽徽. 基于模糊情感计算的商品在线评论用户品牌转换意向研究*[J]. 现代图书情报技术, 2016, 32(5): 64-71.
[13] 唐晓波, 邱鑫. 面向主题的高质量评论挖掘模型研究[J]. 现代图书情报技术, 2015, 31(7-8): 104-112.
[14] 祝婷, 秦春秀, 李祖海. 基于用户分类的协同过滤个性化推荐方法研究[J]. 现代图书情报技术, 2015, 31(6): 13-19.
[15] 高虎明, 赵凤跃. 一种融合协同过滤和内容过滤的混合推荐方法[J]. 现代图书情报技术, 2015, 31(6): 20-26.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn