Advanced Search

数据分析与知识发现, 2019, 3(12): 30-40 doi: 10.11925/infotech.2096-3467.2019.0494

研究论文

结合词向量和词图算法的用户兴趣建模研究 *

聂卉,,

中山大学资讯管理学院 广州 510006

Modeling Users with Word Vector and Term-Graph Algorithm

Nie Hui,,

School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China

通讯作者: 聂卉, ORCID: 0000-0001-8567-3084, E-mail:issnh@mail.sysu.edu.cn

收稿日期: 2019-05-10   修回日期: 2019-08-17   网络出版日期: 2019-12-25

基金资助: *本文系国家社会科学基金项目“面向用户感知效用的在线评论的质量与控制研究”.  项目编号: 15BTQ067

Received: 2019-05-10   Revised: 2019-08-17   Online: 2019-12-25

摘要

【目的】提出一个基于评论的用户建模算法, 实现评论资讯的个性化推荐。【方法】借助预训练词向量从评论观点句中提取细粒度的产品特征, 基于语义关联构建特征词图, 并运用TextRank关键词抽取算法计算用户对产品特性的关注度, 构建用户兴趣模型。【结果】结果显示, 结合词向量和词图算法生成的用户模型与人工归纳的用户模型吻合度较高, 语义关联度近90%。模型评测指标F1为0.5505, 优于基于词频的传统词袋模型(特征词模型F1为0.5269, 词项模型F1为0.3322)。【局限】通过人工标注的评测语料偏少; 基于通用语料获得的词向量对解决领域相关问题存有一定局限。【结论】对于形式表达不规范的评论语言, 信息凝聚与语义分析技术的有机结合能够有效提升用户建模的质量, 为评论质量的评价及评论在推荐系统中的有效利用提供了新思路。

关键词: 用户兴趣建模 ; 个性化推荐 ; 评论挖掘

Abstract

[Objective] This paper proposes a review-based user modeling method, aiming to improve the personalized information pushing services. [Methods] Firstly, we identified product feature-specific terms from reviews with the help of pre-trained word embedding model. Then, we built a term-specific graph based on semantic correlation among feature-specific words. Finally, we used the TextRank algorithm to compute user’s interest in product features, and model their preferences for products. [Results] User model generated by our new algorithm was consistent with the manually created ones (with nearly 90% semantic correlation). Our F1-score was 0.55, better than those of the classic TF-based word bag models. [Limitations] More manually labeled data and research is needed to improve the domain-specific analysis. [Conclusions] The proposed model helps us better analyze online reviews and develop new application for recommendation system.

Keywords: User Modeling ; Personal Recommendation ; Review Mining

PDF (1429KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

聂卉. 结合词向量和词图算法的用户兴趣建模研究 *. 数据分析与知识发现[J], 2019, 3(12): 30-40 doi:10.11925/infotech.2096-3467.2019.0494

Nie Hui. Modeling Users with Word Vector and Term-Graph Algorithm. Data Analysis and Knowledge Discovery[J], 2019, 3(12): 30-40 doi:10.11925/infotech.2096-3467.2019.0494

1 引 言

推荐是解决信息过载的有效方法, 通过探知用户偏好, 推荐系统能够实现个性化推送, 缓解过载信息造成的困扰[1]。实施有效推荐需准确捕获用户兴趣偏好。协同推荐系统利用用户对产品的评分构建用户偏好模型, 但普遍存在评分缺失现象会引发“冷启动”问题。随着产品评论大量涌现, 利用评论内容提炼用户偏好引发研究者兴趣, 提出了基于评论的用户建模策略[2]

本文聚焦面向评论内容的用户个性化建模。据经验, 真实的评论人亦是产品消费者, 评论人对其关注的产品特性予以细致描述, 被频繁提及的产品特性反映了评论人的兴趣与偏好。据此, 若将评论人看作信息需求者, 通过捕获其在评论中的产品关注点即可对其建模, 实现基于用户兴趣的产品资讯个性化推荐。为充分挖掘评论内容中的用户关注点, 本研究引入了词向量模型, 并采用词图算法凝聚用户特征喜好。本研究的应用目标是, 基于从评论内容中提炼的用户兴趣模型, 从“质量”和“兴趣度”两个方面对评论资讯的感知价值进行评价与预测, 以推荐方式为用户提供个性化信息服务。

2 相关研究

从建模技术以及基于评论的用户模型构建两方面总结梳理相关研究。

2.1 文本信息抽取与凝练

信息凝练是解决数据冗余的重要方法。对于文本信息, 信息凝练与文本分析粒度有关, 词项层面的凝聚即关键词抽取[3]。关键词抽取能够高度凝聚文本主旨内容。

对于关键词抽取, 常用方法大致归为三类: 词频法[4]、主题模型法[5]及图模型法[6]。基本思路均是将关键词抽取转化为词项重要度排序, 然后依序确定关键词项。词频法根据词频及词的逆向文档频计算其重要度, 简单易行, 但词项彼此独立, 不考虑相互间的语义关联。主题模型法需借助训练语料, 以一定的概率分布获得“文档-词项”的概率矩阵, 再根据概率提炼关键词, 基于主题模型的关键词抽取效果与语料的主题分布存在强关联[3]。相比之下, 图模型法主要依据文本中词汇的结构信息测度词项重要性, 无需训练, 简单有效, 近年来得到广泛应用。在图模型算法中, TextRank[6]最具代表性。

TextRank源自PageRank, 通过建立候选词词图, 生成词项间的影响力概率转移矩阵, 运用迭代运算获得词项重要度。经典TextRank一般不考虑节点权重。夏天[7]则认为词项权重会对邻接点产生不同影响, 因此在概率转移矩阵中引入词项覆盖率、位置以及频度信息, 提高了抽取正确率。谢玮等[8]运用TextRank, 在词语位置加权的基础上同时增添逆向文档频, 获得了更好的关键词抽取效果。顾益军等[9]则综合考虑单一文档的结构信息以及语料库的主题分布, 通过将主题模型引入TextRank提升算法抽取精度。关键词抽取主要以精准度为评测指标, 能否有效凝聚文本内容主旨是各类关键词优化算法的关注点。近年来, 由于能够描述语义的词向量模型被关注, 关键词抽取研究也开始引入词向量。宁建飞等[3]基于Word2Vec构建词的相似度矩阵, 将其引入TextRank计算, 以改善词项凝聚效果。夏天[10]先对TextRank词图节点的词向量进行聚类, 再根据词语与聚类质心的距离对词加权, 进一步提升关键词抽取质量。可见, 对于词项进行信息凝练, 提升凝聚效果的关键在于将外部信息有效纳入词的权重计算模型[10]

本研究在进行用户产品关注特征提取的环节中采用基于图模型的关键词抽取法; 为了从字量有限的评论文本中提炼出用户偏好, 在词的权重计算模型中引入词向量, 强调词项的语义关联, 将关键词提取提升至语义空间。

2.2 基于评论的用户建模

提炼评论内容中的用户关注点可有效描述用户的需求与偏好。基于这一设定, 如何从用户评论中提取其关注点, 并引入推荐引擎是相关研究的重点。Chen等[2]针对不同推荐机制, 将基于评论的用户建模分为词项模型(Term-based Profile)、评分模型(Rating Profile)以及特征模型(Feature-based Profile)三类。

词项模型多用于内容推荐。Esparza等[11]直接用TF-IDF测度词项重要性, 并根据重要性选择词项生成用户偏好模型, 基于内容的偏好模型在推荐流行度、多样性等指标上有较优表现。

评分模型借助用户发表的评论预测用户对产品的评分, 可有效回避协同推荐中的“冷启动”问题。如Zhang等[12]采用情感分析技术建立基于“预测评分”的用户偏好模型。Musat等[13]通过提炼评论中蕴含的产品主题信息对用户评分加权。McAuley等[14]将评论内容中隐含的用户兴趣要素直接导入评分模型, 通过提升模型质量改善协同推荐系统性能。

特征模型聚焦于评论内容中提及的产品特征, 属于细粒度用户偏好分析。这种偏好描述直指产品性能, 可以探究用户对产品感兴趣的原因。在这类研究中, 需针对产品特征计算用户兴趣值。在Liu等[15]的研究中, 用户兴趣涉及关注度和需求度两个指标, 关注度与特征提及率有关, 提及率越高表明用户对特征越关注; 需求度与用户评价有关, 若用户对某产品性能的评分低于均值, 表明用户对该性能的期望值较高, 期望值对应用户需求。Liu等[15]从评论内容中抽取了特征词、评价词等相关信息, 利用这些信息构建特征级用户模型, 实现个性化产品推荐。Chen等[16]同样聚焦特征级用户兴趣提取, 并针对评论量不足情况下的特征抽取方案进行探索。两个研究在真实的数据集上验证了基于用户评论构建用户兴趣模型的可行性及其在推荐系统中的效用。Liu进一步证明基于特征模型的推荐系统表现优于基于评分的推荐系统[13]。此后, Chen等[17]从推荐解释的角度对特征级用户模型进行了更深层次分析。

综上, 用户评论已成为用户模型构建的重要信息源, 面向不同的推荐任务, 基于评论的用户建模策略有所不同。但从评论内容中提取产品特征, 统计提及频次以及计算用户兴趣度是相关研究均涉及的重要内容。本研究归属特征模型, 不同于文献[15,16]等的研究目标, 笔者的目标是评论资讯推荐而非产品推荐, 因而主要工作聚焦于从评论内容中提取用户关注的产品特征, 并进行用户兴趣计算。本文提出采用基于图模型的关键词抽取技术进行用户建模, 用户兴趣计算不仅考量特征词在评论内容中的提及率, 还通过词向量引入语义信息, 克服了相关研究[1,15-16,18]单纯以词频统计法进行建模的局限性, 从语义层面提升模型的质量。

3 用户偏好模型构建

3.1 问题提取

相关研究[16,18-19]指出, 用户越重视某特征, 该特征在其评论中的提及频次越高[18]。产品特征提取和特征兴趣度计算是基于评论的用户兴趣建模的两个核心任务。

对于产品特征提取, 词典匹配是最常采用的方法, 词典的质量决定了抽取的质量。但评论语言随意性强, 更新快, 大量表达并不能纳入词典。未纳入词典的产品特征表述, 本文称其为“未登录特征”。未登录特征在评论文本中的出现率极高, 评论文本长度有限的情况下, 分析时忽略这类词, 会产生较大的信息折损。对于特征兴趣度计算, 一些研究[1,18]直接用词项提及率作为用户兴趣度代理。词频在一定程度的确能够表征评论人对某特征的兴趣度, 但基于独立词项的特征空间维度大, 数据稀疏, 难以生成高质量的用户兴趣描述。例如以下评论:

希望用oppo手机可以拍出更清晰的自拍, 因为拍照这一刻更清晰呀!还有我这种大屏党就很喜欢6.0这样的大屏手机, 因为像素高, 如果屏幕大一点的话, 拍照那种效果杠杠的, 6+64gb的内存太好了, 闪充功能应该还是会有吧。

根据特征词的出现频次, 兴趣模型在“拍照, 自拍, 大屏, 像素, 屏幕, 内存, 闪充”7个特征维度下的权重为<0.22, 0.11, 0.22, 0.11, 0.11, 0.11, 0.11>。但语义上, “拍照, 自拍, 像素, 大屏, 屏幕”这5个特征关联密切, 用户偏好实际聚焦在“拍照”和“屏幕效果”两方面。可见, 基于独立词项的兴趣描述呈现出词项分散、权重无区分的状态, 不能有效刻画用户兴趣。

如何提升用户兴趣建模质量?本文认为, 上述问题的出现与评论语言形式不一, 缺少规范的特质有关。基于词典与词频构建的兴趣表示与评论内容中呈现的用户偏好存有较大偏差。具体表现在, 忽略词典未涵盖的“特征词”导致信息抽取的折损; 词项独立则使兴趣度计算依赖于词的形式, 无法进行语义汇聚, 形成更有效的用户描述。因此, 本研究致力于以下两个关键问题: 未登录特征词的有效识别; 实现词项的语义凝聚, 生成语义层面的用户兴趣模型。

3.2 模型概述

本文的偏好模型形式化为二元组集, 其表达式如公式(1)所示。

$Pre{{f}_{r}}=\{<{{t}_{i}},{{p}_{i}}>|i\in [1,{{N}_{r}}]\}$

其中, $r$代表一则评论, ${{t}_{i}}$为从$r$中提取的产品特征, ${{p}_{i}}$表示用户对${{t}_{i}}$的兴趣度, ${{N}_{r}}$为从$r$中提取的特征项个数。

借助词向量捕获词项语义, 计算语义关联度, 建立词关联矩阵, 继而采用图算法TextRank提炼特征主旨, 生成用户兴趣模型。整体流程如图1所示。

(1) 预处理。对评论文本分词分句, 标注词性, 统计字量。

(2) 特征识别与提取。构建特征词基库, 引入词向量辨识“未登录特征”, 扩展特征词库。

(3) 引入词向量构造语义词图。

(4) 运用图算法凝聚特征词, 计算特征兴趣度, 生成用户兴趣模型。

图1

图1   用户兴趣模型构建流程


3.3 基于词向量的特征识别

(1) 词向量模型

引入Google的词向量模型Word2Vec捕获词项语义。Word2Vec基于浅层神经网络, 自动学习词语在语料库中的出现情况, 建立词项空间到一个$n$维实数空间的映射关系$Term\_set\to {{R}^{n}}$。对于$t\in Term\_set$, $t$在${{R}^{n}}$空间的词向量表示为$\overrightarrow{t}=[{{x}_{1}},{{x}_{2}},\cdot \cdot \cdot ,{{x}_{n}}]$, $n$通常在100至500之间。利用词向量内积测度词语间的语义关联, 采用余弦相似度, 对于${{t}_{i}},{{t}_{j}}\in Term\_set$, 有公式(2)。

$Semantic\_set({{t}_{i}},{{t}_{j}})=\cos \theta =\frac{\overrightarrow{{{t}_{i}}}\cdot \overrightarrow{{{t}_{j}}}}{\left\| \overrightarrow{{{t}_{i}}} \right\|\cdot \left\| \overrightarrow{{{t}_{j}}} \right\|}$

词向量构建基于大规模训练语料, 规模越大, 向量表达越好。考虑到运算效率, 本研究直接采用北京师范大学的开源中文预训练模型[20]。该模型的训练语料为“百度百科”, 语料库规模4.1GB, 词表规模 5 422KB。模型采用密集型词嵌入表征, 上下文特征窗口尺寸设为5, 向量空间维度$n$为300。

(2) 特征词库

特征词库的构建流程如图2所示。依设定, 用户 提及的特征主要出现在评论句中, 先根据情感词典定位评价词, 再依句法规则从句中提取与评价词匹配的词 项作为候选特征。根据早期研究[21], 引入5个高频抽取规则(见表1), 从语料中提取特征词项。特征候选词依 频次排序, 辅助人工梳理, 生成特征词基库(简称基库)。

图2

图2   特征词库构建流程


表1   提取特征词的依存句法[21]

特征观点抽取规则模板覆盖率示例说明
a(评价)←SBV←n(特征项)73%像素(n)挺高(a)的SBV: 主谓关系
VOB: 动宾关系
ATT: 定中关系
COO: 并列关系
a: 形容词
v: 动词
n: 名词
a(评价)→VOB→v←SBV←n(特征项)13.8%就是价钱(n)有(v)点小贵(a)
a(评价)→COO→a(评价)←SBV←n(特征项)5.6%屏幕(n)精致(a)漂亮(a)
a(评价)←SBV←v(特征项)4.2%运行(v)挺流畅(a)的
a(评价)←SBV←v←ATT←n(特征项)1.9%电池(n)续航(v)很给力(a)

新窗口打开| 下载CSV


对基库进行扩展。搜索语料, 将扩展词限定在名词、动名词、动词范围内。取扩展词t的词向量, 计算扩展词与基库词项的语义关联度, 求相关度最高的k个基库词项的均值, 见公式(3)。若相关度均值超过阈值, 将扩展词t并入基库。以迭代方式对词库进行扩充, 直至词库基本稳定。

$\begin{align} & Semantic\_sim(t,Feature\_base)=\frac{\sum\limits_{i=1}^{k}{Sim(\overrightarrow{t},\overrightarrow{{{t}_{i}}})}}{k} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ {{t}_{i}}\in Feature\_base \\ \end{align}$

3.4 用户兴趣建模

(1) TextRank算法

TextRank是面向文本的PageRank算法, 通过将特定粒度的文字单元及其共现关系表示为图结构, 迭代计算文字单元的重要性[6]。算法基本思想是: 文本内容可以根据其内部词语的邻接关系形成词图$G(V,E)$。候选关键词通常取名词、动词等实体词, 边集E则依设定规则建立。基于$G(V,E)$的词图矩阵, 词节点${{t}_{i}}$的重要度计算如公式(4)[6]所示。

$Imp({{t}_{i}})=\rho \sum\limits_{{{t}_{j}}\in In({{t}_{i}})}{P(<{{t}_{j}},{{t}_{i}}>)\cdot Imp}({{t}_{j}})+(1-\rho )$

其中, $In({{t}_{i}})$为指向${{t}_{i}}$的词节点集, $P(<{{t}_{j}},{{t}_{i}}>)$为${{t}_{j}}$到${{t}_{i}}$的跳转概率, PageRank采用机会均等策略, $P(<{{t}_{j}},{{t}_{i}}>)=\frac{1}{\left| Out({{t}_{j}}) \right|}$, $Out({{t}_{j}})$为跳离${{t}_{j}}$的节点集, $\rho $为阻尼系数。

TextRank同样利用节点间的有向关联, 迭代计算节点重要度。指向$t$的节点集表示其支持者, 支持者越多, $t$越重要, 其重要度排名越靠前。与PageRank的不同在于, TextRank将关联强度$Sim({{t}_{j}},{{t}_{i}})$引入跳转概率$P(<{{t}_{j}},{{t}_{i}}>)$计算, 关联度越大, 跳转概率越大。本研究基于文献[6]的算法思路, 给出相应的公式描述, 如公式(5)所示。

$Imp({{t}_{i}})=\rho \sum\limits_{{{t}_{j}}\in In({{t}_{i}})}{\frac{Sim({{t}_{j}},{{t}_{i}})}{\sum\limits_{{{t}_{k}}\in Out({{t}_{j}})}{Sim({{t}_{j}},{{t}_{k}})}}}\cdot Imp({{t}_{j}})+(1-\rho )$

(2) 基于语义的词项重要度计算

评论文本经初步特征提取, 将内容限定为特征词, 再基于词向量获得词间语义关联, 生成语义词图。在词图上运行TextRank, 迭代计算每个特征词项的重要度。因词图基于语义, 语义关联的词项相互支持, 汇聚成簇。根据TextRank原理, 凝聚核心语义的词项能获得更多支持, 词项重要度与其语义支持量有关, 与关联词的重要度有关。因此, 重要度排名靠前的特征词提炼出评论内容的主题特征。内容主题特征反馈用户关注点, 词项重要度则是用户对产品特征兴趣度的直接呈现。设评论r的语义词图${{G}_{r}}$由${{N}_{r}}$个词节点组成, 设定节点初始重要度, 如公式(6)所示。

$im{{p}_{_{0}}}=\left[ \frac{1}{{{N}_{r}}},\frac{1}{{{N}_{r}}},\cdot \cdot \cdot ,\frac{1}{{{N}_{r}}} \right]$

计算节点间的转移概率${{m}_{ji}}$, 如公式(7)所示, 进而生成转移矩阵${{M}_{r}}$。

${{m}_{ji}}=P(<{{t}_{j}},{{t}_{i}}>)=\frac{Semantic\_sim({{t}_{j}},{{t}_{i}})}{\sum\limits_{{{t}_{k}}\in Out({{t}_{j}})}{Semantic\_sim({{t}_{j}},{{t}_{k}})}}$

词图中, $Semantic\_sim({{t}_{j}},{{t}_{i}})$对应边$<{{t}_{j}},{{t}_{i}}>$的权重, 在本文为两个词项的语义关联度。利用公式(5)计算每个节点${{t}_{i}}$的重要度$Imp({{t}_{i}})$。经过一次转移计算后, 进入下一轮迭代运算(k为迭代轮数), 直至结果收敛, 最终获得每个节点的重要度, 如公式(8)所示[7]

$Im{{p}_{k}}({{t}_{i}})=\rho \cdot {{M}_{r}}\cdot Im{{p}_{k-1}}({{t}_{i}})+\frac{1-\rho }{{{N}_{r}}}\cdot e$

其中, $e$为分量为1、维度为${{N}_{r}}$的向量, 引入$\frac{1-\rho }{{{N}_{r}}}\cdot e$是为了解决词图为非联通图的情况, 即强制引入一个小的转移概率, 以确保算法收敛[7]

(3) 用户兴趣模型

相关研究[18]已论证“评论中用户对某产品特征的提及率越高, 用户对该特征越有兴趣”。这一结论强调, 特征词的提及频次对测度用户兴趣度作用显著。因此, 本文引入提及率对词项重要度[7]计算公式进行了修正, 如公式(9)所示。

${{p}_{i}}={{W}_{f}}({{t}_{i}})\cdot Imp({{t}_{i}})=\frac{N({{t}_{i}})}{\sum{N({{t}_{i}})}}\cdot Imp({{t}_{i}})$

${{p}_{i}}$为评论r中用户对特征${{t}_{i}}$的兴趣度,${{W}_{f}}({{t}_{i}})$为${{t}_{i}}$的出现频率,$Imp({{t}_{i}})$为基于TextRank获得的${{t}_{i}}$重要度。公式(9)表明, ${{t}_{i}}$在r中的重要度和提及率共同决定${{p}_{i}}$, 源自r的完整的用户兴趣模型为$Pre{{f}_{r}}=\{<{{t}_{i}},{{p}_{i}}>| i\in [1,{{N}_{r}}]\}$

4 实验研究

4.1 数据采集

中关村在线是专业的大规模IT行业网站, 内含大量数码产品的评论信息。本研究爬取中关村在线的手机评论语料, 主要包括评论人、购买信息、标题、产品评分、产品优点、产品缺点、总结等内容, 因为重点分析评论文本, 因此将产品优点、缺点和总结部分文字整合, 过滤无明确购买信息及字量过少(50字以下)的评论, 最终获得14 570条评论语料, 评论涉及欧珀(OPPO)、三星、华为、苹果等品牌手机, 采集时段为2018年1月16日至24日。

4.2 实验环境与评测

实验在Mac的OS X EI Capitan(版本10.11.6)操作系统下进行, Python3.6语言编程。中文自然语言处理部分利用哈尔滨工业大学语言处理平台LTP[21]的Python接口, 词向量为北京师范大学的开源中文预训练模型[20]

基于14 570条语料构建评论特征词库, 选取字量大于50的评论, 从中随机选择出302条评论, 以人工标注方式生成一份评测数据。标注任务分配给三名信息管理专业学生, 要求仔细阅读每则评论, 从中抽取并归纳与手机性能相关的特征词, 依词项出现频次及语义关系列出评论人关注的产品特征序列。例如:

果然还是高颜值、高质感的外观设计, 拍照功能是主打的吧, 将配备前置双摄像头, 像素达到了2000 万, 这是要和vivo X9对掐的节奏啊, 处理器和其他的配置也还可以吧。如果价格像别人说的要4000+, 我真心买不起……

根据评论内容推测,用户关注的是手机的外观和拍照功能。标注人按要求标注用户兴趣“颜值: 1, 质感: 1, 外观: 1, 设计:1, 拍照: 1, 摄像头: 1, 像素: 1, 处理器: 1, 价格: 1”。标注完成, 三名标注人对结果进行交叉检验, 生成评测语料。

基于评测语料, 计算算法生成模型与人工生成模型的语义关联度以及特征项识别的准确率P、召回率R和F1值如公式(10)-公式(13)所示。设$Pre{{f}_{r}}$和$Label\_pre{{f}_{r}}$分别表示算法从r中提取的特征序列及人工归纳的特征项序列。

$Sim(Pre{{f}_{r}},Label\_pre{{f}_{r}})=\frac{\overrightarrow{Pre{{f}_{r}}}\cdot \overrightarrow{Label\_pre{{f}_{r}}}}{\left\| Pre{{f}_{r}} \right\|\cdot \left\| Label\_pre{{f}_{r}} \right\|}$

其中, $\overrightarrow{Pre{{f}_{r}}}$和$\overrightarrow{Label\_pre{{f}_{r}}}$对应$Pre{{f}_{r}}$和$Label\_pre{{f}_{r}}$的词向量。

${{P}_{r}}=\frac{\left| Pre{{f}_{r}}\bigcap Label\_pre{{f}_{r}} \right|}{\left| Pre{{f}_{r}} \right|}$
${{R}_{r}}=\frac{\left| Pre{{f}_{r}}\bigcap Label\_pre{{f}_{r}} \right|}{\left| Label\_pre{{f}_{r}} \right|}$
$F{{1}_{r}}=\frac{2\cdot {{P}_{r}}\cdot {{R}_{r}}}{{{P}_{r}}+{{R}_{r}}}$

语义关联度越高, 表明算法判断与人工判断结果越接近, 模型质量越好。准确率、召回率和F1指标则基于词项形式上的一致性评判算法质量, 指标得分越高, 算法获得的兴趣描述与人工描述越一致。

4.3 实验与结果分析

(1) 未登录特征识别与特征词库扩充

实验任务是识别未登录特征词, 扩充特征词库。未登录词项能否归入词库, 取决于词项语义及归并阈值$\varepsilon $。$\varepsilon $设定过低, 可能引入无关词; 过高则失去扩充的意义。因$\varepsilon $设定十分重要, 首先进行阈值选取实验。$\varepsilon $的选取范围为0.3~1.0, 采用3.3节中的方法扩充特征词库。在评测语料上, 基于$\varepsilon $生成的词库进行用户兴趣抽取, 并计算与人工描述模型的语义关联度, 实验结果如图3所示。

图3

图3   词库扩充归并阈值设定


$\varepsilon $=0.5时, 算法抽取的词项序列与标注序列的语义关联度最高; $\varepsilon $>0.5时, 纳入词库的候选词开始受限, 模型的语义表达能力减弱, $\varepsilon $=1.0时为基库表现, 涵盖词项最少, 表达能力最弱; $\varepsilon $<0.5时, 则会引入与产品特征关联度不高的词项(噪音), 模型语义表达能力的提升幅度有限。可见, 选择适度的$\varepsilon $, 才能起到提升词库完备性、控制噪音、增强模型表达能力的作用。据经验, 实验以与未登录词语义相关度最高的前5个词的相似度均值作为将未登录词纳入词库的判断依据。

表2给出了扩充特征词的代表示例。可以看出, 由于词向量蕴含语义, 通过相似度计算可获得的未登录词与特征词集的语义关联度, 从而做出判断。

表2   未登录词与特征词的关联度计算结果与示例(topk=5,$\varepsilon $=0.5)

未登录词语义相关特征词/相似度特征词平均语义关联度是否归并特征词库
菜单按钮/0.625, 闪屏/0.619, 截屏/0.591, 图标/0.565, 屏保/0.5520.591
人脸人脸识别/0.607, 图像/0.563, 截屏/0.535, 照片/0.488, 成像/0.4850.536
物美价廉性价比/0.586, 国产货/0.550, 回头率/0.504, 价钱/0.502, 正品/0.4930.527
水货行货/0.741, 国产货/0.603, 换货/0.586, 正品/0.581, 国产机/0.5770.618
京东商城/0.348, 物流/0.247, android/0.239, 新品/0.238, 国产/0.2360.261
华为手机/0.393, 网络/0.330, 电信/0.329, 三星/0.328, IOS/0.3240.341

新窗口打开| 下载CSV


(2) 用户兴趣建模实验

基本步骤如下:

①对任意$r\in Review\_set$进行特征词库过滤, 获取特征词集$Feature{{s}_{r}}$。

②对于${{t}_{i}}\in Feature{{s}_{r}}$, 计算${{t}_{i}}$的词频权重${{W}_{f}}({{t}_{i}})$。

③引入词向量获得${{t}_{i}}$的词向量$\overrightarrow{{{t}_{i}}}$, 计算词项间语义关联度。

④采用公式(7)构建词图${{G}_{r}}$, 计算转移矩阵${{M}_{r}}$。

⑤在${{G}_{r}}$上执行TextRank, 同时引入词频权重, 依据公式(9)计算特征${{t}_{i}}$重要度, 从而获得蕴含语义的用户兴趣描述$Pre{{f}_{r}}=\{<{{t}_{i}},{{p}_{i}}>|i\in [1,{{N}_{r}}]\}$, 用户兴趣抽取实例如图4所示。

图4

图4   偏好模型构建示例


可知, 兴趣描述序列中, 提及率高的特征词排名靠前, 语义关联密切的特征词紧邻。直观检测, 人工描述中, 词频因缺乏区分度, 词项间语义关系依人工判断形成汇聚。基于词向量建立的兴趣模型与人工生成的描述基本吻合, 能够捕获词项间的语义关系, 并有效测度主题词的重要度。当然, 语义关联与词向量模型有关, 本文采用的词向量基于“百度百科”, 通用语义若与评论中的语义存有差异, 则可能存在判断偏差。实例II中, “质感”在评论中描述产品外观, 但通用词向量语义倾向于拍照效果, 因而抽取的词项序列中“质感”与“摄像头”“像素”紧邻。人工判断往往带有主观性, 词向量基于大规模语料, 某种程度上更客观, 前提是词向量相对完善。实例III中, “疏油层”与屏幕有关, 但词向量未涵盖, 分析结果中就缺少了对这一特征表达的判别。词向量模型直接影响最终分析结果。

(3) 语义模型与词袋模型的对比实验

在评测语料上, 计算基于词频的词袋模型的评测指标, 与本文提出的基于语义的兴趣抽取模型进行对比, 结果如表3所示。

表3   用户偏好性能模型对比

用户兴趣模型模型描述正确率P (均值)召回率R (均值)F1(均值)
Semantic_Model基于Word2Vec的词图模型, $\varepsilon $=0.50.45640.75820.5505
Feature_Model面向评论内容中的特征词, 基于词频建立的用户兴趣模型0.43360.73390.5269
Term_Model面向评论内容中的词项(名词, 动名词, 动词), 基于词频建立的用户兴趣模型0.22780.73270.3322

新窗口打开| 下载CSV


表3可知, 语义模型优于词袋模型, 经特征过滤的模型(Semantic_Model, Feature_Model)优于未经特征过滤的模型(Term_Model)。这说明, 用户对产品细节的关注是以特征词的形式呈现, 语义关系能够捕获特征的相关性, 更好地凝聚用户的兴趣点和关注点。若评论中产品特征表达为隐性, 语义模型更有优势。如图5所示, 词袋模型基于词项匹配, P、R、F1的值均为0, 表达能力不及语义模型。语义模型捕获了“大屏”的语义, 词向量将其映射至“屏幕”, 语义描述与人工描述的语义关联度达到74.4%。可见, 本研究从用户发表的评论中提炼的用户兴趣模型能够更贴近用户的真实需求, 从而实现更精准的个性化推荐。

图5

图5   偏好模型对比实例


4.4 分析与讨论

(1) 算法效果分析

根据4.3实验结果, 用本文方法生成的用户兴趣模型形式上与人工生成的模型具有一致性, 量化指标均优于词袋模型。算法效果提升的主要原因有两点。

①语义引入。本文以词向量描述词项, 赋予词项语义。语义的引入, 使词间的语义关联得以量化。根据语义关联度, 过滤无关词项, 扩充特征词, 保障了抽取特征项的完备性和准确性。如将“人脸”一词(见表2)与特征词库中的词项进行语义比较, 得出对于手机产品, “人脸”指代“人脸识别”功能。

②信息凝聚方法的运用。本文利用TextRank凝练用户兴趣点, 基于语义关联度矩阵构建词图, 设定转移矩阵, 将形式不一的特征词汇聚成簇。实验结果显示, TextRank根据语义关联进行投票, 语义相似的词项彼此连接, 词图具有对称性; 语义相关的词项, 权重接近, 彼此相邻。因此, 相关词项出现越频繁, 词项重要性得分越高, 相关词项汇聚成主题。如实例I(见图4), 该评论中“拍照、屏幕、像素、人像、拍摄”等特征因有较强关联, 在重要度排名中聚在一起; “机身”与“尺寸”也因语义关联密切, 相互紧邻。这样的语义汇聚效果, 基于词袋模型难以呈现。可见, TextRank凝练了分散词项的语义信息, 从而能够更准确地捕获内容中的用户关注点, 与人工归纳的兴趣模型达到语义上的一致性。

(2) 应用价值

用户兴趣建模是个性化推荐的起点。本文算法只需借助用户发表的评论即可提炼用户关注点, 基于语义的描述则能够更准确地捕获用户的真实需求。将该方法引入协同推荐系统, 可回避“冷启动”问题, 借助基于评论的模型对用户或产品进行聚类细分, 能够实现多种形式的协同推荐。若将方法用于产品建模, 则可直接计算用户兴趣模型与产品模型的匹配度, 找出满足用户需求的产品。本研究通过采用语义模型对用户兴趣建模, 引出评论资讯质量评价与控制的新思路。在基于评论内容对用户建模的基础上, 后续将实现基于用户关注点的评论资讯推荐, 评论资讯的推荐排名不仅可以依据其“有用性”, 更强调满足用户的个性化的信息需求。采用满足个性需求的推荐策略旨在从根本上降低过载信息造成的负面影响, 有效提升信息服务质量。

(3) 研究中的问题

本文的研究设定是用户发表的评论中蕴含了用户的喜好或个性化需求。这对建模数据提出了一定要求, 应充分采集用户发表的评论。如Chen等[16]只对发表评论超过5条的评论人建模, 就是为了确保信息充分。本研究对分析语料的文本长度进行控制(50字以上), 有一定作用, 但力度不够, 后续研究需要对语料进一步扩充完善, 令结论更具信服力。

另一方面, 本文语义的引入采用的是基于通用语料获得的预训练词向量模型, 模型未涵盖的词项仍无法识别。本研究采用折中方案, 从语料中梳理出词向量未涵盖但出现频次较高的候选特征项, 将其映射至关联的特征词项上, 如“颜值”映射至“外观”, 以“外观”的词向量作替代。因这类特征词项语料中并不多, 故采用人工处理。实际上, 这是词向量模型的完备性及领域适用问题, 构建基于大规模领域语料的词向量模型是解决问题的关键, 也是后续研究需探讨和优化的重点。

5 结 语

本文借助预训练的词向量及基于词图的关键词抽取技术, 通过深度挖掘用户发表的评论, 构建用户兴趣模型。算法采用依存句法规则, 结合词向量从评论观点句中提出产品的特征表达; 以特征词项为分析单元, 生成基于语义关联的特征词图, 再利用TextRank关键词抽取技术汇聚特征词, 获得词项重要度并排序, 生成用户兴趣模型。

基于用户评论的兴趣建模法能够解决“冷启动”问题, 以同样思路进行产品建模, 可实现有效的内容推荐。实验结果表明, 以本方法构建用户兴趣模型与人工归纳的用户模型吻合度较高, 语义相关度近90%。准确率、召回率和F1值均优于基于词频的词袋模型。

后续研究将运用该方法进行评论质量评测, 实现评论资讯的个性化推送。评论资讯个性化推送关注用户个体的信息需求, 基于用户兴趣点和关注点对资讯进行有用性评价、过滤及推送, 亦是解决信息过载、提升信息服务质量的有效途径。

利益冲突声明:

作者声明不存在利益冲突关系。

支撑数据:

支撑数据见期刊网络版http://www.infotech.ac.cn

[1] 聂卉.中关村在线_评论数据.zip. 基于评论的用户偏好建模原始数据及相关支撑数据, 包括词典、标注数据集等.

参考文献

姜霖, 张麒麟 .

基于评论情感分析的个性化推荐策略研究-以豆瓣影评为例

[J]. 情报理论与实践, 2017,40(8):99-104.

[本文引用: 3]

( Jiang Lin, Zhang Qilin .

Research on Personalized Recommendation Strategy Based on Sentimental Analysis of the Reviews

[J]. Information Studies: Theory & Application, 2017,40(8):99-104.)

[本文引用: 3]

Chen L, Chen G, Wang F .

Recommender Systems Based on User Reviews: The State of the Art

[J]. User Modeling and User-Adapted Interaction, 2015,25(2):99-154.

[本文引用: 2]

宁建飞, 刘降珍 .

融合Word2vec与TextRank的关键词抽取研究

[J]. 现代图书情报技术, 2016(6):20-27.

[本文引用: 3]

( Ning Jianfei, Liu Jiangzhen .

Using Word2vec with TextRank to Extract Keywords

[J]. New Technology of Library and Information Service, 2016(6):20-27.)

[本文引用: 3]

徐文海, 温有奎 .

一种基于TFIDF方法的中文关键词抽取算法

[J]. 情报理论与实践, 2008,31(2):298-302.

[本文引用: 1]

( Xu Wenhai, Wen Youkui .

An TFIDF_based Algorithm for Chinese Keywords Extraction

[J]. Information Studies: Theory & Application, 2008,31(2):298-302.)

[本文引用: 1]

刘俊, 邹东升, 邢欣来 , .

基于主题特征的关键词抽取

[J]. 计算机应用研究, 2012,29(11):4224-4227.

[本文引用: 1]

( Liu Jun, Zou Dongsheng, Xing Xinlai , et al.

Keyphrase Extraction Based on Topic Feature

[J]. Application Research of Computers, 2012,29(11):4224-4227.)

[本文引用: 1]

Mihalcea R, Tarau P .

TextRank: Bringing Order into Texts

[C]//Proceedings of Empirical Methods in Natural Language Processing, Barcelona, Spain. 2004: 404-411.

[本文引用: 5]

夏天 .

词语位置加权TextRank的关键词抽取研究

[J]. 现代图书情报技术, 2013(9):30-34.

[本文引用: 4]

( Xia Tian .

Study on Keyword Extraction Using Word Position Weighted TextRank

[J]. New Technology of Library and Information Service, 2013(9):30-34.)

[本文引用: 4]

谢玮, 沈一, 马永征 .

基于图计算的论文审稿自动推荐系统

[J]. 计算机应用研究, 2016,33(3):798-801.

[本文引用: 1]

( Xie Wei, Shen Yi, Ma Yongzheng .

Recommendation System for Paper Reviewing Based on Graph Computing

[J]. Application Research of Computers, 2016,33(3):798-801.)

[本文引用: 1]

顾益军, 夏天 .

融合LDA与TextRank的关键词抽取研究

[J]. 现代图书情报技术, 2014(7/8):41-47.

[本文引用: 1]

( Gu Yijun, Xia Tian .

Study on Keyword Extraction with LDA and TextRank Combination

[J]. New Technology of Library and Information Service, 2014(7/8):41-47.)

[本文引用: 1]

夏天 .

词向量聚类加权TextRank的关键词抽取

[J]. 数据分析与知识发现, 2017,1(2):28-34.

[本文引用: 2]

( Xia Tian .

Extracting Keywords with Modified TextRank Model

[J]. Data Analysis and Knowledge Discovery, 2017,1(2):28-34.)

[本文引用: 2]

Esparza S G, O’Mahony M P, Smyth B .

Effective Product Recommendation Using the Real-Time Web

[C]//Proceedings of the 30th SGAI International Conference on Innovative Techniques and Applications of Artificial Intelligence, Cambridge, UK. Springer, 2010: 5-18.

[本文引用: 1]

Zhang W, Ding G, Chen L , et al.

Generating Virtual Ratings from Chinese Reviews to Augment Online Recommendations

[J]. ACM Transactions on Intelligent Systems and Technology, 2013, 4(1): Article No. 9.

[本文引用: 1]

Musat C C, Liang Y, Faltings B .

Recommendation Using Textual Opinions

[C]//Proceedings of the 23rd International Joint Conference on Artificial Intelligence, Beijing, China. AAAI Press, 2013: 2684-2690.

[本文引用: 2]

McAuley J, Leskovec J .

Hidden Factors and Hidden Topics: Understanding Rating Dimensions with Review Text

[C] //Proceedings of the 7th ACM International Conference on Recommender Systems, Hong Kong, China. New York, USA: ACM, 2013: 165-172.

[本文引用: 1]

Liu H, He J, Wang T , et al.

Combining User Preferences and User Opinions for Accurate Recommendation

[J]. Electronic Commerce Research and Applications, 2013,12(1):14-23.

[本文引用: 4]

Chen L, Wang F .

Preference-based Clustering Reviews for Augmenting E-commerce Recommendation

[J]. Knowledge-Based Systems, 2013,50:44-59.

[本文引用: 5]

Chen L, Wang F .

Explaining Recommendations Based on Feature Sentiments in Product Reviews

[C]// Proceedings of the 22nd International Conference on Intelligent User Interfaces, Limasso, Cyprus. New York, USA: ACM, 2017: 17-28.

[本文引用: 1]

王伟, 王洪伟 .

面向竞争力的特征比较网络: 情感分析方法

[J]. 管理科学学报, 2016,19(9):109-126.

[本文引用: 5]

( Wang Wei, Wang Hongwei .

Comparative Network for Product Competition in Feature-levels Through Sentiment Analysis

[J]. Journal of Management Sciences in China, 2016,19(9):109-126.)

[本文引用: 5]

Hong Y, Lu J, Yao J , et al.

What Reviews are Satisfactory: Novel Features for Automatic Helpfulness Voting

[C] //Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval, Portland, Oregon, USA. New York, USA: ACM, 2012: 495-504.

[本文引用: 1]

Chinese Word Vectors: 目前最全的中文预训练词向量集合

[EB/OL]. [ 2018- 10- 20]. http://www.mingriqingbao.com/web/detail/forword/P/12571.

URL     [本文引用: 2]

(

Chinese Word Vectors: The Most Complete Set of Chinese Pre-trained Word Vectors

[EB/OL]. [ 2018- 10- 20]. http://www.mingriqingbao.com/web/detail/forword/P/12571

URL     [本文引用: 2]

聂卉, 杜嘉忠 .

依存句法模板下的商品特征标签抽取研究

[J]. 现代图书情报技术, 2014(12):44-50.

[本文引用: 3]

( Nie Hui, Du Jiazhong .

Using Dependency Parsing Pattern to Extract Product Feature Tags

[J]. New Technology of Library and Information Service, 2014(12):44-50.)

[本文引用: 3]

LTP语言技术平台

[EB/OL]. [ 2018- 10- 01]. http://ltp.ai.

URL    

(

Language Technology Platform

[EB/OL]. [ 2018- 10- 01]. http://ltp.ai

URL    

/

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn