结合词向量和词图算法的用户兴趣建模研究 *

图1 用户兴趣模型构建流程

3.3 基于词向量的特征识别

(1) 词向量模型

引入Google的词向量模型Word2Vec捕获词项语义。Word2Vec基于浅层神经网络, 自动学习词语在语料库中的出现情况, 建立词项空间到一个$n$维实数空间的映射关系$Term\_set\to {{R}^{n}}$。对于$t\in Term\_set$, $t$在${{R}^{n}}$空间的词向量表示为$\overrightarrow{t}=[{{x}_{1}},{{x}_{2}},\cdot \cdot \cdot ,{{x}_{n}}]$, $n$通常在100至500之间。利用词向量内积测度词语间的语义关联, 采用余弦相似度, 对于${{t}_{i}},{{t}_{j}}\in Term\_set$, 有公式(2)。

(2)$Semantic\_set({{t}_{i}},{{t}_{j}})=\cos \theta =\frac{\overrightarrow{{{t}_{i}}}\cdot \overrightarrow{{{t}_{j}}}}{\left\| \overrightarrow{{{t}_{i}}} \right\|\cdot \left\| \overrightarrow{{{t}_{j}}} \right\|}$

词向量构建基于大规模训练语料, 规模越大, 向量表达越好。考虑到运算效率, 本研究直接采用北京师范大学的开源中文预训练模型^[20]。该模型的训练语料为“百度百科”, 语料库规模4.1GB, 词表规模 5 422KB。模型采用密集型词嵌入表征, 上下文特征窗口尺寸设为5, 向量空间维度$n$为300。

(2) 特征词库

特征词库的构建流程如图2所示。依设定, 用户提及的特征主要出现在评论句中, 先根据情感词典定位评价词, 再依句法规则从句中提取与评价词匹配的词项作为候选特征。根据早期研究^[21], 引入5个高频抽取规则(见表1), 从语料中提取特征词项。特征候选词依频次排序, 辅助人工梳理, 生成特征词基库(简称基库)。

图2

图2 特征词库构建流程

表1 提取特征词的依存句法^[21]

特征观点抽取规则模板	覆盖率	示例	说明
a(评价)←SBV←n(特征项)	73%	像素(n)挺高(a)的	SBV: 主谓关系 VOB: 动宾关系 ATT: 定中关系 COO: 并列关系 a: 形容词 v: 动词 n: 名词
a(评价)→VOB→v←SBV←n(特征项)	13.8%	就是价钱(n)有(v)点小贵(a)
a(评价)→COO→a(评价)←SBV←n(特征项)	5.6%	屏幕(n)精致(a)漂亮(a)
a(评价)←SBV←v(特征项)	4.2%	运行(v)挺流畅(a)的
a(评价)←SBV←v←ATT←n(特征项)	1.9%	电池(n)续航(v)很给力(a)

新窗口打开| 下载CSV

对基库进行扩展。搜索语料, 将扩展词限定在名词、动名词、动词范围内。取扩展词t的词向量, 计算扩展词与基库词项的语义关联度, 求相关度最高的k个基库词项的均值, 见公式(3)。若相关度均值超过阈值, 将扩展词t并入基库。以迭代方式对词库进行扩充, 直至词库基本稳定。

(3)$\begin{align} & Semantic\_sim(t,Feature\_base)=\frac{\sum\limits_{i=1}^{k}{Sim(\overrightarrow{t},\overrightarrow{{{t}_{i}}})}}{k} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ {{t}_{i}}\in Feature\_base \\ \end{align}$

3.4 用户兴趣建模

(1) TextRank算法

TextRank是面向文本的PageRank算法, 通过将特定粒度的文字单元及其共现关系表示为图结构, 迭代计算文字单元的重要性^[6]。算法基本思想是: 文本内容可以根据其内部词语的邻接关系形成词图$G(V,E)$。候选关键词通常取名词、动词等实体词, 边集E则依设定规则建立。基于$G(V,E)$的词图矩阵, 词节点${{t}_{i}}$的重要度计算如公式(4)^[6]所示。

(4)$Imp({{t}_{i}})=\rho \sum\limits_{{{t}_{j}}\in In({{t}_{i}})}{P(<{{t}_{j}},{{t}_{i}}>)\cdot Imp}({{t}_{j}})+(1-\rho )$

其中, $In({{t}_{i}})$为指向${{t}_{i}}$的词节点集, $P(<{{t}_{j}},{{t}_{i}}>)$为${{t}_{j}}$到${{t}_{i}}$的跳转概率, PageRank采用机会均等策略, $P(<{{t}_{j}},{{t}_{i}}>)=\frac{1}{\left| Out({{t}_{j}}) \right|}$, $Out({{t}_{j}})$为跳离${{t}_{j}}$的节点集, $\rho $为阻尼系数。

TextRank同样利用节点间的有向关联, 迭代计算节点重要度。指向$t$的节点集表示其支持者, 支持者越多, $t$越重要, 其重要度排名越靠前。与PageRank的不同在于, TextRank将关联强度$Sim({{t}_{j}},{{t}_{i}})$引入跳转概率$P(<{{t}_{j}},{{t}_{i}}>)$计算, 关联度越大, 跳转概率越大。本研究基于文献[6]的算法思路, 给出相应的公式描述, 如公式(5)所示。

(5)$Imp({{t}_{i}})=\rho \sum\limits_{{{t}_{j}}\in In({{t}_{i}})}{\frac{Sim({{t}_{j}},{{t}_{i}})}{\sum\limits_{{{t}_{k}}\in Out({{t}_{j}})}{Sim({{t}_{j}},{{t}_{k}})}}}\cdot Imp({{t}_{j}})+(1-\rho )$

(2) 基于语义的词项重要度计算

评论文本经初步特征提取, 将内容限定为特征词, 再基于词向量获得词间语义关联, 生成语义词图。在词图上运行TextRank, 迭代计算每个特征词项的重要度。因词图基于语义, 语义关联的词项相互支持, 汇聚成簇。根据TextRank原理, 凝聚核心语义的词项能获得更多支持, 词项重要度与其语义支持量有关, 与关联词的重要度有关。因此, 重要度排名靠前的特征词提炼出评论内容的主题特征。内容主题特征反馈用户关注点, 词项重要度则是用户对产品特征兴趣度的直接呈现。设评论r的语义词图${{G}_{r}}$由${{N}_{r}}$个词节点组成, 设定节点初始重要度, 如公式(6)所示。

(6)$im{{p}_{_{0}}}=\left[ \frac{1}{{{N}_{r}}},\frac{1}{{{N}_{r}}},\cdot \cdot \cdot ,\frac{1}{{{N}_{r}}} \right]$

计算节点间的转移概率${{m}_{ji}}$, 如公式(7)所示, 进而生成转移矩阵${{M}_{r}}$。

(7)${{m}_{ji}}=P(<{{t}_{j}},{{t}_{i}}>)=\frac{Semantic\_sim({{t}_{j}},{{t}_{i}})}{\sum\limits_{{{t}_{k}}\in Out({{t}_{j}})}{Semantic\_sim({{t}_{j}},{{t}_{k}})}}$

词图中, $Semantic\_sim({{t}_{j}},{{t}_{i}})$对应边$<{{t}_{j}},{{t}_{i}}>$的权重, 在本文为两个词项的语义关联度。利用公式(5)计算每个节点${{t}_{i}}$的重要度$Imp({{t}_{i}})$。经过一次转移计算后, 进入下一轮迭代运算(k为迭代轮数), 直至结果收敛, 最终获得每个节点的重要度, 如公式(8)所示^[7]。

(8)$Im{{p}_{k}}({{t}_{i}})=\rho \cdot {{M}_{r}}\cdot Im{{p}_{k-1}}({{t}_{i}})+\frac{1-\rho }{{{N}_{r}}}\cdot e$

其中, $e$为分量为1、维度为${{N}_{r}}$的向量, 引入$\frac{1-\rho }{{{N}_{r}}}\cdot e$是为了解决词图为非联通图的情况, 即强制引入一个小的转移概率, 以确保算法收敛^[7]。

(3) 用户兴趣模型

相关研究^[18]已论证“评论中用户对某产品特征的提及率越高, 用户对该特征越有兴趣”。这一结论强调, 特征词的提及频次对测度用户兴趣度作用显著。因此, 本文引入提及率对词项重要度^[7]计算公式进行了修正, 如公式(9)所示。

(9)${{p}_{i}}={{W}_{f}}({{t}_{i}})\cdot Imp({{t}_{i}})=\frac{N({{t}_{i}})}{\sum{N({{t}_{i}})}}\cdot Imp({{t}_{i}})$

${{p}_{i}}$为评论r中用户对特征${{t}_{i}}$的兴趣度,${{W}_{f}}({{t}_{i}})$为${{t}_{i}}$的出现频率,$Imp({{t}_{i}})$为基于TextRank获得的${{t}_{i}}$重要度。公式(9)表明, ${{t}_{i}}$在r中的重要度和提及率共同决定${{p}_{i}}$, 源自r的完整的用户兴趣模型为$Pre{{f}_{r}}=\{<{{t}_{i}},{{p}_{i}}>| i\in [1,{{N}_{r}}]\}$

4 实验研究

4.1 数据采集

中关村在线是专业的大规模IT行业网站, 内含大量数码产品的评论信息。本研究爬取中关村在线的手机评论语料, 主要包括评论人、购买信息、标题、产品评分、产品优点、产品缺点、总结等内容, 因为重点分析评论文本, 因此将产品优点、缺点和总结部分文字整合, 过滤无明确购买信息及字量过少(50字以下)的评论, 最终获得14 570条评论语料, 评论涉及欧珀(OPPO)、三星、华为、苹果等品牌手机, 采集时段为2018年1月16日至24日。

4.2 实验环境与评测

实验在Mac的OS X EI Capitan(版本10.11.6)操作系统下进行, Python3.6语言编程。中文自然语言处理部分利用哈尔滨工业大学语言处理平台LTP^[21]的Python接口, 词向量为北京师范大学的开源中文预训练模型^[20]。

基于14 570条语料构建评论特征词库, 选取字量大于50的评论, 从中随机选择出302条评论, 以人工标注方式生成一份评测数据。标注任务分配给三名信息管理专业学生, 要求仔细阅读每则评论, 从中抽取并归纳与手机性能相关的特征词, 依词项出现频次及语义关系列出评论人关注的产品特征序列。例如:

果然还是高颜值、高质感的外观设计, 拍照功能是主打的吧, 将配备前置双摄像头, 像素达到了2000 万, 这是要和vivo X9对掐的节奏啊, 处理器和其他的配置也还可以吧。如果价格像别人说的要4000+, 我真心买不起……

根据评论内容推测,用户关注的是手机的外观和拍照功能。标注人按要求标注用户兴趣“颜值: 1, 质感: 1, 外观: 1, 设计:1, 拍照: 1, 摄像头: 1, 像素: 1, 处理器: 1, 价格: 1”。标注完成, 三名标注人对结果进行交叉检验, 生成评测语料。

基于评测语料, 计算算法生成模型与人工生成模型的语义关联度以及特征项识别的准确率P、召回率R和F1值如公式(10)-公式(13)所示。设$Pre{{f}_{r}}$和$Label\_pre{{f}_{r}}$分别表示算法从r中提取的特征序列及人工归纳的特征项序列。

(10)$Sim(Pre{{f}_{r}},Label\_pre{{f}_{r}})=\frac{\overrightarrow{Pre{{f}_{r}}}\cdot \overrightarrow{Label\_pre{{f}_{r}}}}{\left\| Pre{{f}_{r}} \right\|\cdot \left\| Label\_pre{{f}_{r}} \right\|}$

其中, $\overrightarrow{Pre{{f}_{r}}}$和$\overrightarrow{Label\_pre{{f}_{r}}}$对应$Pre{{f}_{r}}$和$Label\_pre{{f}_{r}}$的词向量。

(11)${{P}_{r}}=\frac{\left| Pre{{f}_{r}}\bigcap Label\_pre{{f}_{r}} \right|}{\left| Pre{{f}_{r}} \right|}$

(12)${{R}_{r}}=\frac{\left| Pre{{f}_{r}}\bigcap Label\_pre{{f}_{r}} \right|}{\left| Label\_pre{{f}_{r}} \right|}$

(13)$F{{1}_{r}}=\frac{2\cdot {{P}_{r}}\cdot {{R}_{r}}}{{{P}_{r}}+{{R}_{r}}}$

语义关联度越高, 表明算法判断与人工判断结果越接近, 模型质量越好。准确率、召回率和F1指标则基于词项形式上的一致性评判算法质量, 指标得分越高, 算法获得的兴趣描述与人工描述越一致。

4.3 实验与结果分析

(1) 未登录特征识别与特征词库扩充

实验任务是识别未登录特征词, 扩充特征词库。未登录词项能否归入词库, 取决于词项语义及归并阈值$\varepsilon $。$\varepsilon $设定过低, 可能引入无关词; 过高则失去扩充的意义。因$\varepsilon $设定十分重要, 首先进行阈值选取实验。$\varepsilon $的选取范围为0.3~1.0, 采用3.3节中的方法扩充特征词库。在评测语料上, 基于$\varepsilon $生成的词库进行用户兴趣抽取, 并计算与人工描述模型的语义关联度, 实验结果如图3所示。

图3

图3 词库扩充归并阈值设定

$\varepsilon $=0.5时, 算法抽取的词项序列与标注序列的语义关联度最高; $\varepsilon $>0.5时, 纳入词库的候选词开始受限, 模型的语义表达能力减弱, $\varepsilon $=1.0时为基库表现, 涵盖词项最少, 表达能力最弱; $\varepsilon $<0.5时, 则会引入与产品特征关联度不高的词项(噪音), 模型语义表达能力的提升幅度有限。可见, 选择适度的$\varepsilon $, 才能起到提升词库完备性、控制噪音、增强模型表达能力的作用。据经验, 实验以与未登录词语义相关度最高的前5个词的相似度均值作为将未登录词纳入词库的判断依据。

表2给出了扩充特征词的代表示例。可以看出, 由于词向量蕴含语义, 通过相似度计算可获得的未登录词与特征词集的语义关联度, 从而做出判断。

表2 未登录词与特征词的关联度计算结果与示例(topk=5,$\varepsilon $=0.5)

未登录词	语义相关特征词/相似度	特征词平均语义关联度	是否归并特征词库
菜单	按钮/0.625, 闪屏/0.619, 截屏/0.591, 图标/0.565, 屏保/0.552	0.591	是
人脸	人脸识别/0.607, 图像/0.563, 截屏/0.535, 照片/0.488, 成像/0.485	0.536	是
物美价廉	性价比/0.586, 国产货/0.550, 回头率/0.504, 价钱/0.502, 正品/0.493	0.527	是
水货	行货/0.741, 国产货/0.603, 换货/0.586, 正品/0.581, 国产机/0.577	0.618	是
京东	商城/0.348, 物流/0.247, android/0.239, 新品/0.238, 国产/0.236	0.261	否
华为	手机/0.393, 网络/0.330, 电信/0.329, 三星/0.328, IOS/0.324	0.341	否

新窗口打开| 下载CSV

(2) 用户兴趣建模实验

基本步骤如下:

①对任意$r\in Review\_set$进行特征词库过滤, 获取特征词集$Feature{{s}_{r}}$。

②对于${{t}_{i}}\in Feature{{s}_{r}}$, 计算${{t}_{i}}$的词频权重${{W}_{f}}({{t}_{i}})$。

③引入词向量获得${{t}_{i}}$的词向量$\overrightarrow{{{t}_{i}}}$, 计算词项间语义关联度。

④采用公式(7)构建词图${{G}_{r}}$, 计算转移矩阵${{M}_{r}}$。

⑤在${{G}_{r}}$上执行TextRank, 同时引入词频权重, 依据公式(9)计算特征${{t}_{i}}$重要度, 从而获得蕴含语义的用户兴趣描述$Pre{{f}_{r}}=\{<{{t}_{i}},{{p}_{i}}>|i\in [1,{{N}_{r}}]\}$, 用户兴趣抽取实例如图4所示。

图4

图4 偏好模型构建示例

可知, 兴趣描述序列中, 提及率高的特征词排名靠前, 语义关联密切的特征词紧邻。直观检测, 人工描述中, 词频因缺乏区分度, 词项间语义关系依人工判断形成汇聚。基于词向量建立的兴趣模型与人工生成的描述基本吻合, 能够捕获词项间的语义关系, 并有效测度主题词的重要度。当然, 语义关联与词向量模型有关, 本文采用的词向量基于“百度百科”, 通用语义若与评论中的语义存有差异, 则可能存在判断偏差。实例II中, “质感”在评论中描述产品外观, 但通用词向量语义倾向于拍照效果, 因而抽取的词项序列中“质感”与“摄像头”“像素”紧邻。人工判断往往带有主观性, 词向量基于大规模语料, 某种程度上更客观, 前提是词向量相对完善。实例III中, “疏油层”与屏幕有关, 但词向量未涵盖, 分析结果中就缺少了对这一特征表达的判别。词向量模型直接影响最终分析结果。

(3) 语义模型与词袋模型的对比实验

在评测语料上, 计算基于词频的词袋模型的评测指标, 与本文提出的基于语义的兴趣抽取模型进行对比, 结果如表3所示。

表3 用户偏好性能模型对比

用户兴趣模型	模型描述	正确率P (均值)	召回率R (均值)	F1(均值)
Semantic_Model	基于Word2Vec的词图模型, $\varepsilon $=0.5	0.4564	0.7582	0.5505
Feature_Model	面向评论内容中的特征词, 基于词频建立的用户兴趣模型	0.4336	0.7339	0.5269
Term_Model	面向评论内容中的词项(名词, 动名词, 动词), 基于词频建立的用户兴趣模型	0.2278	0.7327	0.3322

新窗口打开| 下载CSV

由表3可知, 语义模型优于词袋模型, 经特征过滤的模型(Semantic_Model, Feature_Model)优于未经特征过滤的模型(Term_Model)。这说明, 用户对产品细节的关注是以特征词的形式呈现, 语义关系能够捕获特征的相关性, 更好地凝聚用户的兴趣点和关注点。若评论中产品特征表达为隐性, 语义模型更有优势。如图5所示, 词袋模型基于词项匹配, P、R、F1的值均为0, 表达能力不及语义模型。语义模型捕获了“大屏”的语义, 词向量将其映射至“屏幕”, 语义描述与人工描述的语义关联度达到74.4%。可见, 本研究从用户发表的评论中提炼的用户兴趣模型能够更贴近用户的真实需求, 从而实现更精准的个性化推荐。

图5

图5 偏好模型对比实例

4.4 分析与讨论

(1) 算法效果分析

根据4.3实验结果, 用本文方法生成的用户兴趣模型形式上与人工生成的模型具有一致性, 量化指标均优于词袋模型。算法效果提升的主要原因有两点。

①语义引入。本文以词向量描述词项, 赋予词项语义。语义的引入, 使词间的语义关联得以量化。根据语义关联度, 过滤无关词项, 扩充特征词, 保障了抽取特征项的完备性和准确性。如将“人脸”一词(见表2)与特征词库中的词项进行语义比较, 得出对于手机产品, “人脸”指代“人脸识别”功能。

②信息凝聚方法的运用。本文利用TextRank凝练用户兴趣点, 基于语义关联度矩阵构建词图, 设定转移矩阵, 将形式不一的特征词汇聚成簇。实验结果显示, TextRank根据语义关联进行投票, 语义相似的词项彼此连接, 词图具有对称性; 语义相关的词项, 权重接近, 彼此相邻。因此, 相关词项出现越频繁, 词项重要性得分越高, 相关词项汇聚成主题。如实例I(见图4), 该评论中“拍照、屏幕、像素、人像、拍摄”等特征因有较强关联, 在重要度排名中聚在一起; “机身”与“尺寸”也因语义关联密切, 相互紧邻。这样的语义汇聚效果, 基于词袋模型难以呈现。可见, TextRank凝练了分散词项的语义信息, 从而能够更准确地捕获内容中的用户关注点, 与人工归纳的兴趣模型达到语义上的一致性。

(2) 应用价值

用户兴趣建模是个性化推荐的起点。本文算法只需借助用户发表的评论即可提炼用户关注点, 基于语义的描述则能够更准确地捕获用户的真实需求。将该方法引入协同推荐系统, 可回避“冷启动”问题, 借助基于评论的模型对用户或产品进行聚类细分, 能够实现多种形式的协同推荐。若将方法用于产品建模, 则可直接计算用户兴趣模型与产品模型的匹配度, 找出满足用户需求的产品。本研究通过采用语义模型对用户兴趣建模, 引出评论资讯质量评价与控制的新思路。在基于评论内容对用户建模的基础上, 后续将实现基于用户关注点的评论资讯推荐, 评论资讯的推荐排名不仅可以依据其“有用性”, 更强调满足用户的个性化的信息需求。采用满足个性需求的推荐策略旨在从根本上降低过载信息造成的负面影响, 有效提升信息服务质量。

(3) 研究中的问题

本文的研究设定是用户发表的评论中蕴含了用户的喜好或个性化需求。这对建模数据提出了一定要求, 应充分采集用户发表的评论。如Chen等^[16]只对发表评论超过5条的评论人建模, 就是为了确保信息充分。本研究对分析语料的文本长度进行控制(50字以上), 有一定作用, 但力度不够, 后续研究需要对语料进一步扩充完善, 令结论更具信服力。

另一方面, 本文语义的引入采用的是基于通用语料获得的预训练词向量模型, 模型未涵盖的词项仍无法识别。本研究采用折中方案, 从语料中梳理出词向量未涵盖但出现频次较高的候选特征项, 将其映射至关联的特征词项上, 如“颜值”映射至“外观”, 以“外观”的词向量作替代。因这类特征词项语料中并不多, 故采用人工处理。实际上, 这是词向量模型的完备性及领域适用问题, 构建基于大规模领域语料的词向量模型是解决问题的关键, 也是后续研究需探讨和优化的重点。

5 结语

本文借助预训练的词向量及基于词图的关键词抽取技术, 通过深度挖掘用户发表的评论, 构建用户兴趣模型。算法采用依存句法规则, 结合词向量从评论观点句中提出产品的特征表达; 以特征词项为分析单元, 生成基于语义关联的特征词图, 再利用TextRank关键词抽取技术汇聚特征词, 获得词项重要度并排序, 生成用户兴趣模型。

基于用户评论的兴趣建模法能够解决“冷启动”问题, 以同样思路进行产品建模, 可实现有效的内容推荐。实验结果表明, 以本方法构建用户兴趣模型与人工归纳的用户模型吻合度较高, 语义相关度近90%。准确率、召回率和F1值均优于基于词频的词袋模型。

后续研究将运用该方法进行评论质量评测, 实现评论资讯的个性化推送。评论资讯个性化推送关注用户个体的信息需求, 基于用户兴趣点和关注点对资讯进行有用性评价、过滤及推送, 亦是解决信息过载、提升信息服务质量的有效途径。

利益冲突声明

作者声明不存在利益冲突关系。

支撑数据

支撑数据见期刊网络版http://www.infotech.ac.cn。

[1] 聂卉.中关村在线_评论数据.zip. 基于评论的用户偏好建模原始数据及相关支撑数据, 包括词典、标注数据集等.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

姜霖, 张麒麟 .

基于评论情感分析的个性化推荐策略研究-以豆瓣影评为例

[J]. 情报理论与实践, 2017,40(8):99-104.

( Jiang

Lin

, Zhang

Qilin

Research on Personalized Recommendation Strategy Based on Sentimental Analysis of the Reviews

[J]. Information Studies: Theory & Application, 2017,40(8):99-104.)

[2]

Chen

, Chen

, Wang

Recommender Systems Based on User Reviews: The State of the Art

[J]. User Modeling and User-Adapted Interaction, 2015,25(2):99-154.

[3]

宁建飞, 刘降珍 .

融合Word2vec与TextRank的关键词抽取研究

[J]. 现代图书情报技术, 2016(6):20-27.

( Ning

Jianfei

, Liu

Jiangzhen

Using Word2vec with TextRank to Extract Keywords

[J]. New Technology of Library and Information Service, 2016(6):20-27.)

[4]

徐文海, 温有奎 .

一种基于TFIDF方法的中文关键词抽取算法

[J]. 情报理论与实践, 2008,31(2):298-302.

( Xu

Wenhai

, Wen

Youkui

An TFIDF_based Algorithm for Chinese Keywords Extraction

[J]. Information Studies: Theory & Application, 2008,31(2):298-302.)

[5]

刘俊, 邹东升, 邢欣来 , 等.

基于主题特征的关键词抽取

[J]. 计算机应用研究, 2012,29(11):4224-4227.

( Liu

Jun

, Zou

Dongsheng

, Xing

Xinlai

, et al.

Keyphrase Extraction Based on Topic Feature

[J]. Application Research of Computers, 2012,29(11):4224-4227.)

[6]

Mihalcea

, Tarau

TextRank: Bringing Order into Texts

[C]//Proceedings of Empirical Methods in Natural Language Processing, Barcelona, Spain. 2004: 404-411.

[7]

夏天

词语位置加权TextRank的关键词抽取研究

[J]. 现代图书情报技术, 2013(9):30-34.

[本文引用: 4]

( Xia

Tian

Study on Keyword Extraction Using Word Position Weighted TextRank

[J]. New Technology of Library and Information Service, 2013(9):30-34.)

[本文引用: 4]

[8]

谢玮, 沈一, 马永征 .

基于图计算的论文审稿自动推荐系统

[J]. 计算机应用研究, 2016,33(3):798-801.

( Xie

Wei

, Shen

, Ma

Yongzheng

Recommendation System for Paper Reviewing Based on Graph Computing

[J]. Application Research of Computers, 2016,33(3):798-801.)

[9]

顾益军, 夏天 .

融合LDA与TextRank的关键词抽取研究

[J]. 现代图书情报技术, 2014(7/8):41-47.

( Gu

Yijun

, Xia

Tian

Study on Keyword Extraction with LDA and TextRank Combination

[J]. New Technology of Library and Information Service, 2014(7/8):41-47.)

[10]

夏天

词向量聚类加权TextRank的关键词抽取

[J]. 数据分析与知识发现, 2017,1(2):28-34.

( Xia

Tian

Extracting Keywords with Modified TextRank Model

[J]. Data Analysis and Knowledge Discovery, 2017,1(2):28-34.)

[11]

Esparza S

, O’Mahony M

, Smyth

Effective Product Recommendation Using the Real-Time Web

[C]//Proceedings of the 30th SGAI International Conference on Innovative Techniques and Applications of Artificial Intelligence, Cambridge, UK. Springer, 2010: 5-18.

[12]

Zhang

, Ding

, Chen

, et al.

Generating Virtual Ratings from Chinese Reviews to Augment Online Recommendations

[J]. ACM Transactions on Intelligent Systems and Technology, 2013, 4(1): Article No. 9.

[13]

Musat C

, Liang

, Faltings

Recommendation Using Textual Opinions

[C]//Proceedings of the 23rd International Joint Conference on Artificial Intelligence, Beijing, China. AAAI Press, 2013: 2684-2690.

[14]

McAuley

, Leskovec

Hidden Factors and Hidden Topics: Understanding Rating Dimensions with Review Text

[C] //Proceedings of the 7th ACM International Conference on Recommender Systems, Hong Kong, China. New York, USA: ACM, 2013: 165-172.

[15]

Liu

, He

, Wang

, et al.

Combining User Preferences and User Opinions for Accurate Recommendation

[J]. Electronic Commerce Research and Applications, 2013,12(1):14-23.

[本文引用: 4]

[16]

Chen

, Wang

Preference-based Clustering Reviews for Augmenting E-commerce Recommendation

[J]. Knowledge-Based Systems, 2013,50:44-59.

[17]

Chen

, Wang

Explaining Recommendations Based on Feature Sentiments in Product Reviews

[C]// Proceedings of the 22nd International Conference on Intelligent User Interfaces, Limasso, Cyprus. New York, USA: ACM, 2017: 17-28.

[18]

王伟, 王洪伟 .

面向竞争力的特征比较网络: 情感分析方法

[J]. 管理科学学报, 2016,19(9):109-126.

( Wang

Wei

, Wang

Hongwei

Comparative Network for Product Competition in Feature-levels Through Sentiment Analysis

[J]. Journal of Management Sciences in China, 2016,19(9):109-126.)

[19]

Hong

, Lu

, Yao

, et al.

What Reviews are Satisfactory: Novel Features for Automatic Helpfulness Voting

[C] //Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval, Portland, Oregon, USA. New York, USA: ACM, 2012: 495-504.

[20]

Chinese Word Vectors: 目前最全的中文预训练词向量集合

[EB/OL]. [ 2018- 10- 20]. http://www.mingriqingbao.com/web/detail/forword/P/12571.

URL [本文引用: 2]

(

Chinese Word Vectors: The Most Complete Set of Chinese Pre-trained Word Vectors

[EB/OL]. [ 2018- 10- 20]. http://www.mingriqingbao.com/web/detail/forword/P/12571

URL [本文引用: 2]

[21]

聂卉, 杜嘉忠 .

依存句法模板下的商品特征标签抽取研究

[J]. 现代图书情报技术, 2014(12):44-50.

( Nie

Hui

, Du

Jiazhong

Using Dependency Parsing Pattern to Extract Product Feature Tags

[J]. New Technology of Library and Information Service, 2014(12):44-50.)