面向主题的高质量评论挖掘模型研究<sup>*</sup>

引用本文

唐晓波, 邱鑫. .面向主题的高质量评论挖掘模型研究^* [J]. 现代图书情报技术, 2015,31(7/8): 104-112
Tang Xiaobo, Qiu Xin. .Research on Subject-Oriented High QualityReviews MiningModel. New Technology of Library and Information Service,2015,31(7/8): 104-112 复制到剪切板

Permissions

《现代图书情报技术》编辑部

面向主题的高质量评论挖掘模型研究^*

唐晓波¹, 邱鑫²

¹武汉大学信息资源研究中心武汉430072

²武汉大学信息管理学院武汉430072

邱鑫, ORCID: 0000-0001-9508-7441, E-mail: 847125278@qq.com。

基金:*本文系国家自然科学基金项目“社会化媒体集成检索与语义分析方法研究”(项目编号:71273194)的研究成果之一

摘要

目的

帮助消费者从海量的评论集合中识别高质量评论。

方法

利用LDA主题模型对消费者关注的主题进行分类, 借鉴改进的自动摘要的思想, 追踪评论主题下的高质量评论, 提出面向主题的高质量评论挖掘模型。

结果

自动提炼出每个主题下的高质量评论, 其准确率、召回率和F1值分别为80.73%、64.90%和71.95%, 并通过实证研究证明该模型的有效性和优越性。【局限】仅与部分典型模型作对比, 其他模型方法还未进行验证。

结论

该模型能从评论集中有效地挖掘出不同主题下的高质量评论, 从而能够更加高效地辅助消费者进行购买决策。

关键词: 评论挖掘; 主题发现; 自动摘要; LDA

中图分类号:

Research on Subject-Oriented High QualityReviews MiningModel

Tang Xiaobo¹, Qiu Xin²

¹Center for the Studies of Information Resources, Wuhan University, Wuhan 430072, China

²School of Information Management, Wuhan University, Wuhan 430072, China

Abstract

[Objective] In order to help consumers distinguish high quality reviews from enormous review sets.[Methods]Using LDA topic model to classify the themes and referring to the thoughts of improved automatic summarization, this paper puts forward Subject-Oriented High Quality Reviews Mining Model.[Results]The model extracts high quality reviews automatically under each topic. The results of the experiment show that its precision, recall and F1 score reach 80.73%, 64.90% and 71.95% respectively, proving the model’s effectiveness and superiority.[Limitations]Just compared the model with some typical models, but there are some other methods exist but have not been verified. [Conclusions]The model can effectively mine high quality reviews under different themes from the review sets, thus help customers in making more effective purchase decision.

Keyword: Review mining; Topicdiscovery; Automatic summarization; LDA

Show Figures

1引言

在Web2.0时代, 越来越多的内容和行为是由终端用户产生和主导的。电子商务也开始衍生出一种新模式— — 社交电子商务。它借助社交媒介、网络媒介的传播途径, 通过社交互动、用户自生内容(User Generated Content, UGC)等手段辅助商品的购买和销售行为。在线评论作为UGC中的一部分, 凝聚着集体的智慧, 对消费者有着举足轻重的地位。然而, 互联网上庞大又不断增长的信息中被利用的仅占到5%-10%^[1]。因此, 获取高质量信息的成本不断增高, 消费者在查阅相关评论并做出决策的过程中会消耗大量时间, 从成千上万条良莠不齐的评论中发现合适的信息成为消费者极大的困扰。

因此, 如何使消费者能够快速有效地定位到自己感兴趣的主题下有价值的评论, 从而减少消费者购买的不确定性, 提高消费者对在线评论网站的感知有用性和粘性, 这是本研究期望解决的问题。

2相关研究

随着互联网的广泛应用, 在线评论在消费者购买决策中发挥着越来越重要的作用, 目前关于在线评论的效用研究主要从以下方面展开:

(1)发现影响在线评论效用的因素研究。Ghose等^[2]认为在线商品评论内容中的观点主观性有助于预测评论的效用。 Otterbacher^[3]却认为评论的内容是评价在线商品评论效用的重要方面。李志宇^[4]从评论者信誉、评论得票数、评论时效性、评论长度以及评论语义特征入手, 建立评论效用指标体系。可以看出, 对于影响在线商品评论效用的因素没有统一的看法, 影响评论效用的因素缺少理论依据。

(2)一些研究^{[5, 6]}使用网站的人工评价结果作为参照, 即将在线评论获得的赞成票与得票总数的比值作为模型或算法的因变量来探究评论有用性的影响因素。但仅仅局限于具有有用性投票的评论, 从而忽略了大量有用却没来得及投票的评论。

(3)利用机器学习识别在线评论的结构特征。聂卉^[7]利用决策树预测模型区分高质量的评论。Liu等^[8]提出一个非线性回归模型以预测有用的评论。这些方法都能较好地发现高质量的评论, 但有一些评论仅评价了商品某一方面的特征, 其他方面只字未提, 这使得消费者很难快速定位到当前商品准确的评价信息^[9]。

另一方面, 主题发现的结果可以帮助用户定位一类相关评论^{[10, 11, 12, 13]}, 而关于怎样快速追踪主题下高质量评论的研究却鲜有深入。

3理论与方法

3.1文本自动摘要

文本摘要是为一个给定的文本自动创建压缩版本的过程, 目的是为用户提炼有用的信息。从摘要与原文的关系考虑, 可以分为抽取式文摘和生成式文摘。生成式摘要是以自然语言理解技术为基础, 对文本中的句子进行分割抽取后重新组合生成文摘, 但目前在自然语言的处理方面仍然是一个较难克服的问题。抽取式文摘是抽取文章中一组最重要的句子构成文摘, 定量地评定句子的重要度是文摘选取的关键。

据此, Erkan等^[14]提出LexRank算法: 将给定的文档分成一个个句子, 计算句子之间的相似度, 将句子视作无向图G=(S, E)中的节点, 当句子间的相似度大于某一阈值时, 将这两个句子节点连接成边E。如果存在一个节点sS, 与之相连的边{E₁, …, E_i}的数目i越大, 则节点对应的句子s的信息越重要。根据句子间的连接迭代计算句子所包含的信息量, 再从中选取包含信息量最多的一组句子作为文摘^[15]。

3.2 LDA模型理论

LDA是一种生成概率模型。集合中的每个条目(文档)被建模成一个有限的潜在的主题集合。每个主题的特征是由条目的属性(单词)组成的概率分布。LDA通过生成概率模型, 获取语料库中词汇、文档和主题之间的关系。一篇文档的LDA生成过程如下^[16]:

(1) 获取文档的长度即文档中所有单词的总数N~Poission(β );

(2) 获取文档在主题上的分布θ _m~Dir(α );

(3) 从1到n遍历每一个单词w_n:

①获取每一个主题的概率分布z_m~Multinomial(θ _m);

②获取主题与词的概率分布w_n~Multinomial(Φ z)。

其中, α 和β 都是先验参数, θ 和Φ 是预估参数。采用Gibbs抽样估计θ 和Φ , 在保持其他词的主题分布不变的情况下, 预估当前词的主题概率, 通过边缘化θ 和Φ 间接求得它们的值^[16]:

P (z_{n} = j | z_{- n}, w_{m, n}, α, β) \propto \frac{C_{w_{- n} j}^{VK} + β_{w_{n} j}}{\sum_{v}^{=} (C_{v_{- n} j}^{VK} + β_{vj})} \times \frac{C_{d_{- n} j}^{MK} + α_{dj}}{\sum_{k}^{=} (C_{d_{- n} k}^{MK} + α_{dk})}

(1)

C^VK和C^MK是维数分别为V× K和M× K的数量矩阵, V为词汇个数, K为主题个数, M为文档个数。 $C_{w_{- n} j}^{VK}$ 为词w赋给主题j的频数; $C_{d_{- n} j}^{MK}$ 为文档d中分配给主题j的单词个数。

给文档中的词汇分配随机主题, 形成初始的Markov链, 根据公式(1)给它们再分配主题, 获取下一个Markov链的状态, 然后不断地迭代, 使得Markov链趋于稳定。Gibbs抽样算法为每个单词估计出θ 值和Φ 值^[16]:

$Φ_{w_{n}}^{(z = j)} = \frac{C_{w_{- n} j}^{VK} + β_{w_{n} j}}{\sum_{v}^{=} (C_{v_{- n} j}^{VK} + β_{vj})}$
$θ_{z = j}^{(m)} = \frac{C_{d_{- n} j}^{MK} + α_{dj}}{\sum_{k}^{=} (C_{d_{- n} k}^{MK} + α_{dk})}$	(2)

这样可以得到每一个主题的概率分布和主题与单词的概率分布, 从而获得“ 主题-单词” 的概率分布矩阵和“ 文档-主题” 的概率分布矩阵。

4面向主题的高质量评论挖掘模型构建

文本摘要能准确、全面地提炼出文本主要内容, 以满足用户快速获取知识的要求。面向主题的摘要则能专注于用户的兴趣主题并提炼文本主要信息, 抽取出具体主题下的摘要文本。本文试图利用主题模型来发现潜在的主题, 实现已有评论集的主题分类, 使用户定位于自己感兴趣的主题, 利用抽取式的摘要方法追踪探测主题下的高质量评论。同样, 评论有用性投票同样能够反映评论质量。因此, 将评论主题发现的方法与自动摘要的思想和在线评论的有用性投票相结合挖掘高质量的评论, 提出了面向主题的高质量评论发现模型, 如图1所示。该模型由三部分组成, 分别是: 数据抓取模块、数据预处理模块和面向主题的高质量评论发现模块。

	Figure Option View Download New Window
	图1 面向主题的高质量评论挖掘模型

4.1数据抓取

八爪鱼采集器^[17]是以分布式云计算平台为核心, 针对不同需求定义数据的抓取规则, 从而设计数据的采集流程, 模拟人的操作思维模式, 点击链接, 选取需要采集的数据项、循环列表和翻页等, 从所需网页获取大量的规范化数据, 实现数据自动化采集。

4.2数据预处理

为保证数据的质量, 降低无关数据或噪声数据对结果的影响, 需要对抓取到元数据进行预处理。本文

主要从以下方面对数据进行整理:

(1) 剔除只包含特殊字符和数字的评论, 只保留重复评论中的一条;

(2) 利用IKAnalyzer2012开源分词类库对每条评论进行分词, 保留名词和动词;

(3) 建立停用词表剔除文本内容中的无用字词;

(4)分词后, 存在一些词频不高、但对应有多个同义词的词, 例如: “ 送货” 、“ 配送” 、“ 快递” 。为避免这类词被当作低频词滤去, 利用知网HowNet中的WordSimilarity计算词语的相似度, 合并同义词, 形成“ 评论-词语” 矩阵的集合。

4.3面向主题的高质量评论发现

当模型在语料库中学习时, 每个文档的主题分布可以表示成一个向量, 通过计算文档之间的距离来获取文档间的相似度^[18]。也就是说, 相似的文档就会有相似的主题分布, 在其向量空间中距离就会很近。因此它们可以提供分类的基础以及定义两个文档之间的距离。

将每条评论当作一个文档, 则在对应的LDA模型的“ 评论-主题” 矩阵中, 每条评论的主题分布可以表示成一个向量

, 其中表示第i条评论的主题分布, 表示第i条评论在主题k上的概率, k为主题个数。向量空间中两条评论的空间距离越近, 这两条评论之间的相似度越高。将每个主题Topic_i的评论集作为一个文档, 主题下一条评论中的内容合并作为一个句子, 利用余弦夹角计算文档中每个句子与其他句子的相似度, 来获取某一主题下评论集的相似度。采用自动摘要的思想, 通过评估每条评论的中心集群提取主题下包含最重要信息的评论。通过LexRank算法可以计算得到某一主题下评论的权重, 记作LexRankScore。具体算法如下^[14]:

输入: n个句子的数组S[n], 余弦相似度阈值F

输出: 存储LexRankScore值的数组L[n]

a.定义变量。

Array CosineMatrix[n][n]; //评论的处理余弦相似度的矩阵

Array Degree[n]; //用于存储无向图中度的数组

Array L[n]; //用于存储评论集中LexRankScore的值

b. 计算每个顶点和周围顶点连接的总和, 每有一个顶点相连, 值就加1。

for i=0 to n do

for j=0 to n do

CosineMatrix[i][j] = idf-modified-cosine(S[i], S[j]);

if CosineMatrix[i][j] > t then

CosineMatrix[i][j] = 1;

Degree[i] + +;

end

else

CosineMatrix[i][j] = 0;

end

c.利用节点的度的大计算评论的重要程度, 用值L表示。

for i=0 to n do

for j=0 to n do

CosineMatrix[i][j] = CosineMatrix[i][j]=Degree[i];

end

L = PowerMethod(CosineMatrix, n, ∈ );

return L;

L越大即LexRankScore值越大, 说明该评论与很多其他评论相似, 其在所属主题的评论集中具有越大的重要性。所以此条评论就是比较重要的, 具有较高的质量。

依靠自动摘要的LexRankScore值单方面衡量主题下评论的质量是不够的。在对传统的自动摘要算法进行改进时, 需要将句子位置、指示性短语等相关信息纳入到权重计算中。句子的权重q_i的计算公式^[15]为:

q_i=LexRankScore+PositionScore+InforScore (3)

PositionScore表示句子位置的加分; InforScore表示指示性短语所在的句子的加分。

因此, 本文借鉴自动摘要算法改进的思路, 在LexRank算法的基础上, 融入消费者评论有用性的投票和主题相关性, 改进评论权重计算过程。

(1) 评论的有用性投票

Mudambi等^[19]将在线评论有用性定义为在线评论在消费者决策过程中的感知价值, 即消费者对其他互联网用户提交的评论对自己购买决策是否有帮助的一种主观感知。因此, 评论有用性投票同样能反映评论质量。评论的有用性等于有用投票数占投票总数的比值, 范围在0到1之间, 如: n个人中有m个人认为该评论有用则评论的有用性为m/n。考虑到当总投票数不同时, 评论有用性度量的效果也不同, 如: “ 1个人中有1个人投有用票” 与“ 10个人中有10个人投有用票” 的解释效果会不一样, 因此在本研究中引入投票总数作为控制变量, 同时使用等级划分来度量评论的有用性^[5], 将其划分为4个等级(1=非常没用、2=比较没用、3=比较有用、4=非常有用)。当投票总数在5以上(包括5): 有用性投票比例大于或等于50%时, 评论有用性定为“ 非常有用” ; 有用性投票比例小于50%时, 评论有用性定为“ 非常没用” 。当投票总数在 5 以下: 评论有用性投票占比大于或等于50%时, 评论有用性定为“ 比较有用” ; 当有用性投票占比小于50%时, 评论有用性定为“ 比较没用” 。

根据不同的等级将评论赋予不同的权重, 将有用性等级与原有用性投票即m/n作加权处理, 分别对“ 1=非常没用、2=比较没用、3=比较有用、4=非常有用” 赋权值为a、b、c、d, 可以得到新评论投票有用性的值。将评论的加权有用性投票映射到对应主题的评论下, 记为UsefulScore。

UsefulScore = \{\begin{matrix} \frac{am}{n} degree = 1 \\ \frac{bm}{n} degree = 2 \\ \frac{cm}{n} degree = 3 \\ \frac{dm}{n} degree = 4 \end{matrix}

(4)

其中, degree表示有用性等级。

(2) 评论的主题相关度

当Gibbs抽样使参数达到稳定时, 在LDA模型获得的评论-主题矩阵中, 存在不同主题所占比重的不同, 使用评论集合包含的所有评论中主题混合成分权重的和计算评论集合中主题的重要性^[20], 为方便直观地对评论主题重要程度进行比较, 将其在所有主题上进行归一化^[11]处理:

P (z_{i}) = \frac{\sum_{n}^{=} θ_{z_{i}}^{(s)}}{\sum_{j}^{=} \sum_{n}^{N} θ_{z_{i}}^{(s)}}

(5)

其中, N为文档的个数, K为主题的个数。P(z_i)表示主题z_i的权值, $θ_{z_{i}}^{(s)}$ 表示评论S在主题Z_i下的概率。P(z_i)值越大, 主题Z_i的重要程度越高。通过计算每个主题的P(z_i), 将主题按重要程度排序。

Titov等^[13]指出: 某一主题下的评论与主题越相关, 对该主题的价值越大, 因此与某一主题越相关的评论在该主题下的质量越高。选取阈值F, 筛选出每个主题下主题相关度大于F的评论作为该主题下质量较高的评论, 其相关度记为TopicScore, 因此在每个主题下评论相关度大于F的评论都有与之对应的TopicScore。

综上所述, 每个主题下的每条评论都对应有三个值: LexRankScore、TopicScore、UsefulScore, 每个值都在一定程度上反映了评论的重要程度, 决定了评论的质量。由此, 可以获得面向主题的高质量评论描述公式:

W=α LexRankScore+β TopicScore+γ UsefulScore (6)

其中, α 、β 、γ 是LexRankScore、TopicScore、UsefulScore三个衡量值的权值, α +β +γ =1。

5 实验过程

5.1数据准备及工具

亚马逊网站的重要特色之一就是商品评论, 因此, 本文将其作为数据源, 在2014年11月8日利用八爪鱼采集器^[17]共采集1 508条有关手机“ HUAWEI华为荣耀3X畅玩版G750-T01 TD-SCDMA/GSM” 的评论, 自动抽取评论的文本内容和相关元数据, 包括各条评论的有用性投票(有用投票数/总投票数)、评论内容。并利用4.3节的方法对数据进行处理。为获得公式(4)中可信的权重值a、b、c、d, 利用调查法中多人打分的方式, 对“ 1=非常没用、2=比较没用、3=比较有用、4=非常有用” 4个等级按照重要性进行打分, 计算占比作为权重, 获得a、b、c、d的权值分别为1/4、1/2、5/4、3/2。通过其获得每条评论的UsefulScore。

5.2 实验步骤

根据4.2节的方法获得分词结果后, 使用Java语言实现LDA概率模型。通过文献[21], 在Gibbs抽样时, 设置参数α =0.5、β =0.1和主题数K=6, 循环迭代抽样的次数设为100次。经过LDA聚类获取主题-词矩阵和评论-主题矩阵。其中LDA主题模型聚类(部分)结果如图2所示:

	Figure Option View Download New Window
	图2 LDA主题模型聚类(部分)结果

由图2不难判断出, Topic 1与手机拍照和音质相关; Topic 2与华为品牌及性价比相关; Topic 3与手机的快递服务相关; Topic 4与手机的硬件相关; Topic 5与手机软件相关; Topic 6与负面消息相关。

LDA聚类的评论-主题概率分布矩阵(部分)如表1所示。ID表示评论的编号, 文章展现的是ID≤ 8的评论的概率分布。

表1 评论-主题概率分布矩阵(部分)

利用评论集合包含的所有评论中主题混合成分权重的加和来衡量不同的主题在整个评论集中的重要程度, 由公式(5)可以分别获得6个主题的重要程度, 如图3所示。其中Topic 1到Topic 6的重要程度的计算值分别为18%、17%、17%、17%、16%、15%。

在每个主题下对应有每个评论的主题概率, 如表1所示。对主题下的评论进行筛选, 经过多次试验验证, 选取主题概率大于0.33的评论作为主题下的评论, 筛选结果如表2所示。

	Figure Option View Download New Window
	图3 主题重要程度分布

表2 各主题下评论数

利用LexRank算法计算同一主题下每条评论与其他评论的相似度, 获得每条评论的LexRankScore值, 并抽取每条评论对应主题下的主题概率值TopicScore和消费者有用性投票的加权值UsefulScore。利用公式(6), 通过每条评论的LexRankScore、TopicScore、UsefulScore三个衡量评论质量的属性, 计算出每个主题下每条评论的得分。

为确定适合模型的α 、β 、γ 参数, 实验中采用常用的准确率(P)、召回率(R)和F1指标进行考察, 准确率为文本分类模型的准确性评估指数, 召回率是对模型查全程度的评价, 而F1则是对准确率和召回率的综合考虑。公式^[22]如下:

(7)

其中, a表示模型推送给用户且用户满意的数目, b表示模型推送给用户但是用户不满意的数目, c表示用户满意但是模型没有推送的数目。

为使得实验更客观, 采用多人判断法, 取平均准确率、平均召回率和平均F1。将三个参数的取值情况用m向量矩阵表示m={m₁, m₂, …}, 其中m_i=(α _i, β _i, γ _i)。图4显示了部分典型参数下模型P、R、F1值的比较结果, m₁=(1, 0, 0), m₂=(0, 1, 0), m₃=(0, 0, 1), m₄=(1/2, 1/2, 0), m₅=(1/2, 0, 1/2), m₆=(0, 1/2, 1/2), m₇=(1/3, 1/3, 1/3)。

	Figure Option View Download New Window
	图4 实验参数选取

通过多次验证, 当α 、β 、γ 取值为1/3、1/3、1/3时, 效果最好。最后, 将每个主题下的评论按照得分排序, 考虑到篇幅原因, 选取每个主题排名前三的高质量评论, 结果如图5所示:

	Figure Option View Download New Window
	图5 Topic 1-Topic 6的高质量评论

综上所述, 各个主题Topic 1到Topic 6的重要程度的计算值分别为18%、17%、17%、17%、16%、15%。Topic 1是与手机拍照和音质相关, 通过其高质量评论可以判断在音质和拍照方面效果不太令人满意; Topic 2是与华为品牌及性价比相关, 通过其高质量评论可以帮助消费者判断出该商品的品牌和性价比具有较高的认可度; 同样, 通过Topic 3可以判断消费者对手机的快递服务持肯定态度, Topic 4可以判断出消费者对该款手机的硬件有较高的评价; Topic 5是与手机软件相关, 消费者对其评价好坏参半; Topic 6是与负面消息相关, 可以帮助消费者从另一视角了解商品, 同时对商家改进自身产品有很好的借鉴作用。这样, 消费者在阅读较少评论的同时, 能从各个方面了解商品的大致情况并通过不同主题的重要程度了解商品评论的侧重点, 从而节省消费者在购买决策过程中耗费的时间和精力成本, 对消费者做出购买决策具有较好的指导作用。

5.3实验结果评价

为客观验证模型的有效性, 从与原始网站排序对比和现有高质量评论挖掘方法对比两个方面进行比较分析。

(1) 与原始网站排序的对比

与原始网站排序的对比是从评论体验方面调查消费者是否可以更方便快速地定位到所需信息以及评论内容是否能够更有效地帮助消费者做出购买决策。

设计调查问卷将图3、图5及原评论链接通过社交平台发送给网络购物用户, 一共发放300份电子问卷, 有效回收 220 份问卷。与原评论排序作对比进行统计打分(非常满意为5分, 满意为4分, 一般满意为3分, 不满意为2分, 非常不满意为1分), 统计3分以上(不含3分)人数的占比, 结果如表3所示:

表3 问卷统计结果

调查问卷的统计结果显示, 在评论体验方面, 与原始网站排序相比, 有90.90%的人认为模型可以更快速地定位到关注点, 有95.45%的人认为该模型可以更有效地帮助做出购买决策。因此, 可以得知经过模型挖掘出的评论内容更能满足消费者的需求, 并对消费者做出网络购物决策的参考价值更大。

(2) 与现有高质量评论挖掘方法对比

同样采取多人判断法, 将本文模型与现有的两种高质量评论挖掘方法, 即基于决策树的预测模型^[7]和非线性回归模型^[8]方法进行性能比较, 结果如表4所示:

表4 模型性能对比

由表4可知, 本文模型的准确率高于其他两个模型, 召回率稍低于非线性回归模型, 但从F1值可以得出, 本文模型获取高质量评论的效果更好, 具有一定的优越性。

6结语

本文提出面向主题的高质量评论挖掘模型, 采用潜在语义分析的文本挖掘方法发现评论中形成的兴趣主题, 运用改进的自动摘要思想, 并将现有的有用性投票与其他权重指标相结合, 进一步自动提炼出每个主题下的高质量评论。

为客观验证模型的有效性和优越性, 从与原始网站排序对比和现有高质量评论挖掘方法对比两个方面进行比较分析。通过发放问卷的形式, 对模型结果进行客观网络调查。90%以上的消费者认为, 和原始评论相比, 经过模型挖掘出的评论内容能使消费者快速找到自己的关注点, 获得较高质量的评论信息, 对消费者的辅助决策效用更高。另外, 与现有高质量评论挖掘方法相比, 在综合考虑准确率和召回率时, 本模型在准确率更高的前提下, 更具优势。

但是, 本文仅与部分典型模型作对比, 因此未来研究中尝试将本文模型结果与多种典型模型方法的结果作对比, 进一步检验其准确性和优越性。

参考文献

View Option

[1]	江敏. 产品网络评论挖掘研究[D]. 北京: 北京信息科技大学, 2008. (Jiang Min. Research on ProductNetworkReviewsMining[D]. Beijing: Beijing Information Science and Technology University, 2008. ) [本文引用:1]
[2]	Ghose A, Ipeiortis P G. Designing Novel Review Ranking Systems: Predicting the Usefulness and Impact of Reviews[C]. In: Proceedings of the 9th International ConferenceonElectronicCommerce(ICEC’07), Minneapolis, MN, USA. New York: ACM, 2007: 303-310. [本文引用:1]
[3]	Otterbacher J. “Helpfulness”in Online Communities: A Measure of Message Quality[C]. In: Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI’09), Boston, MA, USA. New York: ACM, 2009: 955-964. [本文引用:1]
[4]	李志宇. 在线商品评论效用排序模型研究[J]. 现代图书情报技术, 2013(4): 62-68. (Li Zhiyu. Study on the Reviews Effectiveness Sequencing Model of Online Products[J]. New Technology of Library and Information Service, 2013(4): 62-68. ) [本文引用:1]
[5]	王平, 代宝. 消费者在线评论有用性影响因素实证研究[J]. 统计与决策, 2012(2): 118-120. (Wang Ping, Dai Bao. An Empirical Study of the Factors Affecting the Usefulness of Online Consumer Reviews[J]. Statistics & Decision, 2012(2): 118-120. ) [本文引用:2]
[6]	彭岚, 周启海, 邱江涛. 消费者在线评论有用性影响因素模型研究[J]. 计算机科学, 2011, 38(8): 205-207, 244. (Peng Lan, Zhou Qihai, Qiu Jiangtao. Research on the Model of Helpfulness Factors of Online Customer Reviews[J]. Computer Science, 2011, 38(8): 205-207, 244. ) [本文引用:1] [CJCR: 0.945]
[7]	聂卉. 基于内容分析的用户评论质量的评价与预测[J]. 图书情报工作, 2014, 58(13): 83-89. (Nie Hui. Content-oriented Evaluation and Detection for Product Reviews[J]. Library and Information Service, 2014, 58(13): 83-89. ) [本文引用:2] [CJCR: 1.24]
[8]	Liu Y, Huang X, An A, et al. Modeling and Predicting the Helpfulness of Online Reviews[C]. In: Proceedings of the 8th IEEE International Conference on Data Mining, (ICDM’08). IEEE, 2008: 443-452. [本文引用:2]
[9]	Fei G, Mukherjee A, Liu B. Exploiting Business in Reviews for Review Spammer Detection [C]. In: Proceedings of the 7th International AAAI Conference on Weblogs and Social Media. 2013. [本文引用:1]
[10]	Moghaddam S, Ester M. ILDA: Interdependent LDA Model for Learning Latent Aspects and Their Ratings from Online Product Reviews[C]. In: Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’11). New York: ACM, 2011: 665-674. [本文引用:1]
[11]	阮光册. 基于LDA的网络评论主题发现研究[J]. 情报杂志, 2014, 33(3): 161-164. (Ruan Guangce. Topic Extraction Research of Net Reviews Based on Latent Dirichlet Allocation[J]. Journal of Intelligence, 2014, 33(3): 161-164. ) [本文引用:2]
[12]	余传明, 张小青, 陈雷. 基于LDA模型的评论热点挖掘: 原理与实现[J]. 情报理论与实践, 2010, 33(5): 103-106. (Yu Chuanming, Zhang Xiaoqing, Chen Lei. Mining Hot Topics of User Comment Based on LDA Model: Principle & Approach[J]. Information Studies: Theory & Application, 2010, 33(5): 103-106. ) [本文引用:1]
[13]	Titov I, McDonald R. Modeling Online Reviews with Multi-grain Topic Models[C]. In: Proceedings of the 17th International Conference on World Wide Web (WWW’08). New York: ACM, 2008: 111-120. [本文引用:2]
[14]	Erkan G, Radev D R. LexRank: Graph-based Lexical Centrality as Salience in Text Summarization[J]. Journal of ArpngicialIntelligence Research, 2004, 22(1): 457-479. [本文引用:2]
[15]	纪文倩, 李舟军, 巢文涵, 等. 一种基于 LexRank 算法的改进的自动文摘系统[J]. 计算机科学, 2010, 37(5): 151-154. (Ji Wenqian, Li Zhoujun, Chao Wenhan, et al. Automatic Abstracting System Based on Improved LexRank Algorithm[J]. Computer Science, 2010, 37(5): 151-154. ) [本文引用:2] [CJCR: 0.945]
[16]	Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. The Journal of Machine Learning Research, 2003, 3: 993-1022. [本文引用:3]
[17]	八爪鱼采集器 [EB/OL]. [2014-11-08]. http: //www. bazhuayu. com/doc-wf. (Bazhuayu Collector[EB/OL]. [2014-11-08]. http://www.bazhuayu.com/doc-wf [本文引用:2]
[18]	Gross A, Murthy D. Modeling Virtual Organizations with Latent Dirichlet Allocation: A Case for Natural Language Processing[J]. Neural Networks, 2014, 58: 38-49. [本文引用:1] [JCR: 2.076]
[19]	Mudambi S M, Schuff D. What Makes a Helpful Online Review? A Study of Customer Reviews on Amazon. com[J]. Management Information Systems Quarterly, 2010, 34(1): 185-200. [本文引用:1] [JCR: 5.405]
[20]	杨潇, 马军, 杨同峰, 等. 主题模型LDA的多文档自动文摘[J]. 智能系统学报, 2010, 5(2): 169-176. (Yang Xiao, Ma Jun, Yang Tongfeng, et al. Automatic Multi-document Summarization Based on the Latent Dirichlet Topic Allocation Model[J]. CAAI Transactions on Intelligent Systems, 2010, 5(2): 169-176. ) [本文引用:1] [CJCR: 0.632]
[21]	Zhang Y, Ji D, Su Y, et al. Topic Analysis for Online Reviews with an Author-Experience-Object-Topic Model[A]. //Information Retrieval Technology[M]. Springer Berlin Heidelberg, 2011: 303-314. [本文引用:1]
[22]	Zhuang L, Jing F, Zhu X. Movie Review Mining and Summarization[C]. In: Proceedings of the 15th ACM International Conference on Information and Knowledge Management(CIKM’06). New York: ACM, 2006: 43-50. [本文引用:1]

2008

0.0

. 2008, :-

Research on ProductNetworkReviewsMining[D].

产品网络评论挖掘研究[D]

Jiang Min.

江敏

... 然而, 互联网上庞大又不断增长的信息中被利用的仅占到5%-10%^[1] ...

2007

0.0

... Ghose等^[2]认为在线商品评论内容中的观点主观性有助于预测评论的效用 ...

2009

0.0

... Otterbacher^[3]却认为评论的内容是评价在线商品评论效用的重要方面 ...

0.0

. , 2013(4):62-68

Li Zhiyu.

李志宇

On the basis of studying the influencing factors of online reviews effectiveness, a review effectiveness index system is established. The fuzzy analytic hierarchy process is adopted to determine the relative weight of indexes, various indexes of reviews content are quantized by semantic mining, and the total effectiveness score is calculated for each review. In terms of the model application of this study, nearly 2 000 reviews on a product of China’s Tmall are selected to make an empirical analysis. The study and comparison indicates that, after being processed by the sequencing model, a large number of useless reviews are postponed, and those reviews at the forefront of the new sequence are very rich in information content and high in effectiveness, and can assist consumers in making purchase decisions effectively.

从研究在线评论效用的影响因素入手,建立评论效用指标体系。采用模糊层次分析法确定指标的相对权重,通过语义挖掘对评论内容的各项指标进行量化处理,最后统计每条评论的效用总分。模型应用部分选取国内淘宝商城某商品的近2 000条商品评论信息进行实证分析。研究对比发现,经过排序模型处理后, 大量的无用评论被后置,新排序中靠前的评论内容信息含量非常丰富,评论效用较高,能够有效地辅助其他消费者进行购物决策。

... 李志宇^[4]从评论者信誉、评论得票数、评论时效性、评论长度以及评论语义特征入手, 建立评论效用指标体系 ...

0.0

. , 2012(2):118-120

Wang Ping , Dai Bao.

王平, 代宝

文章从发评者属性和评论文本属性出发，总结已有的研究成果，结合产品类型的差异，构建消费者在线评论有用性影响因素模型。以卓越网的用户评论为例，通过实证研究来探讨具体的影响作用。

... (2)一些研究^[5,6]使用网站的人工评价结果作为参照, 即将在线评论获得的赞成票与得票总数的比值作为模型或算法的因变量来探究评论有用性的影响因素 ...

... 的解释效果会不一样, 因此在本研究中引入投票总数作为控制变量, 同时使用等级划分来度量评论的有用性^[5], 将其划分为4个等级(1=非常没用、2=比较没用、3=比较有用、4=非常有用) ...

2011

0.0

0.945

. 2011, 38(8):205-207, 244 DOI:doi:10.3969/j.issn.1002-137X.2011.08.048

Research on the Model of Helpfulness Factors of Online Customer Reviews

消费者在线评论有用性影响因素模型研究

Peng Lan , Zhou Qihai , Qiu Jiangtao.

彭岚, 周启海, 邱江涛

消费者在线评论的价值已经得到消费者和在线零售商的公认,对评论有用性的研究已经成为新的研究热点.从减少消费者决策风险出发,在感知诊断性概念基础上定义了评论有用性概念,构建了一个评论有用性影响因素模型.从传播说服理论的维度考察,评论等级、评论长度、好评率和使用互联网经验是影响评论有用性的重要因素.商品类型对评论有用性具有调节作用.

2014

0.0

1.24

. 2014, 58(13):83-89 DOI:doi:10.13266/j.issn.0252-3116.2014.13.014

Content-oriented Evaluation and Detection for Product Reviews

基于内容分析的用户评论质量的评价与预测

Nie Hui.

聂卉

摘　要：以获取高质量的用户评论为直接目标，研究评论质量的评估和“有用评论”的自动识别。主从评论内容的语言特征、语义内容、情感倾向等多个特征维度来探索文本特征对用户可感知的效用的影响力，采用深层次的文本内容分析技术提取特征指标，并结合计量分析和机器学习方法验证指标的科学性，设计可行的面向效用价值的预测模型。研究证明，依据评论内容可有效探测评论质量，辨识高质量评论，提高评论的效用价值。

... 聂卉^[7]利用决策树预测模型区分高质量的评论 ...

... 同样采取多人判断法, 将本文模型与现有的两种高质量评论挖掘方法, 即基于决策树的预测模型^[7]和非线性回归模型^[8]方法进行性能比较, 结果如表4所示: ...

2008

0.0

... Liu等^[8]提出一个非线性回归模型以预测有用的评论 ...

2013

0.0

... 这些方法都能较好地发现高质量的评论, 但有一些评论仅评价了商品某一方面的特征, 其他方面只字未提, 这使得消费者很难快速定位到当前商品准确的评价信息^[9] ...

2011

0.0

... 另一方面, 主题发现的结果可以帮助用户定位一类相关评论^{[10,11,12,13]}, 而关于怎样快速追踪主题下高质量评论的研究却鲜有深入 ...

2014

0.0

. 2014, 33(3):161-164 DOI:doi:10.3969/j.issn.1002-1965.2014.03.030

Topic Extraction Research of Net Reviews Based on Latent Dirichlet Allocation

基于LDA的网络评论主题发现研究

Ruan Guangce.

阮光册

网络用户评论的主题发现研究是 Web2.0时代信息分析的重要方式,如何从冗杂的用户评论中分析出有价值的信息是研究的热点。针对网络用户评论信息内容短、信息量少的特征,提出基于 LDA(latent Dirichlet allocation)主题发现模型结合HowNet知识库进行信息分析的方法,对网络评论进行主题发现的研究。首先通过评论文本的词性标注、语义分析, 形成语料库,然后利用HowNet对语料库中的词项进行语义相似度的计算,完成语义去重、合并,最后通过LDA主题模型将用户评论的内容映射到主题上,实现对用户评论信息主题的发现。

... 另一方面, 主题发现的结果可以帮助用户定位一类相关评论^{[10,11,12,13]}, 而关于怎样快速追踪主题下高质量评论的研究却鲜有深入 ...

... 当Gibbs抽样使参数达到稳定时, 在LDA模型获得的评论-主题矩阵中, 存在不同主题所占比重的不同, 使用评论集合包含的所有评论中主题混合成分权重的和计算评论集合中主题的重要性^[20], 为方便直观地对评论主题重要程度进行比较, 将其在所有主题上进行归一化^[11]处理: ...

2010

0.0

. 2010, 33(5):103-106

Mining Hot Topics of User Comment Based on LDA Model: Principle #cod#x00026; Approach

基于LDA模型的评论热点挖掘: 原理与实现

Yu Chuanming , Zhang Xiaoqing , Chen Lei.

余传明, 张小青, 陈雷

本文提出了潜在狄利克雷分布模型与自然语言处理技术相结合的一种挖掘用户评论热点的方法.为验证该方法的有效性,以22 157篇餐馆评论为样本,利用Gibbs抽样计算模型参数,获取了评论热点及相应的热点词语.实验获得的9个主题内容较好地反映了餐馆评论中的热点,与现实生活中用户所关心的餐饮热点基本吻合,表明该模型具有较好的热点识别效果.

... 另一方面, 主题发现的结果可以帮助用户定位一类相关评论^{[10,11,12,13]}, 而关于怎样快速追踪主题下高质量评论的研究却鲜有深入 ...

2008

0.0

... 另一方面, 主题发现的结果可以帮助用户定位一类相关评论^{[10,11,12,13]}, 而关于怎样快速追踪主题下高质量评论的研究却鲜有深入 ...

... Titov等^[13]指出: 某一主题下的评论与主题越相关, 对该主题的价值越大, 因此与某一主题越相关的评论在该主题下的质量越高 ...

2004

0.0

... 据此, Erkan等^[14]提出LexRank算法: 将给定的文档分成一个个句子, 计算句子之间的相似度, 将句子视作无向图G=(S, E)中的节点, 当句子间的相似度大于某一阈值时, 将这两个句子节点连接成边E ...

... 具体算法如下^[14]: ...

2010

0.0

0.945

. 2010, 37(5):151-154 DOI:doi:10.3969/j.issn.1002-137X.2010.05.036

Automatic Abstracting System Based on Improved LexRank Algorithm

LexRank 算法的改进的自动文摘系统

Ji Wenqian , Li Zhoujun , Chao Wenhan

纪文倩, 李舟军, 巢文涵

自动文摘是计算机语言学领域的一个研究重点,其研究和应用受到了计算机科学、语言学、情报信息学等相关学科的广泛关注.首先介绍了基于LexRank算法的自动文摘方法.针对该方法的不足,从句子相似度计算方法、句子权重计算方法以及冗余处理等方面对它进行了改进,从而可以根据输入文本内容动态地调整相关影响因子.实现的文摘系统,可以对中文和英文的单文本或多文本进行自动文摘.在哈工大和DUC的测评语料上进行了实验,结果表明该系统在一定程度上改进了文摘的质量,在多文本文摘中的抗噪声方面也有一定的优越性.最后讨论了自动摘要研究存在的问题,并指出了自动文摘的研究趋势. Abstract： Automatic abstracting has been a priority research point in computational linguistics field,and the study and application of automatic summarization have widely attracted the attention of interrelated academic subjects such as computer science,linguistics,informatics.This article firstly brought out how LexRank algorithm works in automatic summarization,then improved the method in three aspects including sentence similarity computing,sentence weight computing and redundancy resolution.And the factors of influence could he dynamically adjusted according to the documents content. The system described in this article could deal with single or multi-document summarization both in English and Chinese.With evaluations on two corpuses,our methods could produce better summaries than the originalLexRank algorithm to a certain degree.We also show that our system is quite insensitive to the noise in the data that may result from an imperfect topical clustering of documents.And in the end,existing problem and the developing trend of automatic summarization technology were discussed.

... 根据句子间的连接迭代计算句子所包含的信息量, 再从中选取包含信息量最多的一组句子作为文摘^[15] ...

... 句子的权重q_i的计算公式^[15]为: ...

2003

0.0

... 一篇文档的LDA生成过程如下^[16]: ...

... 间接求得它们的值^[16]: ...

... 值^[16]: ...

2014

0.0

... 1数据抓取八爪鱼采集器^[17]是以分布式云计算平台为核心, 针对不同需求定义数据的抓取规则, 从而设计数据的采集流程, 模拟人的操作思维模式, 点击链接, 选取需要采集的数据项、循环列表和翻页等, 从所需网页获取大量的规范化数据, 实现数据自动化采集 ...

... 1数据准备及工具亚马逊网站的重要特色之一就是商品评论, 因此, 本文将其作为数据源, 在2014年11月8日利用八爪鱼采集器^[17]共采集1 508条有关手机#cod#x0201c ...

2014

2.076

0.0

... 3面向主题的高质量评论发现当模型在语料库中学习时, 每个文档的主题分布可以表示成一个向量, 通过计算文档之间的距离来获取文档间的相似度^[18] ...

2010

5.405

0.0

... Mudambi等^[19]将在线评论有用性定义为在线评论在消费者决策过程中的感知价值, 即消费者对其他互联网用户提交的评论对自己购买决策是否有帮助的一种主观感知 ...

2010

0.0

0.632

. 2010, 5(2):169-176 DOI:doi:10.3969/j.issn.1673-4785.2010.02.012

Automatic Multi-document Summarization Based on the Latent Dirichlet Topic Allocation Model

主题模型LDA的多文档自动文摘

Yang Xiao , Ma Jun , Yang Tongfeng

杨潇, 马军, 杨同峰

近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA (latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势.

2011

0.0

2006

0.0

... 公式^[22]如下: ...