卖家描述与买家评论相符度模型研究

引用本文

王倩倩, 袁勤俭. 卖家描述与买家评论相符度模型研究. 现代图书情报技术, 2014, 30(5): 58-65
Wang Qianqian, Yuan Qinjian. The Research of Conformity Model Between Sellers Description and Buyers Comments. 现代图书情报技术, 2014, 30(5): 58-65 复制到剪切板

Permissions

《现代图书情报技术》编辑部

卖家描述与买家评论相符度模型研究

王倩倩, 袁勤俭

南京大学信息管理学院南京 210093

通讯作者: 王倩倩 E-mail:252884250@qq.com

作者贡献声明：

王倩倩: 提出命题、设计方法和模型, 数据获取与分析, 论文撰写;

袁勤俭: 指导修改论文, 以及最终版本修订。

摘要

【目的】通过构建买家评论与卖家描述的相符度模型, 对淘宝中卖家描述的商品特性与买家评论是否一致进行探讨。【方法】研究卖家的商品描述和买家的评论这两个文本信息, 提取产品属性特征词和判断情感词极性, 最后选取三家淘宝网店进行模型评估实验。【结果】发现B商家宝贝描述与买家评论相符度较高, A店次之, C店最差。其中, C店的“里衬”和“正品”两个产品属性, 卖家描述与买家评论不相符。【局限】卖家描述的内容和买家评论的内容未能全面涉及, 没有包括卖家的商品标题信息、卖家的图片说明信息以及买家秀中买家提供的照片信息。【结论】经过模型计算后的结果能够更细节、准确地反映出商品在哪些属性上相符以及多大程度上相符, 进而更有效地辅助消费者进行决策。

关键词: 文本挖掘; 属性特征词; 情感分析; 相符度计算

中图分类号:F224

The Research of Conformity Model Between Sellers Description and Buyers Comments

Wang Qianqian, Yuan Qinjian

School of Information Management, Nanjing University, Nanjing 210093, China

Abstract

[Objective] This study discusses wheather commodity characteristics described by sellers are consistent with comments or not, by building the conformity model between description of sellers and comments of buyers.[Methods] Study the text of description and comments, extract the key attributes of products and determine polarity of emotional words, then select three Taobao shops to evaluate the model.[Results] The result shows that there are higher consistent degrees in B shop, A shop is the second, C shop is the worst. There are two attributes “in line” and “authentic” in C shop, which are not consistent with the comments.[Limitations] All the information from sellers and customers are not contained, such as title and picture information of products, and the photo information from customers.[Conclutions] The results can tell which attributes are consistent with the sellers description and how much they match. This result can support consumer’s decisions more effectively.

Keyword: Text mining; Key properties; Emotional analysis; Consistent degree calculation

Show Figures

1 引言

Web2.0 的兴起改变了人们以往使用互联网的方式, 从先前单一的读取互联网信息转变为现在参与互联网信息构建, 这些信息被称为用户自生成内容。众所周知, 淘宝、亚马逊等电子商务网站都有自己的评价系统, 这些网站都承载着用户的自生成内容, 能够给其他消费者提供参考, 也可以帮助商家收集用户意见, 了解消费者偏好。

随着电子商务的高速发展, 网络购物也呈不断攀升的趋势, 越来越多的在线评论遍布于网络。加之, 电子商务网站的评论体系仍不够完善, 消费者往往很难在大量的评价文本中快速找到自己想要的信息^{[ 1]}。消费者最为需要的信息是想了解其他消费者口中的产品评论与卖家所描述的是否一致, 如果其他消费者都表示此产品和卖家描述的一样好, 那么这件商品就值得购买, 否则还需要再看看其他的商品。因此, 需要建立一种买家评论与卖家描述对比的体制, 判断卖家是否给出了商品的真实信息, 帮助消费者进行购买决策。

2 文献回顾

产品评论挖掘是指挖掘Web网页中的用户对商品或服务的评价信息, 通常采用自然语言处理技术, 发现产品功能、属性、用户态度等有价值信息的过程, 目前主要包括以下几个方面: 评论质量分析、评论特征词抽取、评论极性判断以及评论挖掘结果显示。

(1) 评论质量研究。评论质量的成果较多, 主要集中在评论效用的计算^{[ 2]}、产品评论有用性分析^{[ 3]}、高质量评论的提取^{[ 4]}以及垃圾评论的识别和过滤等。Chklovski指出Web上存在着大量的噪音评论, 严重影响了评论的质量, 需要对它们进行过滤^{[ 5]}。李志宇提出了在线评论效用的排序计算模型, 将高效用的评论前置, 帮助买家进行购买决策^{[ 6]}。

(2) 评论中属性特征词的抽取。产品属性特征词的提取方式有人工提取和自动提取两种。人工提取是针对该领域的产品建立属性特征词表, 邀请该领域的专家对产品的属性特征进行定义^{[ 7]}。自动提取的方式主要是基于计算机技术, 其中精准度较高的是Popescu等的研究, 他们利用Konwitall系统自动生成的鉴别短语和提取词的PMI值, 根据贝叶斯分类筛选出产品的属性特征词^{[ 8]}。

(3) 评论极性判断研究。评论极性判断包括判断不同属性特征词的极性和整个句子的极性。不同属性特征词的极性需要判断买家对单个产品特征(比如手机屏幕大小)的褒贬态度^{[ 9]}, 因此更多地倾向于对词语、短语的态度进行分析^{[ 10]}。

(4) 评论挖掘结果显示研究。将研究评论挖掘结果直观地展示给消费者, 帮助生产商和用户提供决策, 如, Liu等采用图形化的方式来展示挖掘结果, 比较两个产品在相同产品特征上的不同评价, 分别给出不同的褒贬性判断^{[ 11]}。

目前的研究大多致力于挖掘买家的产品评论信息, 而较少考虑到卖家提供的产品描述信息^{[ 12]}。同时, 大多数研究基于技术和算法的改进, 而基于应用层面的内容考虑较少。本文将卖家的描述信息和买家评论有效性指标考虑进来, 通过加权求和计算出卖家描述与买家评论的相符度分值, 辅助消费者在大量的评论中获取关键的信息。

3 研究模型

3.1 买家评论指标

买家评论指标分为两部分: 基于外部因素的有效性指标, 主要包括买家信誉等级、评论时间、评论长度、得票数, 这些有效性指标反映了评论的效用有多大^{[ 13]}; 基于评论内容的属性特征词指标, 主要包括属性特征词和属性特征词极性, 它们反映了评论中提到了哪些产品属性, 买家对这些产品属性的态度是怎样的。如图1所示:

	Figure Option View Download New Window
	图1 评论有效性指标和属性特征词指标

3.2 研究命题

在研究买家和卖家描述相符度时, 首先比较两者属性特征词的重复程度。假设买家评论中含有A个产品属性特征词, 卖家描述中含有B个属性特征词, 则重复的个数为A∩B, 个数最少的一方为min(A,B)。由此提出本文的命题1: 如果A∩B/min(A,B)≥80%, 则认为属性特征词匹配符合要求, 即买家与卖家属性特征词相符度较大, 能够较好地反映商品的特征。

如果买家和卖家在同一个属性特征词上给出的极性80%以上一致, 则认为卖家在产品属性特征词极性的描述上与真实物品相符。由此提出本文的命题2: 假设卖家给出的极性值为a, 买家给出的极性值为b, 如果a/b≥80%, 则认为该属性特征词极性匹配一致。

买家的购买经验对评论的有效性产生一定的影响。一般而言, 经验丰富的买家其评价更为客观、中肯, 而经验较少的买家, 往往对商品富有极大的想象, 如果商品与自己想象的有落差, 会给出一些极端的评论, 严重影响了其他买家对商品的认识和判断。基于此提出本文的命题3: 买家信誉越高, 其评论所占的权重越大, 买家信誉对评论有效性的权重为w₁。

评论时间也是评论有效性的一个很重要的因素。如果评论时间过长, 比如三个月以前的评论, 那么很有可能在这三个月内商家改进了商品, 原本评论中所说的属性特征已经改变。基于此提出本文的命题4: 评论的时间越近, 有效性越好, 时间对有效性的权重为w₂。

投票数是指某条评论被其他买家点赞同的次数。如果评论的阅读者认为词条评论有用, 可以点击“投票”或“有用”按钮, 系统会自然计数加1次。因此, 得票数越多说明该条评论越有用。基于此提出本文的命题5: 得票数对商品有用性的权重为w₃。

评论长度反映在评论的字数上, 如果评论的字数较多, 说明买家认真填写评论, 并且提到的产品属性特征词也较多, 具有很大的参考价值。因此, 评论长度也是评论有效性的一个很重要的指标, 故提出本文的命题6: 评论长度对评论有效性的权重为w₄。

3.3 模型设计

本文的模型分为两个阶段, 第一阶段是特征词匹配阶段, 即先利用网络爬虫获取在线商品的买家评论信息和卖家描述信息, 建立两个语料库; 然后分别对这两个语料库提取产品属性特征词, 生成买家属性特征词库A和卖家属性特征词库B; 如果买家和卖家属性特征词重复的部分占这两个属性特征词库最少一方的80%以上, 则认为属性特征词匹配成功, 进入下一个阶段。第二阶段是属性特征词极性的匹配阶段, 如果相同的属性特征词上给出的极性程度有80%以上一致, 则认为第二阶段匹配成功, 即卖家在产品属性特征词的极性描述上与买家感受相符, 相符程度高。如图2所示:

	Figure Option View Download New Window
	图2 卖家描述与买家评论相符度判断流程

4 具体研究过程

4.1 买家和卖家属性特征词提取

(1) 评论内容获取

本文采用GooSeeker公司的集成网络信息抓取工具包MetaSeeker^{[ 14]}。MetaSeeker的组件可以按照用户的指定从商品网页上筛选出用户所需要的信息, 本文共需要提取两部分语料库,即产品评论语料库和产品描述语料库。笔者认为字数大于等于两个汉字的评论才算是有效的评论, 因此对系统设置一个阈值让系统自动判断, 如果评论字数大于等于两个汉字(即4个字节)则进行提取, 否则视为无效评论, 跳转到下一条评论进行判断, 进而可以去除无用评论。同时, 如果遇到同一个ID买家有多条相同的评论, 本文规定只提取其中的一条, 进而排除了同一买家重复的评论。

(2) 分词

对卖家和买家的两个语料库分别进行分词处理, 包括文本切分、停用词删除、词性标注等处理。本文采用中国科学院计算技术研究所的ICTCTAS分词系统^{[ 15]}进行分词和词性标注, 每篇文本标注后的格式如表1所示:

表1 买家评论文本分词

(3) 提取属性特征词

本文的属性特征词提取采用自动提取和人工结合的方式。将分词的结果导入Excel中, 按照词性对结果进行分类, 提取出名词和名词性短语作为属性特征词集合的备选。再通过Excel的替换功能将“衣服”、“大衣”这种比较宽泛的词语用空格进行替换, 进而删除不是产品属性的名词。分别构建两个属性特征词库, 即买家评论属性特征词库和卖家描述属性特征词库。具体流程如图3所示:

	Figure Option View Download New Window
	图3 卖家描述和买家评论属性特征词提取流程

4.2 卖家评论属性特征词极性强度判断

参考极性词表即可方便地计算出卖家的产品属性极性。假设卖家给出的极性只有两种, 一种是正向的极性+1, 一种是负向的极性-1。例如, 卖家描述为: “此款羊毛大衣颜色很正, 版型挺, 很厚, 需要注意的是腰部不是收腰设计的, 而是宽松的哦”这段描述文本的属性特征词和极性如表2所示:

表2 卖家描述极性强度得分

4.3 买家评论属性词极性强度判断

买家评论中属性特征词极性计算需要经过三个步骤:

(1) 单条评论中买家评论属性特征词极性判断

本文主要参考台湾大学的简体中文情感极性词典^{[ 16]}, 该词典包含8 276个负极性词语和2 810个正极性词语。同时, 本文又人工添加了一些表示观点的网络新词汇, 如正向情感词: 给力、拉风、牛B、赞、顶等; 以及负向情感词: 汗、无语、晕、垃圾等^{[ 17]}。例如, 一位买家的评论为: “这质量, 太无语了, 说的是羊毛其实根本不是, 除了款式、颜色好看外, 根本不值这个价。” 该条评论的极性得分如表3所示:

表3 买家评论极性强度得分

(2) 4个指标的分值判断

买家信誉等级的分值计算依靠淘宝网原有的买家信誉等级, 由于大多数买家的信誉集中在皇冠以下, 所以规定两颗星及以下为0.1分, 三颗星为0.2分, 四颗星为0.3分, 依次类推, 五个钻为0.9分, 一个皇冠及以上为1分。

评论时间的分值依靠距离现在的时间差, 时间差越大, 分值越小。时间差在10天以内记为1分, 10-20天为0.9分, 依次类推, 80-90天为0.2分, 大于90天均为0.1分。

得票数根据淘宝评价页面中显示的“有用”个数, 因为点击此类的人较少, 所以规定大于等于9个有用为1分, 8个为0.9分, 依次类推, 1个为0.2分, 0个为0.1分。

评论长度可以根据评论文本汉字的个数来计算。本文规定20个汉字及以下为0.1分, 21-30个汉字为0.2分, 依次类推, 91-100个汉字为0.9分, 大于100个汉字为1分。

(3) 买家评论有效性计算

假设买家信誉等级、评论时间、得票数和评论长度4个有效性指标的分值分别为f₍₁₎、f₍₂₎、f₍₃₎、f₍₄₎, 权重分别为w₁、w₂、w₃、w₄, 则该条评论的有效性最终得分的计算公式为:

(1)

其中, i=1,2…n,n表示有n条评论。为了计算有效性中各个指标所占的权重, 本文邀请一些专家对这4个指标的重要性进行比例分配, 4个指标权重之和必须等于1。例如, 买家信誉为0.3分, 评论时间为0.5分, 得票得分为0.2分, 评论长度得分为0.4分。这4个指标经过专家打分后的权重分别为0.25,0.20,0.25, 0.30, 则该条评论有效性的分值为。

(4) 多条评论属性特征词综合极性得分计算

本文将所有评论中的属性特征词极性得分乘以所在评论的有效性得分, 然后求和取均值, 得出该属性特征词极性的最终得分。假设有n条评论都提到了第t个产品属性, 这n条评论的有效性为F_(i), 其中i=1,2…n。评论中第t个产品属性的极性分值为e_i, 其中i=1,2…n, 则这n条评论中第t个产品属性的综合极性得分计算公式为:

(2)

其中, i=1,2…n, t=1,2…m。i表示任意一条评论, 共有n条评论; t表示任意一个属性特征词, 共有m个属性特征词。例如, 一件商品共有3条评论, 这3条评论中“质量”的极性分值分别为+1、+1、-1, 有效性得分为0.345、0.45、0.125, 则“质量”这个属性的综合极性得分为: (1×0.345+1×0.450-1×0.125)/3=0.223。

4.4 买家评论与卖家描述相符度计算

相符度计算分为两步: 将买家属性特征词的极性得分除以卖家属性特征词极性得分, 求出单个属性特征词的对比结果; 将所有属性特征词的对比结果求平均值, 得出总的相符度分值。假设E_ts表示卖家的属性特征词得分, E_tc表示买家的属性特征词综合极性得分, t=1,2…m表示一共有m个产品属性词。则相符度的计算公式为:

(3)

5 实验结果及讨论

5.1 数据收集

本文获取了淘宝网上一款销量较好的女士羊毛大衣的三家店铺的评论和宝贝描述, 最终得到这三家店铺的评论个数分别为A店1 708条、B店2 056条、C店1 922条。然后分别构建属性特征词库, 经过比对后, 保留重复的属性特征词, 具体如表4所示:

表4 买家和卖家重复属性特征词

为了确定买家评论的4个有效性指标的权重, 邀请专家对4个指标进行打分, 邀请的专家中有女装皇冠卖家还有经验丰富的买家, 通过阿里旺旺进行沟通, 发放电子问卷表格并回收答案, 最后计算每个有效性指标的最终权重得分, 如表5所示:

表5 有效性指标权重分配

5.2 极性得分计算与结果展示

根据多条评论属性特征词综合极性得分计算公式, 计算出买家属性特征词的综合极性得分, 再根据极性词表比对得出卖家描述中属性词极性得分, 结果如表6所示:

表6 三个店铺属性特征词极性得分汇总

分别对属性进行分析, 可以看出对A店而言, 只有夹棉这个属性值的比值(0.809/1=0.809>80%)大于80%, 说明卖家描述与买家评论在商品的夹棉属性上相符程度高, 其余的属性相符程度并不高; 对于B店而言, 质量、版型、厚度、里衬以及尺寸这5个属性均相符度较高; 对于C店而言, 颜色、紧身、标签、版型、包装和尺寸相符度较高。

下面考虑最终相符度计算, 以A商家为例, 买家评论与卖家描述是否相符的最终相符度得分为:

(4)

同理, B商家和C商家的最后得分分别为0.766 0和0.551 1。将它们各个属性特征的极性得分数值分别用柱状图来表示, 如图4所示:

	Figure Option View Download New Window
	图4 三个店铺属性特征词极性得分对比

5.3 结果分析

通过上面的结果可以看出, B商家分值最高为0.7660, 说明与宝贝描述相符的程度很好, 相符度为76.60%, C商家相符度最差, 只有55.11%。分析每个商家产品的属性特征词得分可以看出: 商家A销售的商品中除了尺码得分比较低以外, 其他属性都较好。并且商家A在描述中已经提到: “本店尺码比正常的码号要小, 请各位买家购买时尽量选择比平时衣服大一号”。卖家对于尺码的描述中也表示: 尺码与常规不符, 尺码的情感得分也为负值, 所以如算式(4)中计算的, -0.478/-1最后一项的结果就为正值, 在最后计分时除法抵消了负号对总分的影响, 相符度得分仍然较高。商家B的所有产品属性得分都较高, 除了颜色的分值最低。因此, 商家B需要更新照相设备或者将照片处理后再上传, 使颜色尽量与宝贝实物相符。商家C最注重包装和商标这些商品外在的东西, 而买家均反映版型很好, 但是质量、含羊毛量以及里衬一般, 里衬和是否正品的评判分值为负, 买家对它是否是正品表示怀疑, 因此该店的相符度得分最低。

将本文的结果与淘宝原有的系统比较发现:

(1) 淘宝系统中的“宝贝与描述相符”得分是根据各买家对店铺的打分, 计算出的平均值, 这个分值的评判过于简单。而本文是对文本进行定量化的处理, 将买家和卖家的属性特征词极性分值进行比较得出的相符度分值, 该分值更具有准确性和科学性。

(2) “大家印象”是最近淘宝新增加的语义评论内容, 这部分没有对评论的有效性进行分析, 只是提取了评论中的高频词作为“大家印象”, 如图5所示:

	Figure Option View Download New Window
	图5 淘宝评价系统中“大家印象”

而本文给出的属性特征词以及极性得分考虑了影响评论有效性的4个指标, 降低了一些经验不足的买家或者没有认真写评论的买家的中差评对平均分值的影响, 同时也降低了时间久远的评论对目前产品的影响, 更好地向消费者传递出商品的真实信息。

(3) 淘宝给出的“大家印象”中关键词评判过于模糊, 也容易产生歧义。比如图5中的“尺寸有偏差”这一项, 使人不清楚到底是卖家没有说明衣服尺寸有偏差, 还是卖家已经说了且买家也确实认为尺寸不符。这两个对“宝贝与描述相符”得分的影响是截然相反的。如果卖家没有说清楚, 则相符度分值应该减少; 如果卖家说清楚了, 则相符度得分应该增加。由于淘宝原始系统的“大家印象”没有考虑到卖家的商品描述信息, 因此会让一些卖家蒙受委屈, 而本文考虑到了这点, 将买家评论与卖家描述对比起来研究就会避免上述的误区。

6 局限性及未来研究方向

研究发现, 如果评论中含有买家上传的照片则会对评论的效用产生很大的影响, 本文仅仅考虑了文本的对比, 对于图像的挖掘和比对仍有待研究。同时, 本文的数据来自服装类的体验性商品, 研究模型能否很好地适用于书籍、数码产品等一些搜索性商品, 仍有待进一步证实。研究还发现, 买家评论中还会出现“还行”、“一般”、“就那样吧”这样的中性词, 由于本文考虑的是评论与卖家描述的相符程度, 而不是一篇专门的对评论情感极性判断的文章, 因此限于篇幅的影响, 只考虑了极性较强的情感词的判断。其实对于情感的程度细分, 还可以划分为很多等级, 比如“很好”、“好”、“不错”、“还行”、“一般”、“不行”、“较差”、“很差”、“极差”等多个等级, 在研究时还需要请专家对这些词进行极性打分计算。如何对极性强度进行判断以及极性程度的细分将是未来的研究方向。

7 结语

商品评价信息无论是对消费者而言还是对商家而言都是十分重要的信息来源, 判断商品的评论与卖家给出的信息是否一致, 可以很好地检验卖家是否诚信经营, 也可以很好地帮助消费者或者第三方平台辨析信息的可靠性。因此, 判定卖家描述信息与买家评价信息的相符度具有很好的实际应用价值。

本文以淘宝为研究背景, 将买家评论与卖家描述对比起来分析, 并结合评论有用性指标, 构建了买家与卖家相符度计算模型。结果以数值和图表两种方式呈现, 准确、形象地反映了卖家描述在各个属性上的相符程度, 能有效地帮助买家进行决策。

参考文献

View Option

[1]	张红斌, 李广丽. 商品在线评价的情感倾向性分析研究[J]. 现代图书情报技术, 2012(10): 61-66. (Zhang Hongbin, Li Guangli. Research on Sentiment Orientation Analysis of Product Online Reviews[J]. New Technology of Library and Information Service, 2012(10): 61-66. ) [本文引用:1] [CJCR: 1.073]
[2]	杨铭, 祁巍, 闫相斌, 等. 在线商品评论的效用分析研究[J]. 管理科学学报, 2012, 15(5): 65-75. (Yang Ming, Qi Wei, Yan Xiangbin, et al. Utility Analysis for Online Product Review[J]. Journal of Management Sciences in China, 2012, 15(5): 65-75. ) [本文引用:1] [CJCR: 1.411]
[3]	郝媛媛, 叶强, 李一军. 基于影评数据的在线评论有用性影响因素研究[J]. 管理科学学报, 2010, 13(8): 78-88. (Hao Yuanyuan, Ye Qiang, Li Yijun. Research on Online Impact Factors of Customer Reviews Usefulness Based on Movie Reviews Data[J]. Journal of Management Sciences in China, 2010, 13(8): 78-88. ) [本文引用:1] [CJCR: 1.411]
[4]	Chen C C, Tseng Y. Quality Evaluation of Product Reviews Using an Information Quality Framework[J]. Decision Support Systems, 2011, 50(4): 755-768. [本文引用:1] [JCR: 2.201]
[5]	Chklovski T. Deriving Quantitative Overviews of Free Text Assessments on the Web[C]. In: Proceedings of the 11th International Conference on Intelligent User Interfaces (IUI’06). New York: ACM, 2006: 155-162. [本文引用:1]
[6]	李志宇. 在线商品评论效用排序模型研究[J]. 现代图书情报技术, 2013(4): 62-68. (Li Zhiyu. Study on the Reviews Effectiveness Sequencing Model of Online Products[J]. New Technology of Library and Information Service, 2013 (4): 62-68. ) [本文引用:1] [CJCR: 1.073]
[7]	Kobayashi N, Inui K, Matsumoto Y, et al. Collecting Evaluative Expressions for Opinion Extraction[C]. In: Procee-dings of the 1st International Joint Conference on Natural Language Processing (IJCNLP’04). Berlin, Heidelberg: Springer-Verlag, 2004: 596-605. [本文引用:1]
[8]	Popescu A, Etzioni O. Extracting Product Features and Opinions from Reviews[C]. In: Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing (HLT’05). Stroudsburg: Association for Computational Linguistics, 2005: 339-346. [本文引用:1]
[9]	Miao Q, Li Q, Dai R. Amazing: A Sentiment Mining and Retrieval System[J]. Expert Systems with Applications, 2009, 36(3): 7192-7198. [本文引用:1] [JCR: 1.854]
[10]	伍星, 何中市, 黄永文. 产品评论挖掘研究综述[J]. 计算机工程与应用, 2008, 44(36): 37-41. (Wu Xing, He Zhongshi, Huang Yongwen. Product Review Mining: A Survey[J]. Computer Engineering and Applications, 2008, 44(36): 37-41. ) [本文引用:1] [CJCR: 0.457]
[11]	Liu B, Hu M, Cheng J. Opinion Observer: Analyzing and Comparing Opinions on the Web [C]. In: Proceedings of the 14th International World Wide Web Conference (WWW’05). New York: ACM, 2005: 342-351. [本文引用:1]
[12]	Pang B, Lee L. Opinion Mining and Sentiment Analysis[J]. Foundations and Trends in Information Retrieval, 2008, 2(1-2): 1-135. [本文引用:1]
[13]	陈江涛, 张金隆, 张亚军. 在线商品评论有用性影响因素研究: 基于文本语义视角[J]. 图书情报工作, 2012, 56(10): 119-123. (Chen Jiangtao, Zhang Jinlong, Zhang Yajun. Impact Factors of Online Customer Reviews Usefulness: A Text Semantics Approach[J]. Library and Information Service, 2012, 56(10): 119-123. ) [本文引用:1] [CJCR: 1.193]
[14]	GooSeeker. 网页抓取软件MetaSeeker[EB/OL]. [2013-03- 05]. http://www.gooseeker.com/cn/node/product/metaseeker_intro. (GooSeeker. Web Capture Software MetaSeeker [EB/ OL]. [2013-03-05]. http://www.gooseeker.com/cn/node/product/metaseeker_intro [本文引用:1]
[15]	刘群, 张华平, 俞鸿魁, 等. 基于层叠隐马模型的汉语词法分析[J]. 计算机研究与发展, 2004, 41(8): 1421-1429. (Liu Qun, Zhang Huaping, Yu Hongkui, et al. Chinese Lexical Analysis Using Cascaded Hidden Markov Model[J]. Journal of Computer Research and Development, 2004, 41(8): 1421-1429. ) [本文引用:1]
[16]	数据堂. 台湾大学NTUSD -简体中文情感极性词典[EB/OL]. [2013-03-05]. http://www.datatang.com/data/11837. (Data Tang. National Taiwan University-The Polarity of Simplified Chinese Emotional Dictionary [EB/OL]. [2013- 03-05]. http://www.datatang.com/data/11837 [本文引用:1]
[17]	Ye Q, Zhang Z, Law R. Sentiment Classification of Online Reviews to Travel Destinations by Supervised Machine Learning Approaches[J]. Expert Systems with Applications, 2009, 36(3): 6527-6535. [本文引用:1] [JCR: 1.854]

2012

0.0

1.073

. 2012, (10):61-66

Research on Sentiment Orientation Analysis of Product Online Reviews

1. School of Software, East China Jiaotong University, Nanchang 330013, China;<br>2. School of Information Engineering, East China Jiaotong University, Nanchang 330013, China

This paper aims at resolving the semantic mining problem of product online reviews by using the technology of sentiment orientation analysis. The sentiment orientation polar is firstly analyzed and the intensity of sentiment orientation analysis is computed to correctly express the inner semantic of product online reviews. The reviews of Xiaomi mobile phone and Motorola ME525+ mobile phone on Taobao are chosen to do the experiments. The results show that the precision of each auto-scoring of sentiment orientation analysis can reach 80% and most attribute indicators of products can get correct sentiment orientation polar, Which can help Web users to make correct purchase decisions to some extent.

围绕商品在线评论的语义挖掘问题,采用情感倾向性分析技术对商品在线评论进行情感倾向性极性分析,在此基础上定量度量情感倾向性强度,以正确地表达商品在线评论信息的语义内涵。选择淘宝网小米手机和摩托罗拉ME525+手机的在线评论进行实验分析,结果表明本研究获取的情感倾向性自动评分的准确率达到80%以上,且绝大多数的商品属性指标均能保证正确的情感倾向性极性。因此,该研究成果对用户的网上购物具有一定的参考价值。

... 加之, 电子商务网站的评论体系仍不够完善, 消费者往往很难在大量的评价文本中快速找到自己想要的信息^[1] ...

2012

0.0

1.411

... 评论质量的成果较多, 主要集中在评论效用的计算^[2]、产品评论有用性分析^[3]、高质量评论的提取^[4]以及垃圾评论的识别和过滤等 ...

2010

0.0

1.411

. 2010, 13(8):78-88

Research on Online Impact Factors of Customer Reviews Usefulness Based on Movie Reviews Data

面对互联网上海量的在线客户评论,如何能快速有效地进行识别和选择从而发现和利用其中有用的评论,已经成为人们关注的重要问题.以体验型商品电影的在线评论为研究对象,结合文本挖掘技术和实证研究方法,从文本特征出发探索影响在线评论有用性的因素,建立在线评论有用性影响因素模型,并利用该模型对评论有用性进行分类预测.与现有相关研究相比,提出的模型总体拟合效果显著提高,并发现在线影评中积极的情感倾向、较高的正负情感混杂度、较高的主客观表达混杂度以及较长的平均各句长度,对评论的有用性具有显著的正面影响.最后预测结果表明,该模型对在线影评的有用性具有较强的判别能力.

... 评论质量的成果较多, 主要集中在评论效用的计算^[2]、产品评论有用性分析^[3]、高质量评论的提取^[4]以及垃圾评论的识别和过滤等 ...

2011

2.201

0.0

. 2011, 50(4):755-768 DOI:10.1016/j.dss.2010.08.023

Quality Evaluation of Product Reviews Using an Information Quality Framework

Abstract

The ubiquity of Web2.0 makes the Web an invaluable source of business information. For instance, product reviews composed collaboratively by many independent Internet reviewers can help consumers make purchase decisions and enable enterprises to improve their business strategies. As the number of reviews is increasing exponentially, opinion mining and retrieval techniques are needed to identify important reviews and opinions to answer users' queries. Most opinion mining and retrieval approaches try to extract sentimental or bipolar expressions from a large volume of reviews. However, the process often ignores the quality of each review and may retrieve useless or even noisy documents. In this paper, we propose a method for evaluating the quality of information in product reviews. We treat the evaluation of review quality as a classification problem and employ an effective information quality framework to extract representative review features. Experiments based on an expert-composed data corpus demonstrate that the proposed method outperforms state-of-the-art approaches significantly.

... 评论质量的成果较多, 主要集中在评论效用的计算^[2]、产品评论有用性分析^[3]、高质量评论的提取^[4]以及垃圾评论的识别和过滤等 ...

2006

0.0

... Chklovski指出Web上存在着大量的噪音评论, 严重影响了评论的质量, 需要对它们进行过滤^[5] ...

2013

0.0

1.073

. 2013, (4):62-68

Study on the Reviews Effectiveness Sequencing Model of Online Products

School of Information Management, Central China Normal University, Wuhan 430079, China

On the basis of studying the influencing factors of online reviews effectiveness, a review effectiveness index system is established. The fuzzy analytic hierarchy process is adopted to determine the relative weight of indexes, various indexes of reviews content are quantized by semantic mining, and the total effectiveness score is calculated for each review. In terms of the model application of this study, nearly 2 000 reviews on a product of China’s Tmall are selected to make an empirical analysis. The study and comparison indicates that, after being processed by the sequencing model, a large number of useless reviews are postponed, and those reviews at the forefront of the new sequence are very rich in information content and high in effectiveness, and can assist consumers in making purchase decisions effectively.

从研究在线评论效用的影响因素入手,建立评论效用指标体系。采用模糊层次分析法确定指标的相对权重,通过语义挖掘对评论内容的各项指标进行量化处理,最后统计每条评论的效用总分。模型应用部分选取国内淘宝商城某商品的近2 000条商品评论信息进行实证分析。研究对比发现,经过排序模型处理后, 大量的无用评论被后置,新排序中靠前的评论内容信息含量非常丰富,评论效用较高,能够有效地辅助其他消费者进行购物决策。

... 李志宇提出了在线评论效用的排序计算模型, 将高效用的评论前置, 帮助买家进行购买决策^[6] ...

2004

0.0

... 人工提取是针对该领域的产品建立属性特征词表, 邀请该领域的专家对产品的属性特征进行定义^[7] ...

2005

0.0

... 自动提取的方式主要是基于计算机技术, 其中精准度较高的是Popescu等的研究, 他们利用Konwitall系统自动生成的鉴别短语和提取词的PMI值, 根据贝叶斯分类筛选出产品的属性特征词^[8] ...

2009

1.854

0.0

... 不同属性特征词的极性需要判断买家对单个产品特征(比如手机屏幕大小)的褒贬态度^[9], 因此更多地倾向于对词语、短语的态度进行分析^[10] ...

2008

0.0

0.457

. 2008, 44(36):37-41 DOI:10.3778/j.issn.1002-8331.2008.36.010

Product Review Mining: A Survey

Computer College of Chongqing University，Chongqing 400044，China

Product review mining is the process of finding information from product reviews on the Web through natural language process technology.It is a rising field that is the sub field of unstructured data mining from plain text.The information mined from product reviews can help manufacturers to improve their product，and help user to buy product with more rationality.A survey of product review mining is discussed.Firstly，the framework of product review mining is analyzed.Then，the tasks of product review mining that include subjective sentence identify，product feature extracting，user attitude extracting，polarity classifying and mining result show are also described in detail，and finally the future reseach directions about product review mining are pointed out.

产品评论挖掘是以Web上用户发表的产品评论为挖掘对象，采用自然语言处理技术，从大量的文本数据中发现关于产品的功能和性能的评价信息的过程。产品评论挖掘是一个新兴的研究领域，是对自然语言描述的无结构数据进行数据挖掘的典型代表。产品评论中挖掘得到的信息不仅可以帮助生产厂商改进产品，还可以帮助用户合理的购买产品。对产品评论挖掘进行了全面深入地讨论，介绍了产品评论挖掘系统的通用框架，然后对产品特征提取、主观句定位、用户态度提取、态度极性判定、挖掘结果显示这5个子任务进行了详细地阐述，最后介绍了产品评论挖掘的最新方向。

... 不同属性特征词的极性需要判断买家对单个产品特征(比如手机屏幕大小)的褒贬态度^[9], 因此更多地倾向于对词语、短语的态度进行分析^[10] ...

2005

0.0

... 将研究评论挖掘结果直观地展示给消费者, 帮助生产商和用户提供决策, 如, Liu等采用图形化的方式来展示挖掘结果, 比较两个产品在相同产品特征上的不同评价, 分别给出不同的褒贬性判断^[11] ...

2008

0.0

... 目前的研究大多致力于挖掘买家的产品评论信息, 而较少考虑到卖家提供的产品描述信息^[12] ...

2012

0.0

1.193

... 1 买家评论指标买家评论指标分为两部分: 基于外部因素的有效性指标, 主要包括买家信誉等级、评论时间、评论长度、得票数, 这些有效性指标反映了评论的效用有多大^[13] ...

2013

0.0

... 本文采用GooSeeker公司的集成网络信息抓取工具包MetaSeeker^[14] ...

2004

0.0

. 2004, 41(8):1421-1429

Chinese Lexical Analysis Using Cascaded Hidden Markov Model

提出了一种基于层叠隐马模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中.在分词方面,采取的是基于类的隐马模型,在这层隐马模型中,未登录词和词典中收录的普通词一样处理.未登录词识别引入了角色HMM:Viterbi算法标注出全局最优的角色序列,然后在角色序列的基础上,识别出未登录词,并计算出真实的可信度.在切分排歧方面,提出了一种基于N-最短路径的策略,即:在早期阶段召回N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未登录词识别和词性标注之后,从N个最有潜力的候选结果中选优得到.不同层面的实验表明,层叠隐马模型的各个层面对汉语词法分析都发挥了积极的作用.实现了基于层叠隐马模型的汉语词法分析系统ICTCLAS,该系统在2002年的"九七三"专家组评测中获得第1名,在2003年汉语特别兴趣研究组(ACL Special Interest Group on Chinese Language Processing,SIGHAN)组织的第1届国际汉语分词大赛中综合得分获得两项第1名、一项第2名.这表明:ICTCLAS是目前最好的汉语词法分析系统之一,层叠隐马模型能够解决好汉语词法问题.

... 本文采用中国科学院计算技术研究所的ICTCTAS分词系统^[15]进行分词和词性标注, 每篇文本标注后的格式如表1所示: ...

2013

0.0

... 本文主要参考台湾大学的简体中文情感极性词典^[16], 该词典包含8 276个负极性词语和2 810个正极性词语 ...

2009

1.854

0.0

... 以及负向情感词: 汗、无语、晕、垃圾等^[17] ...