面向供应链的产品评论中客户关注特征挖掘方法研究<sup>*</sup>

引用本文

郝玫, 王道平. 面向供应链的产品评论中客户关注特征挖掘方法研究^* . 现代图书情报技术, 2014, 30(4): 65-71
Hao Mei, Wang Daoping. Mining Customer Focus Features from Product Reviews Oriented Supply Chain. New technology of library and information service, 2014, 30(4): 65-71 复制到剪切板

Permissions

《现代图书情报技术》编辑部

面向供应链的产品评论中客户关注特征挖掘方法研究^*

郝玫, 王道平

北京科技大学东凌经济管理学院北京 100083

郝玫 E-mail:haomei@manage.ustb.edu.cn

作者贡献声明：

郝玫: 提出研究命题, 设计研究方法, 采集数据和进行实验, 论文起草;

王道平: 分析数据和最终版本修订。

基金:*本文系国家自然科学基金项目“敏捷供应链知识服务网络形成、演化与治理机制研究”(项目编号: 71172169)的研究成果之一。;

摘要

【目的】针对电子商务平台的中文产品评论, 提出一种面向供应链的客户关注特征挖掘方法。【方法】以产品评论数据预处理方法为核心, 改进关联规则挖掘产品特征方法。预处理技术包括产品评价概念树、产品评价特征库和MA_Apriori算法。数据实验以京东商城平板电脑为例, 在Weka环境中完成客户关注特征的挖掘。【结果】实验表明, 对于相同的事务文件, 采用数据预处理再进行关联规则的产品特征挖掘, 特征查全率为90.5%, 而关联规则挖掘方法查全率仅为71.4%。并且本方法可实现产品特征挖掘结果的层次化和规范化。 【局限】需要进一步补充汉语分词系统的用户词典, 添加产品领域相关的专业词汇, 以提高分词准确性。【结论】本方法有助于供应链各节点企业灵活选择产品评价概念层次, 从而有针对性地实施产品改进和服务提升。

关键词: 产品评价概念树; 客户关注特征; 关联规则; 数据挖掘; 供应链

中图分类号:TP391 文章编号:2014-4-65-71

Mining Customer Focus Features from Product Reviews Oriented Supply Chain

Hao Mei, Wang Daoping

Dongling School of Economics and Management, University of Science and Technology Beijing, Beijing 100083, China

Fund:

Abstract

[Objective] This paper proposes a customer focus feature mining method oriented supply chain.[Methods] The association rule mining is improved by adding data preprocessing, which includes product evaluation conception tree, product evaluation feature database and MA_Apriori algorithm. Based on the data of tablet PC of Jingdong Mall, the data experiment mines the customer focus features in Weka.[Results] The experiments show that the recall radio of new method is 90.5%, but the association rule method is 71.4%. In addition, it can get the hierarchical and standardized products features.[Limitations] Considering the accuracy of word segmentation, the user dictionary of segmentation system needs to be replenished by adding the product professional vocabulary.[Conclusions] This paper can help each enterprise select the product evaluation conception hierarchies flexibly, then improve the qualities of products and service.

Keyword: Product evaluation conception tree; Customer focus feature; Association rule; Data mining; Supply chain

Show Figures

1 引言

电子商务的蓬勃发展使网上购物成为人们的日常消费模式, 产品在线评论作为用户体验的反馈信息, 以其获取方便且成本低廉的优势, 已逐渐成为潜在顾客挑选商品的重要参考依据。这也启示网络时代的企业要更多掌握情报收集工具的应用并注重分析消费者的线上言行^{[ 1]}。

评论挖掘正是以获取产品评论中的有用信息为目标的一种非结构化数据挖掘技术, 它主要包括4个子任务: 产品特征挖掘; 挖掘关于产品特征的评论观点; 判断评论观点的情感倾向; 挖掘结果的汇总及排序^{[ 2]}。其中, 产品特征挖掘是通过分析海量的客户评论, 获取用户最关心的产品特征。通过在线评论中产品特征的挖掘管理, 企业能以低廉的成本获取客户最感兴趣的功能和最希望改进的性能。

就目前产品特征挖掘的研究现状来看, 主要存在两个方面的问题: 缺乏系统的方法指导评论语料库的数据预处理工作; 挖掘结果多是针对产品评论特征的无层次集合展示, 不能从供应链角度反映产品特征, 也不能反映出特征间的包含和隶属关系。基于此, 本文研究面向供应链的产品评论中客户关注特征的挖掘方法, 在数据挖掘的数据预处理方法的指导下, 研究实现评论数据规范化、层次化的预处理方法, 并基于关联规则挖掘产品的客户关注特征。

2 相关研究背景

产品特征的提取方法主要包括人工定义方法和自动提取方法两种。

Kobayashi等^{[ 3]}提出汽车的产品特征提取可以采用人工定义方法, 并建立了287个产品特征, 特征的表示形式采用三元组。姚天昉等^{[ 4]}对于汽车领域的产品特征的提取, 主要基于本体知识。Zhuang等^{[ 5]}主要分析电影的产品特征, 也采用人工定义方法, 将电影的产品特征分为电影的元素和电影相关的人员两类。人工定义方法最大的缺陷是不具有移植性, 即产品功能发生变化时, 只有领域专家才能完成产品新特征的补充^{[ 6]}。

自动提取方法可实现语句中产品特征的自动识别, 可借助词性标注、句法分析等自然语言分析技术。这种方法的优点是通用性强, 但也存在正确率可能较差的缺陷。Hu等^{[ 7]}认为产品特征有直接在句子中出现的显式特征, 还有需要经过语义理解才能产生的隐式特征。隐式特征由于不能做到语义的完全理解, 其技术还不成熟, 所以显式特征是目前产品特征挖掘研究的主要对象^{[ 6]}。Hu等先对评论语料进行词性标注, 提取每个句子中的名词和名词短语, 通过利用关联规则挖掘方法(Agrawal and Srikant)^{[ 8]}从评论语料中提取满足最小支持度的名词或名词短语, 生成transaction file, 再使用CBA(Classification Based on Associations)^{[ 9]}从transaction file中挖掘出频繁项, 把频繁项作为产品特征候选集。Popescu和Etzioni^{[ 10]}构建了一个非监督式信息抽取系统OPINE, 通过计算点互信息(PMI), 然后进行贝叶斯分类, 从而提取产品特征。

李实等^{[ 11]}考虑到英文的研究成果不适用于中文客户评论的挖掘, 于是在分析中文语言特点的基础上, 提出了中文客户评论的挖掘方法, 该方法借鉴了英文评论挖掘中的关联规则挖掘方法。Wang等^{[ 12]}在标注少量评论训练集的基础上, 构建了产品特征词的朴素贝叶斯分类器, 并将其应用于未标注的评论语料, 从而获得可信度最高的几个产品特征词, 再将其加入初始的训练集, 最后通过Bootstrapping迭代来获取所有评论语料中的产品特征。Zheng等^{[ 13]}不仅把中文产品评论中的所有名词作为候选产品特征, 还使用同现频率, 判定评论中多词构成的特征和可能会被分词误判的词汇, 并将其也作为候选特征。

本文将改进李实等学者的关联规则挖掘方法^{[ 11]}, 以评论数据预处理作为核心, 而不是对频繁特征项做剪枝和过滤处理, 这样可以提高原方法的产品特征查全率, 并且实现产品特征挖掘结果的层次化和规范化, 为供应链各节点企业的产品改进和服务提升提供重要信息参考。

3 结合概念树的产品评论中客户关注特征挖掘方法

本文所提出的结合概念树的产品评论中客户关注特征挖掘方法主要分为两个阶段: 结合概念树的产品评论数据预处理; 基于关联规则提取产品的客户关注特征。

3.1 结合概念树的产品评论数据预处理

(1) 产品评价概念树的构建

借鉴数据挖掘中的概念层次树这一结构^{[ 14]}, 产品评价概念树定义的是面向整个供应链的产品评价领域中的概念层次和隶属关系, 是严格划分层次的树状结构。

定义1: 产品评价概念树

产品评价概念树是一个二元组, 即T={C, HC}。其中C表示所有概念集合, HC(C1,C2)表示概念层次。HC是部分有序集(C, ), 是C的部分有序关系, 表示概念间的上下位关系。例如: 系统内存配置, 表示“系统内存”是“配置”的下位概念, “配置”是“系统内存”的上位概念。

产品评价概念树具有以下特性:

①树的节点表示概念, 树枝表示有序关系。

②有序关系包括包含关系、属性关系、部分-整体关系。

供应链按照核心企业的不同, 可分为供应商驱动、制造商驱动和销售商驱动三种类型^{[ 15]}。本文研究的是销售商驱动的供应链, 供应链各环节下位概念的归属原则遵循产品参数归属供应商、客户服务归属销售商的基本原则。

面向供应链的产品评价概念树的构建方法分为4个步骤:

①概念树的根节点为供应链总概念, 称为第0层概念。

②概念树的第1层概念为供应链的组成环节, 选取典型供应链的组成环节: 供应商、制造商、分销商和零售商。

③概念树的第2-n层概念为供应链各环节的下位概念。按照本体复用的思想^{[ 16]}, 可提取产品参数中的概念作为供应商概念的下位概念, 提取服务项目中的概念作为零售商概念的下位概念。

④通过学习产品评论数据, 完成评论数据中概念的提取、清理及同义词合并, 形成用户评论概念集合, 以确定用户评论概念集合与步骤③所得概念的有序关系。用户评论数据的选取遵循以下原则: 数据覆盖面要广, 同产品类别至少5个不同品牌, 至少5 000条评论数据; 评论数据有效, 即评论要含有产品特征。

产品评论数据中概念的提取、清理及同义词合并:

①评论页面下载: 采用聚焦爬虫技术^{[ 17]}。

②评论内容抽取: 利用正则表达式技术可将单纯的文本评论数据提取出来。

③中文分词: 采用中国科学院计算技术研究所开发的汉语分词系统ICTCLAS。因为从评论内容中抽取的产品特征通常为名词, 所以只需保留名词成为词性标注集合。

④概念同义词合并: 在哈尔滨工业大学同义词词林扩展版的基础上, 设计同义词合并算法SCA(Synonyms Combined Algorithm)。

同义词合并算法SCA的具体步骤如下:

1) 在中文分词后的名词词汇集W中, 去掉重复词, 形成初始词汇集IW, 其中的词汇按照拼音排序。

2) 依据哈尔滨工业大学同义词词林扩展版, 建立词汇集IW中每个词的同义词序列SL(Synonyms List)。

3) 比较每个词汇的SL及其后的各词汇序列, 若二者有两项以上的词相同, 则合并为一个序列, 如此遍历整个词汇集的同义词序列, 生成新同义词序列SL’。

4)将SL’转换成标准词-同义词列表[一个二元关系S_S {SW, SL}, SW(Standard Word)为对应同义词序列的标准词]。每一序列中词频最高的为标准词, 其他为该词的同义词。

⑤概念分类: 对标准词-同义词列表S_S中的SW进行分类, 此阶段需请产品领域专家参与。

产品评价概念树的构建采用本体构建工具Protégé实现。

(2) 产品评价特征库的构建

定义2: 产品评价特征库

产品评价特征库是一个二元关系, 即FD{LN, CN}, 其中LN为概念层次编号(Level Number), CN为概念名称集合(Concept Name), CN∈C。

产品评价概念树到产品评价特征库的转换规则为:

①概念树第0层概念为产品供应链总概念, 转换到产品评价特征库时, LN=0, CN为概念名称。

②概念树第1层概念为供应链各环节概念, 转换到产品评价特征库时, LN= , 其中x为第1层概念节点的顺序号, 取值范围为{1, 9}; CN为概念名称。

③概念树第2层概念为供应链各环节概念的下位概念, 转换到产品评价特征库时, LN= , 其中为其上位概念的LN, 为第2层概念的顺序号, 取值范围为{01, 99}; CN为概念名称。

④概念树的第3层至第n层概念转换规则以此类推。

将建立的产品评价概念树生成产品评价特征库, 并将产品评价特征库以关系表的形式存放。图1为产品评价概念树T1到产品评价特征库FD_T1的转换过程。

	Figure Option View Download New Window
	图1 产品评价概念树T1到产品评价特征库FD_T1的转换过程

(3) 产品评论特征词到产品评价特征库的映射

因待挖掘的产品评论内容是网页形式, 故先要完成数据清理, 再进行数据到评价特征库的映射。数据清理后评论数据的存放形式是一个序列表, 一条评论为一个名词序列, 这称为不规范评论词序列表NSR(Non-Standard Review)。接下来需要完成各评论特征词到评价特征库的映射。

映射算法MA(Mapping Algorithm)的具体描述如下:

①规范评论词序列表。将NSR中的每一条评论词与标准词-同义词列表S_S中的SL和SW对照, 若能在SL或SW中找到该评论词, 就替换为标准词, 否则保留原词, 从而得到规范评论词序列表SR(Standard Review)。

②将规范评论词序列映射到评价特征库。对于SR中的评论词, 通过遍历产品评价特征库FD中的概念名称集合CN, 若能找到与其相同的概念名称, 则用对应的概念层次编号LN代替, 否则删除该评论词。最终得到全部用LN表示的映射后的评论特征词序列表MRF(Mapping Review Features), 每条评论为一个序列。

3.2 基于关联规则提取产品的客户关注特征

本文基于关联规则提取产品的客户关注特征, 是在数据预处理中的MA算法的基础上创建关联规则事务文件, 然后再采用Apriori算法提取频繁规则项, 并转为客户关注特征, 所以将其合称为MA_ Apriori算法。

(1) 基于数据预处理中的MA算法创建关联规则的事务文件

事务文件以句子为单位, 一行语句中的名词和名词短语是一个事务, 每一个名词和名词短语是事务中的项, 事务文件用关系数据库表存放, 属性列为评价特征库中的所有CN名称。例如: “外观/n 电池/n 速度/n 屏幕/n 色彩/n”是事务文件中的一个事务。通过数据预处理方法中的MA算法, 完成各评论特征词到评价特征库的映射, 得到全部用LN表示的映射后的新的事务文件。如上述评论语句中的项经过MA算法后, 映射结果为: “010104, 0108, 010205, 0103, 01030501”。

(2) 采用Apriori算法提取频繁规则项

一般来讲, 关联规则的挖掘分两步: 预定义的最小支持计数, 找出所有的频繁项集; 由频繁项集生成强关联规则。在评论的产品特征挖掘中, 不需进行第二步, 因为产品的客户关注特征决定了只需挖掘出满足设定的最小支持度的频繁规则项。本文挖掘产品的客户关注特征将采用Apriori算法, Apriori算法规定参数设置采用的最小支持度为1%, 即将事务数据库中平均100个事务中至少出现过一次的项集作为频繁项集; 同时, 采用英文评论的商品特征挖掘中的解决方法, 将不考虑三维以上的频繁项集^{[ 18]}。

(3) 频繁规则项转换为产品的客户关注特征

经上述Apriori算法挖掘后的频繁项集将构成一个以LN编号表示的特征集合, 需将其转换为产品评价特征库中的概念名称才具有直观性, 但转换前必须按LN编号的层次进行概念的层次划分。

①将特征集合中的LN编号按位数不同分为不同子集合。例如: “010104, 0108, 010205, 0103, 01030501”可分为“0108, 0103”, “010104, 010205”, “01030501”。

②将特征集合中位数多的LN编号转为位数少的LN编号, 可向上层LN编号转换。例如: 将“010104, 010205, 01030501”转换为“0101, 0102, 0103”。

经过划分特征集合的层次子集, 明确挖掘出的客户关注特征所在的概念层次, 从而解决特征无层次的问题, 并可实现概念的泛化, 反映出客户所关注的供应链中节点企业的产品相关信息。

4 数据实验与分析

4.1 产品评价特征库的建立

以京东商城平板电脑的产品参数、服务类别和8个品牌22 142条评论数据为基础数据, 经过数据预处理后得到的平板电脑评价特征库如表1所示。

4.2 客户关注特征的提取

选取京东商城平板电脑华硕(ASUS)EeePad TF101标准版的300条客户评论进行提取客户关注特征的实验。基于产品评价特征库和映射算法MA, 得到的待挖掘特征为135项, 所以建立的关联规则事务文件为300行135列的MySQL数据库表。

表1 平板电脑评价特征库(部分数据)

本文在Weka环境中完成Apriori算法对频繁规则项的挖掘, 整理频繁项集后得到LN编号的客户关注特征如表2所示:

表2 LN编号的客户关注特征

对于相同的事务文件, 若采用参考文献[11]中的方法, 不经数据预处理而直接进行关联规则的产品特征挖掘, 得到的特征数量为15, 查全率为71.4%。而本文方法的查全率为90.5%(真实的产品特征以人工标注的特征数量为准), 可见本方法确实可以提高挖掘效率和知识发现的准确性。

按照层次不同, 可以灵活对客户关注特征进行各层的划分, 表3完成的是第3层的客户关注特征提取。

表3 第3层的客户关注特征

4.3 产品的客户关注特征对供应链的影响分析

在对产品的客户关注特征进行面向供应链(销售商驱动类型)分析时, 可从以下几个方面展开:

(1) 供应商的产品特征分析

客户对供应商的哪些产品特征最为关注, 将反映在挖掘到的特征集合中LN编号前两位为01的所有特征中。供应商可对客户关注的产品特征从多个角度进行分析, 一方面, LN编号位数最多的特征是产品划分最细的特征。例如: 挖掘结果中的“01090103”, 对应的是产品规格中的“厚度”, 这表明用户对该产品的厚度较为关注, 供应商应在厚度上加强质量监管或提升研发技术。另一方面, 能将LN编号位数多的特征向上层概念泛化。例如: 挖掘结果若为“010104, 0108, 010205, 0103, 01030501”, 如果选择第2层, 那么结果可转换为“0101, 0108, 0102, 0103, 0103”, 对应的具体特征名称是“主体, 电池, 配置, 主体, 主体”。

(2) 核心企业的服务分析

客户对销售商的哪些产品服务最为关注, 可以在挖掘得到的特征集合中查询LN编号前2位为02的所有特征。销售商能从多个角度对客户关注的服务特征进行分析, 一方面, LN编号位数最多的特征是具体的服务环节或服务质量。如“02050101”, 对应的是产品服务中的“换机手续”, 这将帮助销售商调整售后环节换机手续的服务流程和条款规定。另一方面, 也能将LN编号位数多的特征向上层概念泛化。

(3) 核心企业的供应商选择分析

挖掘出的产品特征可实现整个供应链的知识共享, 这为核心企业选择供应商提供了重要的信息参考。一方面, 核心企业可以从客户关注的产品特征中了解消费者的购物侧重点, 从而择优挑选供应商, 迎合顾客的需求。例如: 若评论挖掘结果显示客户关注“外观”, 某供应商的产品外观时尚, 那么该供应商就可纳入核心企业的合作伙伴。另一方面, 挖掘出的产品特征也可帮助核心企业随时对合作的供应商做出调整, 促使其完善产品或者提升服务水平。

5 结论

本文以非监督方法为主, 基于概念树的产品评论数据预处理, 在对数据进行规范和分层后, 采用Apriori算法, 对面向供应链的产品的客户关注特征进行了数据挖掘及实例分析, 并验证了方法的可行性和有效性。

产品的客户关注特征是面向整个供应链的产品评论最集中和最热点的特征, 但每项特征具体的评价倾向性还需进一步分析和处理, 今后的研究重点是通过提取客户对每项关注特征所持有的褒贬态度, 定量表示其评价情感倾向性, 实现由评价语句的模糊表达形式向数量化评价倾向的转换。

参考文献

View Option

[1]	McKinsey. 2011年度中国消费者调查报告[R]. 2011: 22-34. (McKinsey. Chinese Consumer Survey Report for 2011 [R]. 2011: 22-34. ) [本文引用:1]
[2]	Popescu A M, Etzioni O. Extracting Product Features and Opinions from Reviews [C]. In: Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2005: 339-346. [本文引用:1]
[3]	Kobayashi N, Inui K, Matsumoto Y, et al. Collecting Evaluative Expressions for Opinion Extraction[C]. In: Proceedings of the 1st International Joint Conference on Natural Language Processing. 2004: 596-605. [本文引用:1]
[4]	姚天昉, 程希文, 徐飞玉, 等. 文本意见挖掘综述[J]. 中文信息学报, 2008, 22(3): 71-80. (Yao Tianfang, Cheng Xiwen, Xu Feiyu, et al. A Survey of Opinion Mining for Texts[J]. Journal of Chinese Information Processing, 2008, 22(3): 71-80. ) [本文引用:1] [CJCR: 1.13]
[5]	Zhuang L, Jing F, Zhu X Y. Movie Review Mining and Summarization [C]. In: Proceedings of the 15th ACM International Conference on Information and Knowledge Management. New York: ACM, 2006: 43-50. [本文引用:1]
[6]	伍星, 何中市, 黄永文. 产品评论挖掘研究综述[J]. 计算机工程与应用, 2008, 44(36): 37-40. (Wu Xing, He Zhongshi, Huang Yongwen. Product Review Mining: A Survey[J]. Computer Engineering and Applications, 2008, 44(36): 37-40. ) [本文引用:2] [CJCR: 0.457]
[7]	Hu M, Liu B. Mining Opinion Features in Customer Reviews [C]. In: Proceedings of the 19th National Conference on Artificial Intelligence. AAAI Press, 2004: 755-760. [本文引用:1]
[8]	Agrawal R, Srikant R. Fast Algorithms for Mining Association Rules in Large Databases [C]. In: Proceeding of the 20th International Conference on Very Large Data Bases, Santiago de Chile. 1994: 487-499. [本文引用:1]
[9]	Liu B, Hsu W, Ma Y. Integrating Classification and Association Rule Mining[C]. In: Proceedings of the KDD-98. 1998: 80-86. [本文引用:1]
[10]	Popescu A M, Etzioni O. Extracting Product Features and Opinions from Reviews[C]. In: Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing, Vancouver, Canada. 2005: 339-346. [本文引用:1]
[11]	李实, 叶强, 李一军, 等. 中文网络客户评论的产品特征挖掘方法研究[J]. 管理科学学报, 2009, 12(2): 142-151. (Li Shi, Ye Qiang, Li Yijun, et al. Mining Features of Products from Chinese Customer Online Reviews[J]. Journal of Management Sciences in China, 2009, 12(2): 142-151. ) [本文引用:2] [CJCR: 1.411]
[12]	Wang B, Wang H. Bootstrapping both Product Properties and Opinion Words from Chinese Reviews with Cross-training [C]. In: Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence. Washington, DC, USA: IEEE Computer Society, 2007: 259-262. [本文引用:1]
[13]	Zheng Y, Ye L, Wu G, et al. Extracting Product Features from Chinese Customer Reviews [C]. In: Proceedings of the 3rd International Conference on Intelligent System and Knowledge Engineering. Washington: IEEE Computer Society, 2008: 285-290. [本文引用:1]
[14]	肖娟, 叶枫. 基于概念层次树的数据挖掘算法及应用研究[J]. 计算机应用研究, 2005, 22(3): 61-64. (Xiao Juan, Ye Feng. Research on Data Mining Algorithm Based on Conception Hierarchy Tree and Its Application[J]. Application Research of Computers, 2005, 22(3): 61-64. ) [本文引用:1] [CJCR: 0.601]
[15]	王圣广, 马士华. 论供应链驱动模式[J]. 中国软科学, 1999(4): 34-36. (Wang Shengguang, Ma Shihua. Research on Supply Chain Driven Mode[J]. China Soft Science, 1999(4): 34-36. ) [本文引用:1] [CJCR: 1.968]
[16]	Maedche A, Motik B, Stojanovic L, et al. An Infrastructure for Searching, Reusing and Evolving Distributed Ontologies[C]. In: Proceedings of the 12th International Conference on World Wide Web. 2003: 439-448. [本文引用:1]
[17]	周立柱, 林玲. 聚焦爬虫技术研究综述[J]. 计算机应用, 2005, 25(9): 1965-1969. (Zhou Lizhu, Lin Ling. Survey on the Research of Focused Crawling Technique[J]. Computer Applications, 2005, 25(9): 1965-1969. ) [本文引用:1] [CJCR: 0.1916]
[18]	Hu M, Liu B. Mining and Summarizing Customer Reviews [C]. In: Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Seattle, USA. 2004: 168-177. [本文引用:1]

2011

0.0

... 这也启示网络时代的企业要更多掌握情报收集工具的应用并注重分析消费者的线上言行^[1] ...

2005

0.0

... 挖掘结果的汇总及排序^[2] ...

2004

0.0

... Kobayashi等^[3]提出汽车的产品特征提取可以采用人工定义方法, 并建立了287个产品特征, 特征的表示形式采用三元组 ...

2008

0.0

1.13

. 2008, 22(3):71-80

A Survey of Opinion Mining for Texts

意见挖掘是针对主观性文本自动获取有用的意见信息和知识,它是一个新颖而且十分重要的研究课题.这种技术可以应用于现实生活中的许多方面,如电子商务、商业智能、信息监控、民意调查、电子学习、报刊编辑、企业管理等.本文首先对意见挖掘进行了定义,然后阐述了意见挖掘研究的目的,接着从主题的识别、意见持有者的识别、陈述的选择和情感的分析四个方面对意见挖掘的研究现状进行了综述,并介绍了几个成型的系统.此外,我们针对汉语的意见挖掘做了特别的分析.最后对整个领域的研究进行了总结.

... 姚天昉等^[4]对于汽车领域的产品特征的提取, 主要基于本体知识 ...

2006

0.0

... Zhuang等^[5]主要分析电影的产品特征, 也采用人工定义方法, 将电影的产品特征分为电影的元素和电影相关的人员两类 ...

2008

0.0

0.457

. 2008, 44(36):37-40 DOI:10.3778/j.issn.1002-8331.2008.36.010

Product Review Mining: A Survey

Computer College of Chongqing University，Chongqing 400044，China

Product review mining is the process of finding information from product reviews on the Web through natural language process technology.It is a rising field that is the sub field of unstructured data mining from plain text.The information mined from product reviews can help manufacturers to improve their product，and help user to buy product with more rationality.A survey of product review mining is discussed.Firstly，the framework of product review mining is analyzed.Then，the tasks of product review mining that include subjective sentence identify，product feature extracting，user attitude extracting，polarity classifying and mining result show are also described in detail，and finally the future reseach directions about product review mining are pointed out.

产品评论挖掘是以Web上用户发表的产品评论为挖掘对象，采用自然语言处理技术，从大量的文本数据中发现关于产品的功能和性能的评价信息的过程。产品评论挖掘是一个新兴的研究领域，是对自然语言描述的无结构数据进行数据挖掘的典型代表。产品评论中挖掘得到的信息不仅可以帮助生产厂商改进产品，还可以帮助用户合理的购买产品。对产品评论挖掘进行了全面深入地讨论，介绍了产品评论挖掘系统的通用框架，然后对产品特征提取、主观句定位、用户态度提取、态度极性判定、挖掘结果显示这5个子任务进行了详细地阐述，最后介绍了产品评论挖掘的最新方向。

... 人工定义方法最大的缺陷是不具有移植性, 即产品功能发生变化时, 只有领域专家才能完成产品新特征的补充^[6] ...

... 隐式特征由于不能做到语义的完全理解, 其技术还不成熟, 所以显式特征是目前产品特征挖掘研究的主要对象^[6] ...

2004

0.0

... Hu等^[7]认为产品特征有直接在句子中出现的显式特征, 还有需要经过语义理解才能产生的隐式特征 ...

1994

0.0

... Hu等先对评论语料进行词性标注, 提取每个句子中的名词和名词短语, 通过利用关联规则挖掘方法(Agrawal and Srikant)^[8]从评论语料中提取满足最小支持度的名词或名词短语, 生成transaction file, 再使用CBA(Classification Based on Associations)^[9]从transaction file中挖掘出频繁项, 把频繁项作为产品特征候选集 ...

1998

0.0

2005

0.0

... Popescu和Etzioni^[10]构建了一个非监督式信息抽取系统OPINE, 通过计算点互信息(PMI), 然后进行贝叶斯分类, 从而提取产品特征 ...

2009

0.0

1.411

. 2009, 12(2):142-151

Mining Features of Products from Chinese Customer Online Reviews

随着互联网的广泛应用,在Blog、BBS、Wiki等网络站点中出现了大量的针对商品或服务的客户评论,这些客户评论中所包含的丰富信息,对企业管理具有重要的价值.通过数据挖掘算法对客户针对某一产品的大量评论进行分析,可以挖掘出这些产品的主要特征,并有望进一步发现客户对这些特征的意见和态度.在英文世界中已经有学者开始对这一研究进行探索,然而由于语言结构等方面的差异,英文的研究成果尚无法直接应用于中文客户评论的挖掘中.本研究针对中文的特点,提出了面向中文的客户评论挖掘方法.该方法基于改进关联规则算法实现了针对中文产品评论的产品特征信息挖掘.本研究采用通过互联网获得的针对手机、数码相机、书籍等5种产品的评论语料,对该方法进行了数据实验,实验结果初步验证了该方法有效性.

... 李实等^[11]考虑到英文的研究成果不适用于中文客户评论的挖掘, 于是在分析中文语言特点的基础上, 提出了中文客户评论的挖掘方法, 该方法借鉴了英文评论挖掘中的关联规则挖掘方法 ...

... 本文将改进李实等学者的关联规则挖掘方法^[11], 以评论数据预处理作为核心, 而不是对频繁特征项做剪枝和过滤处理, 这样可以提高原方法的产品特征查全率, 并且实现产品特征挖掘结果的层次化和规范化, 为供应链各节点企业的产品改进和服务提升提供重要信息参考 ...

2007

0.0

... Wang等^[12]在标注少量评论训练集的基础上, 构建了产品特征词的朴素贝叶斯分类器, 并将其应用于未标注的评论语料, 从而获得可信度最高的几个产品特征词, 再将其加入初始的训练集, 最后通过Bootstrapping迭代来获取所有评论语料中的产品特征 ...

2008

0.0

... Zheng等^[13]不仅把中文产品评论中的所有名词作为候选产品特征, 还使用同现频率, 判定评论中多词构成的特征和可能会被分词误判的词汇, 并将其也作为候选特征 ...

2005

0.0

0.601

. 2005, 22(3):61-64

Research on Data Mining Algorithm Based on Conception Hierarchy Tree and Its Application

概念层次树在大规模数据挖掘中已得到广泛应用.在介绍基于概念层次树的数据挖掘算法的基础上,针对已有数值型数据概念提升算法的不足,提出了改进后的算法,并通过数据测试给出两种算法的比较效果和应用实例.

... 借鉴数据挖掘中的概念层次树这一结构^[14], 产品评价概念树定义的是面向整个供应链的产品评价领域中的概念层次和隶属关系, 是严格划分层次的树状结构 ...

0.0

1.968

... 供应链按照核心企业的不同, 可分为供应商驱动、制造商驱动和销售商驱动三种类型^[15] ...

2003

0.0

... 按照本体复用的思想^[16], 可提取产品参数中的概念作为供应商概念的下位概念, 提取服务项目中的概念作为零售商概念的下位概念 ...

2005

0.0

0.1916

. 2005, 25(9):1965-1969

Survey on the Research of Focused Crawling Technique

因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战.对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页.为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究.至今,聚焦爬虫已成为有关万维网的研究热点之一.文中对这一热点研究进行综述,给出聚焦爬虫(Focused Crawler)的基本概念,概述其工作原理;并根据研究的发展现状,对聚焦爬虫的关键技术(抓取目标描述,网页分析算法和网页搜索策略等)作系统介绍和深入分析.在此基础上,提出聚焦爬虫今后的一些研究方向,包括面向数据分析和挖掘的爬虫技术研究,主题的描述与定义,相关资源的发现,Web数据清洗,以及搜索空间的扩展等.

... ①评论页面下载: 采用聚焦爬虫技术^[17] ...

2004

0.0

... 同时, 采用英文评论的商品特征挖掘中的解决方法, 将不考虑三维以上的频繁项集^[18] ...