Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (1): 41-50    DOI: 10.11925/infotech.2096-3467.2017.0717
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于大规模评论数据的产品特征词典构建方法研究*
李伟卿1,2,王伟军2()
1(华中师范大学信息管理学院 武汉 430079)
2(华中师范大学青少年网络心理与行为教育部重点实验室 武汉 430079)
Building Product Feature Dictionary with Large-scale Review Data
Weiqing Li1,2,Weijun Wang2()
1(School of Information Management, Central China Normal University, Wuhan 430079, China)
2(Key Laboratory of Adolescent Cyberpsychology and Behavior, Ministry of Education, Central China Normal University, Wuhan 430079, China)
全文: PDF(537 KB)   HTML
输出: BibTeX | EndNote (RIS)      
摘要 

目的】基于大规模评论数据, 提出一种产品特征词典的构建方法, 以提升识别产品特征的查准率和查全率。【方法】在人工标注的基础上, 基于同义词林的扩展, 以及大规模评论文本的词向量训练, 计算词语的语义相似度和相关性, 进行特征的识别与归并, 进而形成产品特征词典。【结果】本文选取手机、相机、图书三类产品的评论数据进行实验, 平均查准率和平均查全率分别为0.774和0.855。结果显示, 该方法具有一定的普适性。【局限】标注及验证需大量人工参与, 自动化程度不够; 没有考虑评论中的隐含特征。【结论】通过与已有研究比较, 验证了本文提出方法的有效性, 特别在查全率上具有显著的提升。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
李伟卿
王伟军
关键词 产品评论特征词典特征提取观点挖掘    
Abstract

[Objective] This paper proposes a method to build product feature dictionary based on large scale review data, aiming to improve its precision and recall. [Methods] First, we constructed a seed dictionary by manually labeling and extending the synonym forest. Then we trained the word vector with large scale product reviews to calculate the semantic similarity and relevance of words. Finally, we identified and categorized the product features to construct the dictionary. [Results] We chose product reviews on mobile-phones, cameras and books to examine the proposed model, which had average precision and recall of 0.774 and 0.855. [Limitations] The proposed method required a great deal of human participation at the marking and verification stages, while it did not consider the implied features of product reviews. [Conclusions] The proposed method could effectively build feature dictionary with better recall.

Key wordsProduct Review    Feature Dictionary    Feature Extraction    Opinion Mining
收稿日期: 2017-07-21     
基金资助:*本文系国家自然科学基金项目“基于屏幕视觉热区的网络用户偏好提取及交互式个性化推荐研究”(项目编号: 71571084)和国家自然科学基金项目“基于用户偏好感知的SaaS服务选择优化研究”(项目编号: 71271099)的研究成果之一
引用本文:   
李伟卿,王伟军. 基于大规模评论数据的产品特征词典构建方法研究*[J]. 数据分析与知识发现, 2018, 2(1): 41-50.
Weiqing Li,Weijun Wang. Building Product Feature Dictionary with Large-scale Review Data. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2017.0717.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.0717
图1  产品特征词典构建步骤
属性 举例
内容 内容 思想 思维 观念 理论 意思
结构和语言 结构 构造 构思 布局 组织 条理 语言 言辞
语句 讲话 说话 叙述
实用性 实用性 实用 应用 有用 用处
趣味性 趣味 兴趣 乐趣
专业性 深度 难度 难题 难点 难处
价格 价钱 价位 价值
质量 包装 封面 印刷 封皮 纸张 装订 质量 品质
质地 包裹 封装 封皮 书皮 书面
表1  人工标注的图书特征集合
编号 类型 手机特征词
1 屏幕 屏幕 桌面 触摸屏 显示屏 屏 弧面 质量 触屏 曲屏 分辨率 亮度 显示 界面
2 电池 电池 时间 待机 充电器 容量 充电 快充 电量 耗电量 用电 时长
3 摄像 摄像 拍照 摄像头 闪光灯 照相 像素 自拍 柔光 背景 清晰度 色彩 摄影 镜头 画面感 相素 神器
画质 美颜 效果
4 内存与处理 性能 速度 系统 运行速度 兼容性 卡 不卡 卡顿 处理器 开机 反应速度 延迟 网速 卡机 内存 死机
5 配件 壳 膜 玻璃膜 保护膜 套 壳子 钢化膜 手机套 贴膜
6 系统与软件 版本 功能 软件 智能 程序 系统 操作
7 游戏 游戏 娱乐 玩游戏 手游 王者荣耀 荣耀 斗地主 麻将
8 多媒体 多媒体 收音机 声音 语音 铃声 耳机 音质 音乐 视频 音响 电影 蓝光 音量 播放器 电视剧 音箱
听歌 播放 电视剧 画质 效果
9 外形 外形 机身 手感 体积 外观 缝隙 重量 质感 工艺 颜色 触感 外表 线条 机身 样子 造型 设计 个性
10 服务 售后 服务 物流 客服 态度 口碑 顺丰 卖家
11 价格 价格 价钱 性价比 降价 打折 定价 标价 钱
表2  手机特征词典
编号 类型 图书属性词
1 内容 思想 内容 主题 话题 故事 精神 心灵 内涵 理念 思想 思维 观念 理论 形象 事件 思路 深思 感觉 问题 爱情 想象 内心 观点 心理 文化 心理学 理论 人性 兴趣 思维 感情 无法 味道 情感 速度 心情 精神 体会 心灵 意思 答案 能力 习惯 哲学 大学 视角 梦想 科学 心态 性格 技巧 篇幅 用心 章节 数据 记忆 传统 学术 思路 题目 情绪 计划 灵魂 天堂 动机 理念 意识 情 理性 深思 观念 功力 个性 精髓 理想 笔触 悬念 意见 新意 高度 次数 趣味 小心 规划 幻想 路线 意义 情节 意境 人文 核心 意境 寓意
2 结构和语言 结构 情节 构造 构思 布局 文风 组织 条理 细节 题材 形式 篇幅 章节 体系 历史 世界 地方 结局 结果 方式 方面 方法 经历 基本 角度 过程 关系 原因 现实 道理 案例 实际 结尾 情况 印象 手法 体验 逻辑 类型 事件 背景 形式 经验 信息 全书 效果 系统 关键 重点 艺术 例子 案件 环境 现象 形象 模式 状态 特点 线索 事物 路 方向 哲理 命运 秘密 亲情 概念 范围 办法 目标 市场 理由 区别 内涵 缘故 场景 特色 本质 领域 步骤 目的 脉络 通篇 文笔 语言 字里行间 言辞 语句 语法 讲话 说话 叙述 情绪 笔触 风格 情感 口味 文字 风格 字体 色彩 单词 词 画 画面 话题 目 词汇 句子 文 错字 语句 外文
3 实用性 电子版 实用性 实用 应用 有用 用处 有效 利用 帮助 技能 瑕疵 亮点 缺点 优点 弱点
4 趣味性 爱好 吸引力 趣 风趣 无趣 有趣 趣味 兴趣 乐趣 意味 意思 儿童
5 难度和专业性 深度 难度 难 难题 难点 难处 困难 经典 可读性 代表作 习题 技术 课程 教程 试题 新闻 商务 物理
教科书 漫画 电视剧 著作
6 价格 价格 价钱 价 标价 钱 价位 值 价值 性价比 降价 定价
7 质量 精装 平装 盗版 外观 包装 用纸 封面 画质 装帧 印刷 封皮 纸张 装订 质量 品质 质 质地 印 包裹
封装 封皮 书皮 书面 手感 纸质 手感 表面 水平 样子 标准 水准
表3  图书特征词典
产品名称 Hu等[6]
实验
李实等[13]
实验
陈炯等[21]
实验
本实验
手机 0.718 0.633 0.759 0.786
数码相机 0.71 0.611 0.755 0.747
图书 / 0.629 0.737 0.791
表4  产品特征查准率比较
产品名称 Hu等[6]
实验
李实等[13]
实验
陈炯等[21]
实验
本实验
手机 0.761 0.689 0.653 0.832
数码相机 0.792 0.805 0.741 0.849
图书 / 0.917 0.682 0.883
表5  产品特征查全率比较
[1] Mathapati S, Manjula S H.Sentiment Analysis and Opinion Mining from Social Media: A Review[J]. Global Journal of Computer Science and Technology, 2016, 16(5): 1-16.
[2] Kim Y, Jeong S R.Opinion-Mining Methodology for Social Media Analytics[J]. KSII Transactions on Internet and Information Systems, 2015, 9(1): 391-406.
doi: 10.3837/tiis.2015.01.024
[3] Awrahman B, Alatas B.Sentiment Analysis and Opinion Mining Within Social Networks Using Konstanz Information Miner[J]. Journal of Telecommunication, Electronic and Computer Engineering (JTEC), 2016, 9(1): 15-22.
[4] Li N, Wu D D.Using Text Mining and Sentiment Analysis for Online Forums Hotspot Detection and Forecast[J]. Decision Support Systems, 2010, 48(2): 354-368.
doi: 10.1016/j.dss.2009.09.003
[5] 史伟, 王洪伟, 何绍义. 基于微博的产品评论挖掘: 情感分析的方法[J]. 情报学报, 2014, 33(12): 1311-1321.
doi: 10.3772/j.issn.10000135.2014.012.008
(Shi Wei, Wang Hongwei, He Shaoyi.Product Reviews Mining from Microblogging Based on Sentiment Analysis[J]. Journal of the China Society for Scientific and Technical Information, 2014, 32(12): 1311-1321.)
[6] Liu B, Hu M, Cheng J.Opinion Observer: Analyzing and Comparing Opinions on the Web[C]// Proceedings of the 14th International Conference on World Wide Web. ACM, 2005: 342-351.
[7] Popescu A M, Etzioni O.Extracting Product Features and Opinions from Reviews[A]// Natural Language Processing and Text Mining[M]. Springer London, 2007:9-28.
[8] Somprasertsri G, Lalitrojwong P.Mining Feature-Opinion in Online Customer Reviews for Opinion Summarization[J]. Journal of Essential Oil Research, 2010, 16(6): 938-955.
doi: 10.3217/jucs-016-06-0938
[9] 吴苏红, 王素格. 基于依存关系的旅游景点评论的特征-观点对抽取[J]. 中文信息学报, 2012, 26(3): 116-121.
doi: 10.3969/j.issn.1003-0077.2012.03.020
(Wu Suhong, Wang Suge.Feature-Opinion Extraction in Scenic Spots Reviews Based on Dependency Relation[J]. Journal of Chinese Information Processing, 2012, 26(3): 116-121.)
[10] 孟园, 王洪伟. 中文评论产品特征与观点抽取方法研究[J]. 现代图书情报技术, 2016(2): 16-24.
(Meng Yuan, Wang Hongwei.Extracting Product Feature and User Opinion from Chinese Reviews[J]. New Technology of Library and Information Service, 2016(2): 16-24.)
[11] 郗亚辉, 张明, 袁方, 等. 产品评论挖掘研究综述[J]. 山东大学学报:理学版, 2011, 46(5): 16-24.
doi: 10.3778/j.issn.1002-8331.2008.36.010
(Xi Yahui, Zhang Ming, Yuan Fang, et al.A Survey of Product Reviews Mining[J]. Journal of Shandong University: Natural Science, 2011, 46(5): 16-24.)
[12] Aravindan S, Ekbal A.Feature Extraction and Opinion Mining in Online Product Reviews[C]// Proceedings of the 2014 International Conference on Information Technology. IEEE, 2015:94-99.
[13] 李实, 叶强, 李一军, 等. 中文网络客户评论的产品特征挖掘方法研究[J]. 管理科学学报, 2009, 12(2): 142-152.
(Li Shi, Ye Qiang, Li Yijun, et al.Mining Features of Products from Chinese Customer Online Reviews[J]. Journal of Management Sciences in China, 2009, 12(2): 142-152.)
[14] 史伟, 王洪伟, 何绍义. 基于知网的模糊情感本体的构建研究[J]. 情报学报, 2012, 31(6): 595-602.
doi: 10.3772/j.issn.1000-0135.2012.06.005
(Shi Wei, Wang Hongwei, He Shaoyi.Study on Construction of Fuzzy Emotion Ontology Based on HowNet[J]. Journal of the China Society for Scientific and Technical Information, 2012, 31(6): 595-602.)
[15] Wang B, Wang H.Bootstrapping both Product Properties and Opinion Words from Chinese Reviews with Cross-Training[C] // Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence. IEEE Computer Society, 2007: 259-262.
[16] Cheng X.Automatic Topic Term Detection and Sentiment Classification for Opinion Mining [D]. Saarbrücken, Germany: The University of Saarland, 2007.
[17] 祖李军, 王卫平. 中文网络评论中提取产品特征的研究[J]. 计算机系统应用, 2014, 23(5): 196-201.
(Zu Lijun, Wang Weiping.Research of Extracting Product Features from Chinese Online Reviews[J]. Computer Systems & Applications, 2014, 23(5): 196-201.)
[18] 李素建, 刘群. 汉语组块的定义和获取[C]// 语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集. 北京: 清华大学出版社. 2003.
(Li Sujian, Liu Qun.Research on Definition and Acquisition of Chunk[C] // Proceedings of the 7th National Conference on Computational Linguitics. Beijing: Tsinghua University Press, 2003: 110-115.)
[19] Xia Y Q, Xu R F, Wong K F, et al.The Unified Collocation Framework for Opinion Mining[C]//Proceedings of the 2007 International Conference on Machine Learning and Cybernetics. IEEE, 2007:844-850.
[20] 黄永文. 中文产品评论挖掘关键技术研究[D]. 重庆: 重庆大学, 2009.
(Huang Yongwen.Research on Key Mining Technologies of Product Reviews in Chinese [D]. Chongqing: Chongqing University, 2009.)
[21] 陈炯, 张虎, 曹付元, 等. 面向中文客户评论的产品属性抽取方法研究[J]. 计算机工程与设计, 2012, 33(3): 1245-1250.
doi: 10.3969/j.issn.1000-7024.2012.03.080
(Chen Jiong, Zhang Hu, Cao Fuyuan, et al.Research on Product Feature Extraction from Chinese Customer Reviews[J]. Computer Engineering and Design, 2012, 33(3): 1245-1250.)
[22] Xia R, Xu F, Zong C, et al.Dual Sentiment Analysis: Considering Two Sides of One Review[J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(8): 2120-2133.
doi: 10.1109/TKDE.2015.2407371
[23] Liu S, Cheng X, Li F, et al.TASC: Topic-Adaptive Sentiment Classification on Dynamic Tweets[J]. IEEE Transactions on Knowledge & Data Engineering, 2015, 27(6): 1696-1709.
doi: 10.1109/TKDE.2014.2382600
[24] Hai Z, Chang K, Kim J J, et al.Identifying Features in Opinion Mining via Intrinsic and Extrinsic Domain Relevance[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(3): 623-634.
doi: 10.1109/TKDE.2013.26
[25] Asghar M Z, Khan A, Ahmad S, et al.A Review of Feature Extraction in Sentiment Analysis[J]. Journal of Basic & Applied Research International, 2014, 4(3): 181-186.
[26] 刘丹丹, 彭成, 钱龙华, 等. 《同义词词林》在中文实体关系抽取中的作用[J]. 中文信息学报, 2014, 28(2): 91-99.
doi: 10.3969/j.issn.1003-0077.2014.02.014
(Liu Dandan, Peng Cheng, Qian Longhua,et al.The Effect of TongYiCi CiLin in Chinese Entity Relation Extraction[J]. Journal of Chinese Information Processing, 2014, 28(2): 91-99.)
[27] 杜嘉忠, 徐健, 刘颖. 网络商品评论的特征—情感词本体构建与情感分析方法研究[J]. 现代图书情报技术, 2014(5): 74-82.
(Du Jiazhong, Xu Jian, Liu Ying.Research on Construction of Feature-Sentiment Ontology and Sentiment Analysis[J]. New Technology of Library and Information Service, 2014(5): 74-82.)
[28] 侯银秀, 李伟卿, 王伟军, 等. 基于用户偏好与商品属性情感匹配的图书个性化推荐研究[J]. 数据分析与知识发现, 2017, 1(8): 9-17.
(Hou Yinxiu, Li Weiqing, Wang Weijun, et al.Personalized Book Recommendation Based on User Preferences and Commodity Features[J]. Data Analysis and Knowledge Discovery, 2017, 1(8): 9-17.)
[29] 田久乐, 赵蔚. 基于同义词词林的词语相似度计算方法[J]. 吉林大学学报: 信息科学版, 2010, 28(6): 602-608.
doi: 10.3969/j.issn.1671-5896.2010.06.011
(Tian Jiule, Zhao Wei.Words Similarity Algorithm Based on Tongyici Cilin in Semantic Web Adaptive Learning System[J]. Journal of Jilin University: Information Science Edition, 2010, 28(6): 602-608.)
[30] Song H, Fan Y, Liu X, et al.Extracting Product Features from Online Reviews for Sentimental Analysis[C]// Proceedings of the 6th International Conference on Computer Sciences and Convergence Information Technology. 2011: 745-750.
[31] Jeong H.FEROM: Feature Extraction and Refinement for Opinion Mining[J]. ETRI Journal, 2011, 33(5): 720-730.
doi: 10.4218/etrij.11.0110.0627
[32] Liu B.Sentiment Analysis and Opinion Mining[J]. Synthesis Lectures on Human Language Technologies, 2016, 30(1): 152-153.
doi: 10.1007/978-1-4899-7502-7_907-1
[33] 唐晓波, 兰玉婷. 基于特征本体的微博产品评论情感分析[J]. 图书情报工作, 2016, 60(16): 121-127.
(Tang Xiaobo, Lan Yuting.Study on Evolution Process of Network Information Ecological Chain from the Perspective of Complex Networks[J]. Library and Information Service, 2016, 60(16): 121-127.)
[34] 杨阳, 刘龙飞, 魏现辉, 等. 基于词向量的情感新词发现方法[J]. 山东大学学报: 理学版, 2014, 49(11): 51-58.
doi: 10.6040/j.issn.1671-9352.3.2014.255
(Yang Yang, Liu Longfei, Wei Xianhui, et al.New Methods for Extracting Emotional Words Based on Distributed Representations of Words[J]. Journal of Shandong University: Natural Science, 2014, 49(11): 51-58.)
[35] Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[OL]. arXiv Preprint, arXiv: 1301.3781v3.
[1] 李昌兵,庞崇鹏,李美平. 基于权重的Apriori算法在文本统计特征提取方法中的应用*[J]. 数据分析与知识发现, 2017, 1(9): 83-89.
[2] 郭博,李守光,王昊,张晓军,龚伟,于昭君,孙宇. 电商评论综合分析系统的设计与实现——情感分析与观点挖掘的研究与应用[J]. 数据分析与知识发现, 2017, 1(12): 1-9.
[3] 刘红光,马双刚,刘桂锋. 基于降噪自动编码器的中文新闻文本分类方法研究*[J]. 现代图书情报技术, 2016, 32(6): 12-19.
[4] 杜思奇, 李红莲, 吕学强. 汉语组块分析在产品特征提取中的应用研究[J]. 现代图书情报技术, 2015, 31(9): 26-30.
[5] 张莉, 许鑫. 产品评论中的隐式属性抽取研究[J]. 现代图书情报技术, 2015, 31(12): 42-47.
[6] 路永和, 梁明辉. 遗传算法在改进文本特征提取方法中的应用[J]. 现代图书情报技术, 2014, 30(4): 48-57.
[7] 唐晓波, 肖璐. 基于依存句法网络的文本特征提取研究[J]. 现代图书情报技术, 2014, 30(11): 31-37.
[8] 游贵荣, 吴为, 钱沄涛. 电子商务中垃圾评论检测的特征提取方法[J]. 现代图书情报技术, 2014, 30(10): 93-100.
[9] 张志武. 跨领域迁移学习产品评论情感分析[J]. 现代图书情报技术, 2013, (6): 49-54.
[10] 王永, 张勤, 杨晓洁. 中文网络评论中产品特征提取方法研究[J]. 现代图书情报技术, 2013, (12): 70-73.
[11] 徐健, 温浩胜. 人才网页自动识别系统研究[J]. 现代图书情报技术, 2011, 27(6): 20-26.
[12] 余传明. 从用户评论中挖掘产品属性——基于SOM的实现[J]. 现代图书情报技术, 2009, 25(5): 61-66.
[13] 沈静,周金治,马建国. 基于UCL的网页信息自动标引技术研究*[J]. 现代图书情报技术, 2008, 24(8): 58-62.
[14] 陆国丽,王小华,王荣波. 最大词重降维算法与模拟退火算法相结合的文本聚类方法研究[J]. 现代图书情报技术, 2008, 24(12): 43-47.
[15] 王蕙,沈玉利. 图书馆图片检索系统的几点关键技术研究[J]. 现代图书情报技术, 2005, 21(6): 39-44.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn