Please wait a minute...
Data Analysis and Knowledge Discovery  2018, Vol. 2 Issue (1): 41-50    DOI: 10.11925/infotech.2096-3467.2017.0717
Orginal Article Current Issue | Archive | Adv Search |
Building Product Feature Dictionary with Large-scale Review Data
Li Weiqing1,2, Wang Weijun2()
1(School of Information Management, Central China Normal University, Wuhan 430079, China)
2(Key Laboratory of Adolescent Cyberpsychology and Behavior, Ministry of Education, Central China Normal University, Wuhan 430079, China)
Download: PDF (537 KB)   HTML ( 2
Export: BibTeX | EndNote (RIS)      
Abstract  

[Objective] This paper proposes a method to build product feature dictionary based on large scale review data, aiming to improve its precision and recall. [Methods] First, we constructed a seed dictionary by manually labeling and extending the synonym forest. Then we trained the word vector with large scale product reviews to calculate the semantic similarity and relevance of words. Finally, we identified and categorized the product features to construct the dictionary. [Results] We chose product reviews on mobile-phones, cameras and books to examine the proposed model, which had average precision and recall of 0.774 and 0.855. [Limitations] The proposed method required a great deal of human participation at the marking and verification stages, while it did not consider the implied features of product reviews. [Conclusions] The proposed method could effectively build feature dictionary with better recall.

Key wordsProduct Review      Feature Dictionary      Feature Extraction      Opinion Mining     
Received: 21 July 2017      Published: 05 February 2018
ZTFLH:  TP393 G35  

Cite this article:

Li Weiqing,Wang Weijun. Building Product Feature Dictionary with Large-scale Review Data. Data Analysis and Knowledge Discovery, 2018, 2(1): 41-50.

URL:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/10.11925/infotech.2096-3467.2017.0717     OR     https://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/Y2018/V2/I1/41

属性 举例
内容 内容 思想 思维 观念 理论 意思
结构和语言 结构 构造 构思 布局 组织 条理 语言 言辞
语句 讲话 说话 叙述
实用性 实用性 实用 应用 有用 用处
趣味性 趣味 兴趣 乐趣
专业性 深度 难度 难题 难点 难处
价格 价钱 价位 价值
质量 包装 封面 印刷 封皮 纸张 装订 质量 品质
质地 包裹 封装 封皮 书皮 书面
编号 类型 手机特征词
1 屏幕 屏幕 桌面 触摸屏 显示屏 屏 弧面 质量 触屏 曲屏 分辨率 亮度 显示 界面
2 电池 电池 时间 待机 充电器 容量 充电 快充 电量 耗电量 用电 时长
3 摄像 摄像 拍照 摄像头 闪光灯 照相 像素 自拍 柔光 背景 清晰度 色彩 摄影 镜头 画面感 相素 神器
画质 美颜 效果
4 内存与处理 性能 速度 系统 运行速度 兼容性 卡 不卡 卡顿 处理器 开机 反应速度 延迟 网速 卡机 内存 死机
5 配件 壳 膜 玻璃膜 保护膜 套 壳子 钢化膜 手机套 贴膜
6 系统与软件 版本 功能 软件 智能 程序 系统 操作
7 游戏 游戏 娱乐 玩游戏 手游 王者荣耀 荣耀 斗地主 麻将
8 多媒体 多媒体 收音机 声音 语音 铃声 耳机 音质 音乐 视频 音响 电影 蓝光 音量 播放器 电视剧 音箱
听歌 播放 电视剧 画质 效果
9 外形 外形 机身 手感 体积 外观 缝隙 重量 质感 工艺 颜色 触感 外表 线条 机身 样子 造型 设计 个性
10 服务 售后 服务 物流 客服 态度 口碑 顺丰 卖家
11 价格 价格 价钱 性价比 降价 打折 定价 标价 钱
编号 类型 图书属性词
1 内容 思想 内容 主题 话题 故事 精神 心灵 内涵 理念 思想 思维 观念 理论 形象 事件 思路 深思 感觉 问题 爱情 想象 内心 观点 心理 文化 心理学 理论 人性 兴趣 思维 感情 无法 味道 情感 速度 心情 精神 体会 心灵 意思 答案 能力 习惯 哲学 大学 视角 梦想 科学 心态 性格 技巧 篇幅 用心 章节 数据 记忆 传统 学术 思路 题目 情绪 计划 灵魂 天堂 动机 理念 意识 情 理性 深思 观念 功力 个性 精髓 理想 笔触 悬念 意见 新意 高度 次数 趣味 小心 规划 幻想 路线 意义 情节 意境 人文 核心 意境 寓意
2 结构和语言 结构 情节 构造 构思 布局 文风 组织 条理 细节 题材 形式 篇幅 章节 体系 历史 世界 地方 结局 结果 方式 方面 方法 经历 基本 角度 过程 关系 原因 现实 道理 案例 实际 结尾 情况 印象 手法 体验 逻辑 类型 事件 背景 形式 经验 信息 全书 效果 系统 关键 重点 艺术 例子 案件 环境 现象 形象 模式 状态 特点 线索 事物 路 方向 哲理 命运 秘密 亲情 概念 范围 办法 目标 市场 理由 区别 内涵 缘故 场景 特色 本质 领域 步骤 目的 脉络 通篇 文笔 语言 字里行间 言辞 语句 语法 讲话 说话 叙述 情绪 笔触 风格 情感 口味 文字 风格 字体 色彩 单词 词 画 画面 话题 目 词汇 句子 文 错字 语句 外文
3 实用性 电子版 实用性 实用 应用 有用 用处 有效 利用 帮助 技能 瑕疵 亮点 缺点 优点 弱点
4 趣味性 爱好 吸引力 趣 风趣 无趣 有趣 趣味 兴趣 乐趣 意味 意思 儿童
5 难度和专业性 深度 难度 难 难题 难点 难处 困难 经典 可读性 代表作 习题 技术 课程 教程 试题 新闻 商务 物理
教科书 漫画 电视剧 著作
6 价格 价格 价钱 价 标价 钱 价位 值 价值 性价比 降价 定价
7 质量 精装 平装 盗版 外观 包装 用纸 封面 画质 装帧 印刷 封皮 纸张 装订 质量 品质 质 质地 印 包裹
封装 封皮 书皮 书面 手感 纸质 手感 表面 水平 样子 标准 水准
产品名称 Hu等[6]
实验
李实等[13]
实验
陈炯等[21]
实验
本实验
手机 0.718 0.633 0.759 0.786
数码相机 0.71 0.611 0.755 0.747
图书 / 0.629 0.737 0.791
产品名称 Hu等[6]
实验
李实等[13]
实验
陈炯等[21]
实验
本实验
手机 0.761 0.689 0.653 0.832
数码相机 0.792 0.805 0.741 0.849
图书 / 0.917 0.682 0.883
[1] Mathapati S, Manjula S H.Sentiment Analysis and Opinion Mining from Social Media: A Review[J]. Global Journal of Computer Science and Technology, 2016, 16(5): 1-16.
[2] Kim Y, Jeong S R.Opinion-Mining Methodology for Social Media Analytics[J]. KSII Transactions on Internet and Information Systems, 2015, 9(1): 391-406.
doi: 10.3837/tiis.2015.01.024
[3] Awrahman B, Alatas B.Sentiment Analysis and Opinion Mining Within Social Networks Using Konstanz Information Miner[J]. Journal of Telecommunication, Electronic and Computer Engineering (JTEC), 2016, 9(1): 15-22.
[4] Li N, Wu D D.Using Text Mining and Sentiment Analysis for Online Forums Hotspot Detection and Forecast[J]. Decision Support Systems, 2010, 48(2): 354-368.
doi: 10.1016/j.dss.2009.09.003
[5] 史伟, 王洪伟, 何绍义. 基于微博的产品评论挖掘: 情感分析的方法[J]. 情报学报, 2014, 33(12): 1311-1321.
doi: 10.3772/j.issn.10000135.2014.012.008
[5] (Shi Wei, Wang Hongwei, He Shaoyi.Product Reviews Mining from Microblogging Based on Sentiment Analysis[J]. Journal of the China Society for Scientific and Technical Information, 2014, 32(12): 1311-1321.)
doi: 10.3772/j.issn.10000135.2014.012.008
[6] Liu B, Hu M, Cheng J.Opinion Observer: Analyzing and Comparing Opinions on the Web[C]// Proceedings of the 14th International Conference on World Wide Web. ACM, 2005: 342-351.
[7] Popescu A M, Etzioni O.Extracting Product Features and Opinions from Reviews[A]// Natural Language Processing and Text Mining[M]. Springer London, 2007:9-28.
[8] Somprasertsri G, Lalitrojwong P.Mining Feature-Opinion in Online Customer Reviews for Opinion Summarization[J]. Journal of Essential Oil Research, 2010, 16(6): 938-955.
doi: 10.3217/jucs-016-06-0938
[9] 吴苏红, 王素格. 基于依存关系的旅游景点评论的特征-观点对抽取[J]. 中文信息学报, 2012, 26(3): 116-121.
doi: 10.3969/j.issn.1003-0077.2012.03.020
[9] (Wu Suhong, Wang Suge.Feature-Opinion Extraction in Scenic Spots Reviews Based on Dependency Relation[J]. Journal of Chinese Information Processing, 2012, 26(3): 116-121.)
doi: 10.3969/j.issn.1003-0077.2012.03.020
[10] 孟园, 王洪伟. 中文评论产品特征与观点抽取方法研究[J]. 现代图书情报技术, 2016(2): 16-24.
[10] (Meng Yuan, Wang Hongwei.Extracting Product Feature and User Opinion from Chinese Reviews[J]. New Technology of Library and Information Service, 2016(2): 16-24.)
[11] 郗亚辉, 张明, 袁方, 等. 产品评论挖掘研究综述[J]. 山东大学学报:理学版, 2011, 46(5): 16-24.
doi: 10.3778/j.issn.1002-8331.2008.36.010
[11] (Xi Yahui, Zhang Ming, Yuan Fang, et al.A Survey of Product Reviews Mining[J]. Journal of Shandong University: Natural Science, 2011, 46(5): 16-24.)
doi: 10.3778/j.issn.1002-8331.2008.36.010
[12] Aravindan S, Ekbal A.Feature Extraction and Opinion Mining in Online Product Reviews[C]// Proceedings of the 2014 International Conference on Information Technology. IEEE, 2015:94-99.
[13] 李实, 叶强, 李一军, 等. 中文网络客户评论的产品特征挖掘方法研究[J]. 管理科学学报, 2009, 12(2): 142-152.
[13] (Li Shi, Ye Qiang, Li Yijun, et al.Mining Features of Products from Chinese Customer Online Reviews[J]. Journal of Management Sciences in China, 2009, 12(2): 142-152.)
[14] 史伟, 王洪伟, 何绍义. 基于知网的模糊情感本体的构建研究[J]. 情报学报, 2012, 31(6): 595-602.
doi: 10.3772/j.issn.1000-0135.2012.06.005
[14] (Shi Wei, Wang Hongwei, He Shaoyi.Study on Construction of Fuzzy Emotion Ontology Based on HowNet[J]. Journal of the China Society for Scientific and Technical Information, 2012, 31(6): 595-602.)
doi: 10.3772/j.issn.1000-0135.2012.06.005
[15] Wang B, Wang H.Bootstrapping both Product Properties and Opinion Words from Chinese Reviews with Cross-Training[C] // Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence. IEEE Computer Society, 2007: 259-262.
[16] Cheng X.Automatic Topic Term Detection and Sentiment Classification for Opinion Mining [D]. Saarbrücken, Germany: The University of Saarland, 2007.
[17] 祖李军, 王卫平. 中文网络评论中提取产品特征的研究[J]. 计算机系统应用, 2014, 23(5): 196-201.
[17] (Zu Lijun, Wang Weiping.Research of Extracting Product Features from Chinese Online Reviews[J]. Computer Systems & Applications, 2014, 23(5): 196-201.)
[18] 李素建, 刘群. 汉语组块的定义和获取[C]// 语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集. 北京: 清华大学出版社. 2003.
[18] (Li Sujian, Liu Qun.Research on Definition and Acquisition of Chunk[C] // Proceedings of the 7th National Conference on Computational Linguitics. Beijing: Tsinghua University Press, 2003: 110-115.)
[19] Xia Y Q, Xu R F, Wong K F, et al.The Unified Collocation Framework for Opinion Mining[C]//Proceedings of the 2007 International Conference on Machine Learning and Cybernetics. IEEE, 2007:844-850.
[20] 黄永文. 中文产品评论挖掘关键技术研究[D]. 重庆: 重庆大学, 2009.
[20] (Huang Yongwen.Research on Key Mining Technologies of Product Reviews in Chinese [D]. Chongqing: Chongqing University, 2009.)
[21] 陈炯, 张虎, 曹付元, 等. 面向中文客户评论的产品属性抽取方法研究[J]. 计算机工程与设计, 2012, 33(3): 1245-1250.
doi: 10.3969/j.issn.1000-7024.2012.03.080
[21] (Chen Jiong, Zhang Hu, Cao Fuyuan, et al.Research on Product Feature Extraction from Chinese Customer Reviews[J]. Computer Engineering and Design, 2012, 33(3): 1245-1250.)
doi: 10.3969/j.issn.1000-7024.2012.03.080
[22] Xia R, Xu F, Zong C, et al.Dual Sentiment Analysis: Considering Two Sides of One Review[J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(8): 2120-2133.
doi: 10.1109/TKDE.2015.2407371
[23] Liu S, Cheng X, Li F, et al.TASC: Topic-Adaptive Sentiment Classification on Dynamic Tweets[J]. IEEE Transactions on Knowledge & Data Engineering, 2015, 27(6): 1696-1709.
doi: 10.1109/TKDE.2014.2382600
[24] Hai Z, Chang K, Kim J J, et al.Identifying Features in Opinion Mining via Intrinsic and Extrinsic Domain Relevance[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(3): 623-634.
doi: 10.1109/TKDE.2013.26
[25] Asghar M Z, Khan A, Ahmad S, et al.A Review of Feature Extraction in Sentiment Analysis[J]. Journal of Basic & Applied Research International, 2014, 4(3): 181-186.
[26] 刘丹丹, 彭成, 钱龙华, 等. 《同义词词林》在中文实体关系抽取中的作用[J]. 中文信息学报, 2014, 28(2): 91-99.
doi: 10.3969/j.issn.1003-0077.2014.02.014
[26] (Liu Dandan, Peng Cheng, Qian Longhua,et al.The Effect of TongYiCi CiLin in Chinese Entity Relation Extraction[J]. Journal of Chinese Information Processing, 2014, 28(2): 91-99.)
doi: 10.3969/j.issn.1003-0077.2014.02.014
[27] 杜嘉忠, 徐健, 刘颖. 网络商品评论的特征—情感词本体构建与情感分析方法研究[J]. 现代图书情报技术, 2014(5): 74-82.
[27] (Du Jiazhong, Xu Jian, Liu Ying.Research on Construction of Feature-Sentiment Ontology and Sentiment Analysis[J]. New Technology of Library and Information Service, 2014(5): 74-82.)
[28] 侯银秀, 李伟卿, 王伟军, 等. 基于用户偏好与商品属性情感匹配的图书个性化推荐研究[J]. 数据分析与知识发现, 2017, 1(8): 9-17.
[28] (Hou Yinxiu, Li Weiqing, Wang Weijun, et al.Personalized Book Recommendation Based on User Preferences and Commodity Features[J]. Data Analysis and Knowledge Discovery, 2017, 1(8): 9-17.)
[29] 田久乐, 赵蔚. 基于同义词词林的词语相似度计算方法[J]. 吉林大学学报: 信息科学版, 2010, 28(6): 602-608.
doi: 10.3969/j.issn.1671-5896.2010.06.011
[29] (Tian Jiule, Zhao Wei.Words Similarity Algorithm Based on Tongyici Cilin in Semantic Web Adaptive Learning System[J]. Journal of Jilin University: Information Science Edition, 2010, 28(6): 602-608.)
doi: 10.3969/j.issn.1671-5896.2010.06.011
[30] Song H, Fan Y, Liu X, et al.Extracting Product Features from Online Reviews for Sentimental Analysis[C]// Proceedings of the 6th International Conference on Computer Sciences and Convergence Information Technology. 2011: 745-750.
[31] Jeong H.FEROM: Feature Extraction and Refinement for Opinion Mining[J]. ETRI Journal, 2011, 33(5): 720-730.
doi: 10.4218/etrij.11.0110.0627
[32] Liu B.Sentiment Analysis and Opinion Mining[J]. Synthesis Lectures on Human Language Technologies, 2016, 30(1): 152-153.
doi: 10.1007/978-1-4899-7502-7_907-1
[33] 唐晓波, 兰玉婷. 基于特征本体的微博产品评论情感分析[J]. 图书情报工作, 2016, 60(16): 121-127.
[33] (Tang Xiaobo, Lan Yuting.Study on Evolution Process of Network Information Ecological Chain from the Perspective of Complex Networks[J]. Library and Information Service, 2016, 60(16): 121-127.)
[34] 杨阳, 刘龙飞, 魏现辉, 等. 基于词向量的情感新词发现方法[J]. 山东大学学报: 理学版, 2014, 49(11): 51-58.
doi: 10.6040/j.issn.1671-9352.3.2014.255
[34] (Yang Yang, Liu Longfei, Wei Xianhui, et al.New Methods for Extracting Emotional Words Based on Distributed Representations of Words[J]. Journal of Shandong University: Natural Science, 2014, 49(11): 51-58.)
doi: 10.6040/j.issn.1671-9352.3.2014.255
[35] Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[OL]. arXiv Preprint, arXiv: 1301.3781v3.
[1] Zheng Xinman, Dong Yu. Constructing Degree Lexicon for STI Policy Texts[J]. 数据分析与知识发现, 2021, 5(10): 81-93.
[2] Hua Bin, Wu Nuo, He Xin. Integrating Expert Reviews for Government Information Projects with Knowledge Fusion[J]. 数据分析与知识发现, 2021, 5(10): 124-136.
[3] Xu Hongxia,Yu Qianqian,Qian Li. Studying Content Interaction Data with Topic Model and Sentiment Analysis[J]. 数据分析与知识发现, 2020, 4(7): 110-117.
[4] Cai Jingxuan,Wu Jiang,Wang Chengkun. Predicting Usefulness of Crowd Testing Reports with Deep Learning[J]. 数据分析与知识发现, 2020, 4(11): 102-111.
[5] Hui Nie,Huan He. Identifying Implicit Features with Word Embedding[J]. 数据分析与知识发现, 2020, 4(1): 99-110.
[6] Bocheng Li,Yunqiu Zhang,Kaixi Yang. Extracting Emotion Tags from Comments of Microblog Commodities[J]. 数据分析与知识发现, 2019, 3(9): 115-123.
[7] Gang Li,Huayang Zhou,Jin Mao,Sijing Chen. Classifying Social Media Users with Machine Learning[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
[8] Xiaofeng Li,Jing Ma,Chi Li,Hengmin Zhu. Identifying Commodity Names Based on XGBoost Model[J]. 数据分析与知识发现, 2019, 3(7): 34-41.
[9] Jiao Yan,Jing Ma,Kang Fang. Computing Text Semantic Similarity with Syntactic Network of Co-occurrence Distance[J]. 数据分析与知识发现, 2019, 3(12): 93-100.
[10] Qinghong Zhong,Xiaodong Qiao,Yunliang Zhang,Mengjuan Weng. Cross-media Fusion Method Based on LDA2Vec and Residual Network[J]. 数据分析与知识发现, 2019, 3(10): 78-88.
[11] Guijun Yang,Xue Xu,Fuqiang Zhao. Predicting User Ratings with XGBoost Algorithm[J]. 数据分析与知识发现, 2019, 3(1): 118-126.
[12] Zhou Lixin,Lin Jie. Extracting Product Features with NodeRank Algorithm[J]. 数据分析与知识发现, 2018, 2(4): 90-98.
[13] Huang Xiaoxi,Li Hanyu,Wang Rongbo,Wang Xiaohua,Chen Zhiqun. Recognizing Metaphor with Convolution Neural Network and SVM[J]. 数据分析与知识发现, 2018, 2(10): 77-83.
[14] Li Changbing,Pang Chongpeng,Li Meiping. Extracting Product Features with Weight-based Apriori Algorithm[J]. 数据分析与知识发现, 2017, 1(9): 83-89.
[15] Guo Bo,Li Shouguang,Wang Hao,Zhang Xiaojun,Gong Wei,Yu Zhaojun,Sun Yu. Examining Product Reviews with Sentiment Analysis and Opinion Mining[J]. 数据分析与知识发现, 2017, 1(12): 1-9.
  Copyright © 2016 Data Analysis and Knowledge Discovery   Tel/Fax:(010)82626611-6626,82624938   E-mail:jishu@mail.las.ac.cn