Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (7): 42-51    DOI: 10.11925/infotech.2096-3467.2018.1017
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于用户评论的商品特征提取及特征价格研究 *
文秀贤,徐健()
中山大学资讯管理学院 广州 510006
Research on Product Characteristics Extraction and Hedonic Price Based on User Comments
Xiuxian Wen,Jian Xu()
School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China
全文: PDF(703 KB)   HTML ( 12
输出: BibTeX | EndNote (RIS)      
摘要 

目的】针对特征价格研究缺乏特征选取标准的现状, 基于大规模用户评论, 提出一种商品特征的挖掘与选取方法, 对特征价格研究进行改进和延伸。【方法】提取用户评论的关键词, 通过关键词聚类获取消费者显著偏好的商品特征, 在此基础上建立特征价格模型反映特征价格。为验证模型的科学性和有效性, 以广州在售新楼盘为例进行实证研究。【结果】基于用户评论挖掘出7个消费者显著偏好的楼盘特征, 以此建立的模型拟合优度达0.760, DW统计量为2.013, 楼盘有价特征的用户偏好度和价格影响力的相关系数达0.989。【局限】实验数据来源仅局限于房地产网站。【结论】相比已有研究, 基于用户评论选取特征构建的模型在拟合优度上有一定提高, 能够较准确地评估商品价格, 有效避免特征之间的多重共线性问题, 还能延伸探究消费者的偏好理性, 给企业和消费者行为提供一定的指导依据。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
文秀贤
徐健
关键词 特征价格特征提取用户评论关键词词向量    
Abstract

[Objective] This paper proposes a method to extract product characteristics from user comments, aiming to address the issues facing hedonic price research. [Methods] First, we extracted keywords from user comments. Then, we retrieved the product characteristics favored by consumers through keywords clustering, and established the hedonic price model. Finally, we examined the proposed model with the sales of new properties in Guangzhou. [Results] We found seven real estate characteristics of significant consumer preferences from the user comments. The degree of fitting of the model reached 0.760, the DW statistic was 2.013, and the correlation coefficient between user preferences and price of the real estates was 0.989. [Limitations] The experimental data was collected from real estate website only. [Conclusions] The new model based on users comments could accurately evaluate the price of products. It also helps us effectively avoid multiple collinearity problems between independent variables and further explore business and consumer behaviors.

Key wordsHedonic Price    Characteristic Extraction    User CommentsWord    Keywords    Word Vectors
收稿日期: 2018-09-11     
中图分类号:  G350.7  
基金资助:*本文系广东省自然科学基金项目“情感分歧度量化模型及其应用研究”的研究成果之一(2018A030313981)
通讯作者: 徐健     E-mail: issxj@mail.sysu.edu.cn
引用本文:   
文秀贤,徐健. 基于用户评论的商品特征提取及特征价格研究 *[J]. 数据分析与知识发现, 2019, 3(7): 42-51.
Xiuxian Wen,Jian Xu. Research on Product Characteristics Extraction and Hedonic Price Based on User Comments. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2018.1017.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.1017
图1  基于用户评论的商品特征提取及特征价格分析模型
图2  类簇标签标注流程
图3  各K值下所有词汇距其聚类中心的距离平方和
(注: 距离平方和进行了四舍五入的取整处理。)
图4  7个特征类簇及其体积大小
(注: 类簇体积大小以类簇所包含词汇的个数表示。)
特征 说明
辖区 认为人口密度是衡量某区域居住吸引力的指标, 依据2016年广州市各辖区的常住人口密度, 将广州周边地区(如清远、佛山)编号为1, 广州下辖11区按照常住人口密度越大编号越大的原则编号2-12
地铁 楼盘2km半径范围内的地铁站数量(单位: 个)
户型 由于楼盘是拥有众多户型住宅的集合体, 选取楼盘的最小户型和最大户型分别进行量化(单位: m2)
商业便利设施 楼盘2km为半径范围内的购物点数量、银行数量以及餐饮数量之和(单位: 个)
绿化环境 楼盘自身绿化率, 以百分比表示
学校 楼盘2km为半径范围内的学校数量(单位: 个)
公交 楼盘2km半径范围内的公交站数量(单位: 个)
表1  楼盘特征集
楼盘 价格(元/m2) 辖区编码 最小户型(m2) 最大户型(m2) 地铁站(个) 商业便利设施(个) 绿化率 学校(个) 公交站(个)
金融街融御 60 000 11 135 140 2 75 40% 25 25
路劲天隽峰 25 500 5 96 227 5 75 45% 25 25
珠江金茂府 49 667 9 109 171 9 75 35% 25 25
保利·中航城 23 000 3 79 126 0 26 30% 2 4
表2  特征量化后的楼盘数据(部分)(①完整楼盘数据参见https://pan.baidu.com/s/1CtgNEZIuBVcSIoAQrO_4WA.)
自变量 非标准化系数 标准系数 显著性(双侧) VIF
(常量) 8.840 0.000
辖区(XQ) 0.106 0.560 0.000 2.224
地铁(DT) 0.038 0.237 0.000 1.971
最小户型(XH) 0.002 0.267 0.000 2.121
最大户型(DH) 0.000 -0.028 0.583 2.333
商业便利设施(SY) 0.008 0.198 0.001 3.227
绿化率(LH) 0.057 0.007 0.841 1.278
学校(XX) -0.005 -0.070 0.301 4.265
公交(GJ) -8.751E-005 -0.001 0.985 2.434
模型R2: 0.760 调整后R2: 0.752 Durbin-Watson: 2.013
表3  半对数模型回归结果
图5  回归标准化残差分布直方图
图6  回归标准化残差标准PP图
图7  回归标准化残差散点图
[1] Lancaster K J . A New Approach to Consumer Theory[J]. Journal of Political Economy, 1966,74(2):132-157.
[2] Rosen S . Hedonic Prices and Implicit Markets: Product Differentiation in Pure Competition[J]. Journal of Political Economy, 1974,82(1):34-55.
[3] Laurice J, Bhattacharya R . Prediction Performance of a Hedonic Pricing Model for Housing[J]. The Appraisal Journal, 2005,73(2):198-209.
[4] Belcher R N, Chisholm R A . Tropical Vegetation and Residential Property Value: A Hedonic Pricing Analysis in Singapore[J]. Ecological Economics, 2018,149:149-159.
[5] 袁建文 . 关于房价定价模型的探讨[J]. 统计与决策, 2009(15):10-13.
( Yuan Jianwen . Discussion on the Pricing Model of House Price[J]. Statistics and Decision, 2009(15):10-13.)
[6] 汤庆园, 徐伟, 艾福利 . 基于地理加权回归的上海市房价空间分异及其影响因子研究[J]. 经济地理, 2012,32(2):52-58.
( Tang Qingyuan, Xu Wei, Ai Fuli . A GWR-Based Study on Spatial Patten and Structural Determinants of Shanghai’s Housing Price[J]. Economic Geography, 2012,32(2):52-58.)
[7] 李欣点, 朱恩伟, 刘洪玉 , 等. 城市同质化住房价格空间分布研究——基于半参数特征价格模型的分析[J]. 价格理论与实践, 2018(1):61-64.
( Li Xindian, Zhu Enwei, Liu Hongyu , et al. Spatial Distribution of Constant-quality Housing Price —— Based on a Semi-Parametric Hedonic Pricing Model[J]. Price Theory and Practice, 2018(1):61-64.)
[8] Gibbs C, Guttentag D, Gretzel U , et al. Pricing in the Sharing Economy: A Hedonic Pricing Model Applied to Airbnb Listings[J]. Journal of Travel & Tourism Marketing, 2018,35(1):46-56.
[9] Liebelt V, Bartke S, Schwarz N . Hedonic Pricing Analysis of the Influence of Urban Green Spaces onto Residential Prices: The Case of Leipzig, Germany[J]. European Planning Studies, 2018,26(1):133-157.
[10] 温海珍, 贾生华 . 住宅的特征与特征的价格——基于特征价格模型的分析[J]. 浙江大学学报: 工学版, 2004,38(10):101-105, 112.
( Wen Haizhen, Jia Shenghua . Housing Characteristics and Hedonic Price: Analysis Based on Hedonic Price Model[J]. Journal of Zhejiang University: Engineering Science, 2004,38(10):101-105, 112.)
[11] 蔡真, 汪利娜 . 住宅市场的价格特征: 以北京为例[J]. 金融评论, 2012,4(6):11-33, 121.
( Cai Zhen, Wang Lina . Price Dispersion in Beijing Housing Market: An Estimation Based on Hedonic Method[J]. Chinese Review of Financial Studies, 2012,4(6):11-33, 121.)
[12] Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and Their Compositionality [C]// Proceedings of the 2013 Neural Information Processing Systems. 2013: 3111-3119.
[13] Chen X, Zhang Y, Cao L, et al. An Improved Feature Selection Method for Chinese Short Texts Clustering Based on HowNet [C]// Proceedings of the 2013 International Conference on Computer Engineering and Network. 2014: 635-642.
[14] 常鹏 . 基于词共现的文本主题挖掘模型和算法研究[D]. 天津: 天津大学, 2010.
( Chang Peng . Research on Terms Co-occurrence Based Models and Algorithms for Text Mining[D]. Tianjin: Tianjin University, 2010.)
[15] 彭云, 万常选, 江腾蛟 , 等. 基于语义约束LDA的商品特征和情感词提取[J]. 软件学报, 2017,28(3):676-693.
( Peng Yun, Wan Changxuan, Jiang Tengjiao , et al. Extracting Product Aspects and User Opinions Based on Semantic Constrained LDA Model[J]. Journal of Software, 2017,28(3):676-693.)
[16] Liu Y, Pi D, Cheng Q . Ensemble Kernel Method: SVM Classification Based on Game Theory[J]. Journal of Systems Engineering and Electronics, 2016,27(1):251-259.
[17] 李伟卿, 王伟军 . 基于大规模评论数据的产品特征词典构建方法研究[J]. 数据分析与知识发现, 2018,2(1):41-50.
( Li Weiqing, Wang Weijun . Building Product Feature Dictionary with Large-Scale Review Data[J]. Data Analysis and Knowledge Discovery, 2018,2(1):41-50.)
[18] Comparison of the K-Means and MiniBatchKMeans Clustering Algorithms[EB/OL]. [ 2018- 03- 29]. .
[19] Sculley D. Web-Scale K-Means Clustering[EB/OL]. [ 2018- 03- 29]. .
[20] Sirmans G S, Macpherson D A, Zietz E N . The Composition of Hedonic Pricing Models[J]. Journal of Real Estate Literature, 2005,13(1):3-34.
[1] 曾庆田,胡晓慧,李超. 融合主题词嵌入和网络结构分析的主题关键词提取方法 *[J]. 数据分析与知识发现, 2019, 3(7): 52-60.
[2] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
[3] 张震,曾金. 面向用户评论的关键词抽取研究*——以美团为例[J]. 数据分析与知识发现, 2019, 3(3): 36-44.
[4] 张佩瑶,刘东苏. 基于词向量和BTM的短文本话题演化分析*[J]. 数据分析与知识发现, 2019, 3(3): 95-101.
[5] 杨贵军,徐雪,赵富强. 基于XGBoost算法的用户评分预测模型及应用*[J]. 数据分析与知识发现, 2019, 3(1): 118-126.
[6] 李慧,柴亚青. 基于卷积神经网络的细粒度情感分析方法*[J]. 数据分析与知识发现, 2019, 3(1): 95-103.
[7] 宗红,薛春香,陈芬. 在线新闻评论生长规律研究*[J]. 数据分析与知识发现, 2018, 2(9): 50-58.
[8] 李心蕾,王昊,刘小敏,邓三鸿. 面向微博短文本分类的文本向量化方法比较研究*[J]. 数据分析与知识发现, 2018, 2(8): 41-50.
[9] 黄孝喜,李晗雨,王荣波,王小华,谌志群. 基于卷积神经网络与SVM分类器的隐喻识别*[J]. 数据分析与知识发现, 2018, 2(10): 77-83.
[10] 胡家珩,岑咏华,吴承尧. 基于深度学习的领域情感词典自动构建*——以金融领域为例[J]. 数据分析与知识发现, 2018, 2(10): 95-102.
[11] 李伟卿,王伟军. 基于大规模评论数据的产品特征词典构建方法研究*[J]. 数据分析与知识发现, 2018, 2(1): 41-50.
[12] 李昌兵,庞崇鹏,李美平. 基于权重的Apriori算法在文本统计特征提取方法中的应用*[J]. 数据分析与知识发现, 2017, 1(9): 83-89.
[13] 夏天. 词向量聚类加权TextRank的关键词抽取*[J]. 数据分析与知识发现, 2017, 1(2): 28-34.
[14] 郭博,李守光,王昊,张晓军,龚伟,于昭君,孙宇. 电商评论综合分析系统的设计与实现——情感分析与观点挖掘的研究与应用[J]. 数据分析与知识发现, 2017, 1(12): 1-9.
[15] 翟东升,胡等金,张杰,何喜军,刘鹤. 专利发明等级分类建模技术研究*[J]. 数据分析与知识发现, 2017, 1(12): 63-73.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn