数据分析与知识发现 2018 , 2 (3): 1-8 https://doi.org/10.11925/infotech.2096-3467.2017.0849

研究论文

基于用户生成内容的潜在客户识别方法^*

蒋翠清, 宋凯伦, 丁勇, 刘尧

合肥工业大学管理学院合肥 230009

Identifying Potential Customers Based on User-Generated Contents

Jiang Cuiqing, Song Kailun, Ding Yong, Liu Yao

School of Management, Hefei University of Technology, Hefei 230009, China

中图分类号: C931

通讯作者: 通讯作者:蒋翠清, ORCID: 0000-0001-6492-4550, E-mail: jiangcuiq@163.com。

收稿日期: 2017-08-22

修回日期: 2017-12-12

网络出版日期: 2018-03-25

基金资助: *本文系国家自然科学基金项目“基于社交媒体用户生成内容的产品创新需求发现方法研究”(项目编号: 71571059)和教育部人文社会科学规划基金项目“社会化媒体对企业绩效的影响机制研究” (项目编号: 15YJA630010)的研究成果之一

展开

摘要

【目的】从产品论坛中识别潜在客户, 对产品论坛中的用户生成内容特征进行分析, 识别有购买意愿的产品潜在客户。【方法】将不均衡数据集转换为n个均衡数据集, 结合Stacking分类算法识别潜在客户, 分别使用基分类器算法和本文提出的针对不均衡数据集的Stacking分类算法对样本数据进行测试, 并通过对比F值验证本文算法的有效性。【结果】本文提出的算法的F值较贝叶斯网络、逻辑回归、C4.5决策树、SMO和朴素贝叶斯5种基分类器算法分别提高17.4%、26.5%、24.1%、29.3%、40.9%, 较Stacking、Bagging和Boosting三种集成学习算法分别提高10.1%、5.9%、13.1%。【局限】研究语料来源于汽车行业, 具有一定的领域局限性。【结论】该方法能有效识别潜在客户。

关键词： 用户生成内容 ; 潜在客户识别 ; Stacking分类算法 ; 不均衡数据集

Abstract

[Objective] This paper aims to identify potential customers by analyzing user-generated contents from product-specific online forums. [Methods] First, we converted the unbalanced dataset into multiple balanced subsets. Then, we employed the Stacking classification algorithm to construct identification model. Finally, we compared results of the proposed method with five baseline algorithms. [Results] Compared to the algorithms of Bayesnet, Logistic, C4.5, SMO and Naive Bayes, the F-measure of our method was increased by 17.4%, 26.5%, 24.1%, 29.3%, and 40.9%. Compared to Stacking, Bagging and Boosting methods, our F-measure increased by 10.1%, 5.9%, 13.1%. [Limitations] We only examined performance of the proposed methods with automotive industry. [Conclusions] The proposed method could effectively identify potential customers based on user-generated contents.

Keywords： User-Generated Content ; Potential Customer Identification ; Stacking Classification Algorithm ; Imbalanced Datasets

PDF (601KB) 元数据多维度评价相关文章收藏文章

本文引用格式导出 EndNote Ris Bibtex

蒋翠清, 宋凯伦, 丁勇, 刘尧. 基于用户生成内容的潜在客户识别方法^*[J]. 数据分析与知识发现, 2018, 2(3): 1-8 https://doi.org/10.11925/infotech.2096-3467.2017.0849

Jiang Cuiqing, Song Kailun, Ding Yong, Liu Yao. Identifying Potential Customers Based on User-Generated Contents[J]. Data Analysis and Knowledge Discovery, 2018, 2(3): 1-8 https://doi.org/10.11925/infotech.2096-3467.2017.0849

1 引言

近年来, 随着汽车之家、手机中国等产品在线论坛的普及, 越来越多的用户自发地在各大产品在线论坛分享自己在产品需求、购买喜好以及购买意愿等方面的信息, 这些信息被称为用户生成内容。通过分析用户生成内容, 可以帮助企业识别有购买其产品意愿的潜在客户。然而, 这些用户生成内容通常为非结构化的文本数据, 一词多义和多词同义现象普遍存在; 同时论坛中活跃的用户仅有很少一部分是潜在客户, 潜在客户的稀疏性强, 使得基于用户生成内容的潜在客户识别面临着巨大挑战。本文以社交媒体中的用户生成内容为语料库, 构建基于用户生成内容的潜在客户特征集, 并提出针对不均衡数据集的Stacking分类算法以实现社交媒体环境下潜在客户的快速识别。

2 研究现状

传统环境下, 企业识别潜在客户的方法主要是通过调查问卷、促销活动、邮件广告、电话访谈等方式进行, 这些方法需要投入大量的资金和人力, 并且响应率低, 时效性差。

随着信息技术和市场的发展, 企业存储了大量的客户人口统计学信息和客户历史交易数据等信息, 可以利用这些信息识别潜在客户。Shaw等^[1]提出利用客户人口统计学信息和客户历史交易数据挖掘客户的行为特征和线下购买行为模式以识别潜在客户。魏国华等^[2]通过分析客户的手机业务信息, 抽取月均本地消费金额、市场类别、月均交往圈个数等7个特征变量, 构建C5.0决策树模型识别手机行业的潜在客户。李杏谊^[3]利用决策树算法模型分析保险行业存储的客户个人基本信息和保单信息等, 发掘客户的购买习惯和购买心理以识别潜在目标客户。王昱元^[4]则利用聚类分析对分类算法进行改进, 通过分析客户基本信息和手机业务信息将移动客户细分为不同类型的客户, 再选用C4.5决策树算法作为分类器, 在有潜力办理4G业务的客户簇中预测潜在客户。曹淑鹏等^[5]根据某银行客户的基本信息、资产负债情况和可捕捉行为等建立了43个指标分析客户的基本特征, 并应用决策树模型以识别具有办理信用消费贷款倾向的潜在客户。此外, Ganatra^[6]除利用客户信息挖掘客户购买模式外, 还引入利润率、忠诚度等主观评价指标, 借助序列模式挖掘算法识别潜在客户。这些方法主要依赖于分析各行业现有客户的基本个人信息和历史交易数据, 但是这些数据的获取具有局限性, 难以识别准确的潜在客户。

随着互联网环境下各电子商务网站和企业社交网络的建立, 网站服务器中积累了大量的用户信息。Chang等^[7]通过忠诚客户的购买行为以及忠诚客户和潜在客户的Web日志当中的浏览行为进行聚类和关联分析以识别潜在客户。过蓓蓓等^[8]根据这些信息中记录的客户站点访问时间、页面浏览次数和页面停留时间等信息, 挖掘客户访问页面的浏览模式, 以发现潜在客户的共同行为模式, 进而识别潜在客户。Sun等^[9]结合Web日志中的客户浏览信息提出一种新的SVM算法识别潜在客户。郭林雪^[10]利用关联规则分析网上购车用户的行为特征并找出该类用户的特点, 基于用户的协同过滤算法挖掘寻找与老客户行为特征相似的潜在客户。Hsieh等^[11]则分析用户基于位置的社交网络特征, 结合地理特征和人体移动特征, 利用商店和查询位置之间的空间和时间相关性建立潜在客户估测模型, 以识别在任何地点和任何时间可能出现的商店潜在客户。这些方法能够快速准确地在海量的数据中挖掘出隐藏的客户购买行为模式和规律, 从而辅助企业更好地识别潜在客户。

综上所述, 目前相关研究主要是通过挖掘客户的购买行为和浏览行为识别潜在客户, 而基于用户生成内容挖掘和识别潜在客户的研究尚少。与之相比, 本文将用户生成内容应用到潜在客户识别研究中, 综合考虑用户生成内容的非结构化特征和潜在客户的稀疏性, 构建基于用户生成内容的潜在客户识别模型, 从而识别出产品的潜在客户。

3 基于用户生成内容的潜在客户识别模型

3.1 基于用户生成内容的潜在客户识别框架

本文参考文献[12]构建基于用户生成内容的潜在客户识别框架, 包括两部分, 6个模块, 如图1所示。

显示原图| 下载原图ZIP| 生成PPT

图1 基于用户生成内容的潜在客户识别框架

(1) 模块 1 论坛数据的爬取: 使用爬虫程序“火车采集器”^[13]爬取论坛的用户信息和评论内容。

(2) 模块 2 数据预处理: 将半结构化和非结构化的论坛数据转化为结构化数据, 具体包括数据清理、分词、去停用词、文本向量化等步骤。

(3) 模块 3 人工标注潜在客户和非潜在客户: 将在线评论内容进行人工标注, 判别发表评论的用户是否属于潜在客户, 对潜在客户的在线评论内容标记为1, 非潜在客户的在线评论内容标记为0。

(4) 模块 4 构建潜在客户特征集: 根据论坛用户的人口统计学特征与在线评论内容的文本特征, 构建潜在客户的特征集。

(5) 模块5构建针对不均衡数据集的Stacking分类算法: 根据潜在客户特征集, 构建分类算法。

(6) 模块6识别潜在客户: 使用构建的分类模型识别潜在客户。

3.2 基于用户生成内容的潜在客户的特征集构建和特征抽取

基于用户生成内容进行潜在客户的识别, 其本质是一个分类问题, 其核心是潜在客户的特征选择和抽取。Zheng等^[14]主要运用在线评论中用户的社会特征, 并结合在线评论的文本语言特征、本质特征等评估在线电子商务评论的质量, 认为具有较高声誉的用户与普通用户相比, 更能发表一些高质量的评论; Abrahams等^[15]提取用户生成内容中的语言特征、社会特征、情感特征、产品特征和关键词特征进行产品缺陷识别; Krishnamoorthy^[16]提取在线评论的语言特征、评论元数据相关特征、评论的可读性特征和情感特征预测有用性评论; Liu等^[17]提取在线评论的语言特征、社会特征、关键词特征和语境特征识别产品缺陷。笔者从中发现, 语言特征、情感特征、关键词特征和社会特征使用较为普遍, 并且不同文献中的对于相同特征的命名有所不同。因此, 本文选取在线评论的文体特征、情感特征、关键词特征、行为特征。同时, 为了识别在线评论的潜在客户, 用户的人口统计学信息也很重要。因此, 最终选择评论的文体特征、情感特征、关键词特征、行为特征和用户的人口统计学特征作为潜在客户的特征集。

(1) 当用户有购车需求时, 关注论坛的可能性更大。因此, 潜在客户多为论坛新用户, 并且具有注册时间短、粉丝数少、关注数多等特征, 另外不同地区用户之间的偏好不同。因此, 本文选取用户是否所属某地区、用户的注册时长、用户在论坛中的粉丝数、用户在论坛中的关注数、用户在论坛中的发帖精华数等作为潜在客户的人口统计学特征。

(2) 文体特征通常指文本内容中的字、词、短语或者命名实体的特征和文本内容的句法、词语的词性特征, 它广泛应用于各种文本分类问题中。文献[18,19,20]计算文本内容中每条句子的总字数, 以及每条句子中各个词语出现的频率等作为文本内容的文体特征。通常较长的评论中包含更多有用的信息, 以便潜在客户更好地询问购车建议、表达自己的购买喜好等。此外, 潜在客户发布的评论往往会包含一些特殊类型的词汇和句子^[21]。因此本文计算评论内容中的总字数、各类词性的词语的数量以及汉语标点符号出现的频率作为潜在客户评论内容的文体特征。

(3) 情感特征是用于衡量文本内容中用户的主观情感的特征。Abrahams等^[15]和Xu等^[22]计算文档中积极性词和消极性词出现的频率作为情感特征。通过分析用户在线评论的情感极性, 如“很喜欢这车, 正在准备考虑入手”、“某某车太让我失望了, 计划国庆节订车的, 现在都不敢考虑了, 还是看看其他车算了”。可见, 挖掘用户的购买意向和喜好可以更好地识别潜在客户。因此, 本文将情感特征作为潜在客户分类特征之一。选取中国台湾大学研发的中文情感极性词典NTUSD^[23]。该词典将11 086个词语分为2 810个积极属性词语和8 276个消极属性词语。另外单独构建一个否定词典, 并设置其权值为-1, 当对情感词进行定位后, 根据情感词的正负以及情感词前的否定词判断该评论内容的情感倾向, 作为潜在客户评论内容的情感特征。

(4) 行为特征是指文本内容中包含的行为属性。Zhu等^[24]计算发帖数、评论数、回复数等作为文本内容中包含的行为特征。Oh等^[25]标记发帖时间、回复时间等作为文本内容的行为特征。由于潜在客户一般多为论坛的新用户, 此时潜在客户的总评论数和总发帖数应当较少并且回复时长较短。再结合上述文献, 本文首先提取“总评论数”、“总发帖数”、“回复时长”三个特征。另外本文认为潜在客户为对某类产品或服务存在需求且具备购买能力的客户, 这类客户尚未与本企业或组织发生过交易关系, 但未来极有可能成为本企业或组织的客户。因此汽车之家论坛中, 除本车型以外的认证用户和关注任一车型的用户都有可能是企业的潜在客户, 其次想要购车的潜在客户会加入到各车型的组织或群体中获取更多信息。这三个特征能间接判断用户是否为潜在用户。所以本文另外构建“用户是否认证某车型”、“用户是否关注某车型”、“用户是否所属某车型组织”三个特征, 并与“用户总评论数”、“用户总发帖数”、“用户回复时长”三个特征共同作为潜在客户评论内容的行为特征。

(5) 关键词特征是指文本内容中与领域相关并且能够反映特定信息的特征词。Oh等^[25]和Loughran等^[26]构建金融行业的领域关键词表, 通过计算相应的领域关键词词频, 预测经济的走势和股票的涨停。文献[15, 19, 27-29]证明该特征在产品缺陷识别中具有很好的性能。另外, 通过分析在线评论, 如“不错。车子挺棒的。介绍也挺详细的。打算入手智慧版”、“很好看的车型, 正在考虑买车, 我想要这款, 感觉车很好。”、“裸车多少米啊? 我也想买自动的。”等, 可以发现评论中出现“打算入手”、“考虑买车”、“想要”等关键词的用户, 都可以定义为潜在客户。因此本文计算评论内容中所有词语出现的频率作为潜在客户评论内容的关键词特征。以上所有特征最终构建成含有2 669个特征的潜在客户特征集。

由于潜在客户特征集中的不相关特征和冗余特征会对机器学习算法的性能造成负面影响。另外, 评论内容中的关键词、潜在客户所属地区等分布的不均匀性使得存在一部分特征在潜在客户和非潜在客户发表评论中出现的频率相差较大, 这部分特征对于预测评论是否由潜在客户发布具有很强的指示性。因此, 需要进行有效特征选择, 选择出识别潜在客户的有效特征。

本文依据计算特征集中每个特征与类别的皮尔逊相关系数进行特征选择, 皮尔逊相关系数是一种度量两个变量之间的相关程度的方法, 它的值介于-1和1之间。设置皮尔逊相关系数的阈值为0.01, 最终从特征集中选择出508个与潜在客户类别相关的特征, 构成最终的潜在客户有效特征集。构建的潜在客户有效特征集如表1所示。

表1 潜在客户有效特征集

特征	编号	说明	备注
人口统计学特征	F1-F14	用户是否所属某地区	是为1, 否为0
	F15	用户的注册时长	注册时间到现在的时间差
	F16	用户在论坛中的粉丝数
	F17	用户在论坛中的关注数
	F18	用户在论坛中的发帖精华数
文体特征	F19	评论内容中的总字数
	F20-F26	评论内容中时间词、动词、形容词、副词、普通名词、地点名词以及命名实体的数量	与NLPIR汉语分词包^[30]中汉语词性标记集一致
	F27-29	评论内容中句号、问号和叹号出现的频率	与NLPIR汉语分词包^[30]中汉语词性标记集一致
情感特征	F30	评论内容的情感倾向是否为正面	与中文情感极性词典 NTUSD^[23]一致, 是为1, 否为0
情感特征	F31	评论内容的情感倾向是否为负面	与中文情感极性词典 NTUSD^[23]一致, 是为1, 否为0
行为特征	F32	用户是否认证某车型	是为1, 否为0
	F33	用户是否关注某车型	是为1, 否为0
	F34	用户是否所属某车型组织	是为1, 否为0
	F35	用户总评论数
	F36	用户总发帖数
	F37	用户回复时长	注册时间与回复时间的时间差
关键词特征	F38-F508	关键词出现的词频

新窗口打开

3.3 针对不均衡数据集的Stacking分类算法

Stacking也称为(Stacked Generalization)是Wolpert于1992年提出的分类思想^[31], 主要指在同一个训练集上通过训练n个不同的分类模型得到不同的输出结果, 将这些结果作为输入训练另一个模型, 得到最终的输出。该算法与Bagging算法和Boosting算法的不同之处是Stacking算法使用n个不同类型的分类器, 而Bagging和Boosting算法使用相同类型的分类器。即该算法可以通过使用新的分类器学习前一个分类器所犯的错误, 降低泛化误差, 提高最终分类器的性能。由于在论坛在线评论中, 非潜在客户的数量要远远多于潜在客户, 因此, 得到的数据一般为不均衡数据集, 当直接运用不均衡数据集进行分类实验时, 以总体分类准确率为学习目标的分类算法会过多地关注多数类, 将造成少数类样本的分类性能下降, 无法取得理想的结果。因此, 需要对不均衡数据集进行处理。对于上述问题, 本文提出一种新的针对不均衡数据集的Stacking分类算法。该算法是将不均衡数据分类思想和Stacking算法结合起来, 该算法分为两层, 第一层, 先将数据集按照1︰9的比例分为测试集和训练集, 然后将不均衡数据集转换为n个均衡训练集, 将不均衡训练集中少数类增加到合适的数目, 再将多数类分成和少数类数目相同的数据子集, 并将每个数据子集和少数类合并起来, 构成第一层所需的n个均衡训练集。为该n个均衡训练集分配n个不同的分类器, 通过训练得到n个训练模型, 然后分别使用这些不同的分类器对测试集进行预测。同时在第二层, 将第一层的n个训练模型结果集成起来作为第二层的训练集输入, 将第一层中的测试集在不同基分类器上的预测结果集成起来作为第二层的测试集输入, 并选择合适的核分类算法进行分类测试, 得到最终的输出。

该算法的整体框架如图2所示。

显示原图| 下载原图ZIP| 生成PPT

图2 针对不均衡数据的Stacking分类算法框架

4 实验过程

4.1 实验数据

选取吉利品牌汽车中的博越车型作为实验对象, 所使用的语料数据来源于汽车之家网站^[32], 该网站是全球访问量最大的汽车网站之一。使用网络爬虫程序“火车采集器”^[13]爬取博越车型板块从2016年1月1日至2017年1月1日时间段内所有的评论内容, 共253 580条记录。由于评论的文本信息是本文关注的重点, 因此采集的在线评论内容包括: 用户个人信息、评论时间、评论内容、评论回复数等。相关文献表明, 字数较少的评论包含的有用信息过少^[12,15]。此外, 随机抽样(10 000条样本)分析结果表明, 10字以下的评论中有96.6%的评论内容为语气词、重叠词以及与产品无关的信息, 60字以上的评论中有95.7%的评论内容属于企业为了宣传产品而发表的软文、广告文案及用户购车后的体验报告。因此, 为了保证模型准确率, 本文删除了字数10字以下和60字以上的噪音评论。除此之外, 在汽车之家论坛中, 现实客户通常会进行认证成为该车型的认证用户。因此, 去掉认证本车型的现实客户, 最终随机抽取一万条数据作为实验数据^[29]。

4.2 专家标记和数据预处理

标注环节共有5位专家参与。标注过程对是否为潜在客户发表的在线评论进行判定, “是”潜在客户则标记为1, “否”则标记为0。同时, 对标记过程中发现的“转帖”和广告帖等非用户评论内容予以删除。为了确保标注的准确性, 选取5人均标记为潜在客户的评论内容, 丢弃标记存在歧义的评论内容。最终的人工标注结果中, 共有9 228条评论内容符合条件, 其中标记为潜在客户的评论内容为559条, 标记为非潜在客户的评论内容为8 669条。

数据预处理环节, 使用Java编程, 调用中国科学院计算技术研究所研制的 NLPIR/ICTCLAS 2016版分词包^[30]进行分词, 同时进行词性标注; 完成分词之后, 按照停用词表对评论内容进行去停用词处理, 并计算词性数、标点符号数、字数和词频等特征。

4.3 实验方法

使用数据挖掘WEKA软件^[33]作为实验工具。首先将数据集随机分割成90%的训练集和10%的测试集。在第一层中, 将不均衡训练集中少数的潜在客户类使用随机抽样增加到原先的4倍, 再将多数的潜在客户类分成4组与增加后的潜在客户类相同的数目, 并与潜在客户类合并, 得到4组均衡训练集。为了保证分类器之间的差异性, 选取4种不同的分类器作为第一层的基分类器。该4类分类器分别为: 贝叶斯网络、C4.5决策树、SMO和朴素贝叶斯。第一层, 随机为该4组均衡数据集分配选取的不同基分类器, 通过训练得到4个不同的训练模型, 再分别使用4个分类器对测试集进行预测, 得到4份不同的预测结果; 第二层, 将第一层得到的4个训练模型结果和4份预测结果集成起来, 作为第二层训练集和测试集的输入, 选取逻辑回归作为最终使用的核分类器, 通过对测试集进行预测, 得到最终的结果。

5 实验结果及讨论

对于识别潜在客户来说, 准确率高、召回率低说明许多潜在客户尚未被识别, 而召回率高、准确率低说明识别的潜在客户大部分实际为非潜在客户, 一般情况下, 两者相互制约, 因此, 为了避免上述问题, 在评价指标方面, 本文采用准确率和召回率的调和值即F值(F-measure)进行分类效果的整体评估。F值越高, 说明分类器的分类性能越好^[15]。

为了验证本文分类算法的有效性, 进行4组对比实验, 第一组是分别是与本文使用的5种基分类器进行对比实验, 结果如表2所示。第二组是分别与常见的Stacking集成学习算法、Bagging集成学习算法和Boosting集成学习算法进行比较, 结果如表3所示。

表2 本文算法与基分类器对比实验结果

算法	准确率	召回率	F值
本文算法	72.2%	70.3%	71.2%
贝叶斯网络	67.8%	44.5%	53.8%
逻辑回归	76.0%	31.7%	44.7%
决策树(C4.5)	55.3%	41.0%	47.1%
SMO	82.6%	28.1%	41.9%
朴素贝叶斯	18.9%	76.2%	30.3%

新窗口打开

表3 本文算法与常见集成学习算法对比实验结果

算法	准确率	召回率	F值
本文算法	72.2%	70.3%	71.2%
Stacking集成学习算法	57.8%	64.9%	61.1%
Bagging集成学习算法	65.8%	64.9%	65.3%
Boosting集成学习算法	55.6%	60.8%	58.1%

新窗口打开

从表2可以得出, 所选基分类器处理不均衡数据集时, 贝叶斯网络、逻辑回归、C4.5决策树、SMO和朴素贝叶斯这5种基分类器的F值均低于本文算法。另外, 本文算法在F值上与对照实验中F值最高的贝叶斯网络分类算法相比提高了17.4%, 表明本文算法的整体分类性能要优于基分类器算法。

从表3可以得出, 所提出的针对不均衡数据集的Stacking算法的F值相对于常见的Stacking集成学习算法、Bagging集成学习算法和Boosting集成学习算法的F值有明显的提升, 表明该算法可以有效应用于潜在客户识别中。

6 结语

社交媒体环境下的产品在线论坛网站生成了大量的在线评论等用户生成内容。这些在线评论中包含很多对商家有用的信息, 可以反映出用户的喜好和购买意向。本文将在线评论用于潜在客户识别, 并针对在线评论数据的不均衡问题, 提出针对不均衡数据集的Stacking分类算法。通过对比实验, 该算法可以有效利用用户生成内容进行潜在客户识别, 能有效降低企业获取潜在客户的成本。

本文采用的语料来源于汽车行业, 具有一定的领域局限性。未来将建立领域相关性情感词典和关键词词典, 以提高汽车行业潜在客户识别的精确性。并探索该方法在其他领域的有效性。

作者贡献声明

蒋翠清: 提出研究思路, 设计研究方案;

宋凯伦, 丁勇, 刘尧: 分析数据;

宋凯伦: 进行实验, 起草论文;

蒋翠清, 宋凯伦, 丁勇, 刘尧: 论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: SKarenDYX@126.com。

[1] 蒋翠清, 宋凯伦, 丁勇, 刘尧. P-C-indentification.xls. 潜在客户识别的关联数据.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]	Shaw M J, Subramaniam C, Tan G W, et al. Knowledge Management and Data Mining for Marketing [J]. Decision Support Systems, 2001, 31(1): 127-137. https://doi.org/10.1016/S0167-9236(00)00123-8 URL [本文引用: 1] 摘要 An abstract is not available.
[2]	魏国华, 康志英. 以客户需求为导向的定制终端潜在客户挖掘模型研究 [J]. 信息安全与技术, 2014, 5(3): 79-81. https://doi.org/10.3969/j.issn.1674-9456.2014.03.027 URL [本文引用: 1] 摘要本文设计了以客户需求为导向的定制终端潜在客户挖掘模型,不仅要有效地挖掘出有换机需求的潜在客户,同时根据各类用户的特征,为其匹配相应价位的终端,并通过市场部门在第一时间向用户开展主动营销,提升终端销量及用户消费能力. (Wei Guohua, Kang Zhiying. Research on the Model of Mining Customer Demand Potential Customers Customized Terminal [J]. Information Security & Technology, 2014, 5(3): 79-81.) https://doi.org/10.3969/j.issn.1674-9456.2014.03.027 URL [本文引用: 1] 摘要本文设计了以客户需求为导向的定制终端潜在客户挖掘模型,不仅要有效地挖掘出有换机需求的潜在客户,同时根据各类用户的特征,为其匹配相应价位的终端,并通过市场部门在第一时间向用户开展主动营销,提升终端销量及用户消费能力.
[3]	李杏谊. 数据挖掘技术在保险行业目标客户识别中的应用研究 [D]. 广州: 中山大学, 2014. [本文引用: 1] (Li Xingyi. Study on Application of Data Mining Technology in Insurance Target Customer Identification [D]. Guangzhou: Sun Yat-Sen University, 2014.) [本文引用: 1]
[4]	王昱元. 基于数据挖掘的移动客户预测及分析 [D]. 西安: 长安大学, 2016. [本文引用: 1] (Wang Yuyuan. Prediction and Analysis of China Mobile Customers Based on Data Mining [D]. Xi’an: Chang’an University, 2016.) [本文引用: 1]
[5]	曹淑鹏, 蒋竹, 严美艺. 运用决策树模型识别信用消费贷款潜在客户研究 [J]. 北京金融评论, 2016(2): 36-53. [本文引用: 1] (Cao Shupeng, Jiang Zhu, Yan Meiyi. Application of Decision Tree Model to Identify Potential Customers of Credit Consumption Loan [J]. Beijing Review of Financial Studies, 2016(2): 36-53.) [本文引用: 1]
[6]	Ganatra A. Draw Attention to Potential Customer with the Help of Subjective Measures in Sequential Pattern Mining (SPM) Approach [C]// Proceedings of the International Conference on Recent Trends in Information, Telecommunication and Computing. 2014. [本文引用: 1]
[7]	Chang H J, Hung L P, Ho C L. An Anticipation Model of Potential Customers’ Purchasing Behavior Based on Clustering Analysis and Association Rules Analysis [J]. Expert Systems with Applications, 2007, 32(3): 753-764. https://doi.org/10.1016/j.eswa.2006.01.049 URL [本文引用: 1] 摘要 This paper proposes an anticipation model of potential customers’ purchasing behavior. This model is inferred from past purchasing behavior of loyal customers and the web server log files of loyal and potential customers by means of clustering analysis and association rules analysis. Clustering analysis collects key characteristics of loyal customers’ personal information; these are used to locate other potential customers. Association rules analysis extracts knowledge of loyal customers’ purchasing behavior, which is used to detect potential customers’ near-future interest in a star product. Despite using offline analysis to filter out potential customers based on loyal customers’ personal information and generate rules of loyal customers’ click streams based on loyal customers’ web log data, an online analysis which observes potential customers’ web logs and compares it with loyal customers’ click stream rules can more readily target potential customers who may be interested in the star products in the near future.
[8]	过蓓蓓, 方兆本. 基于SVM的Web日志挖掘及潜在客户发现 [J]. 管理工程学报, 2010, 24(1): 129-133. [本文引用: 1] (Guo Beibei, Fang Zhaoben. Application of SVM in Mining Potential Customers from Web Log [J]. Journal of Industrial Engineering & Engineering Management, 2010, 24(1): 129-133.) [本文引用: 1]
[9]	Sun L, Duan Z. Web Potential Customer Classification Based on SVM [C]// Proceedings of the 2012 International Conference on Industrial Control and Electronics Engineering. 2012: 568-570. [本文引用: 1]
[10]	郭林雪. 关联规则及协同过滤在汽车电子商务中的应用 [J]. 科技经济导刊, 2017(8): 31. [本文引用: 1] (Guo Linxue. Application of Association Rules and Collaborative Filtering in Automotive E-commerce [J]. Technology and Economic Guide, 2017(8): 31.) [本文引用: 1]
[11]	Hsieh H P, Li C T, Lin S D.Estimating Potential Customers Anywhere and Anytime Based on Location-Based Social Networks[A]// Machine Learning and Knowledge Discovery in Databases[M]. Springer International Publishing, 2015. [本文引用: 1]
[12]	蒋翠清, 王齐林, 刘士喜, 等. 中文社会媒体环境下半监督学习的汽车缺陷识别方法 [J]. 中国管理科学, 2014(S1): 677-685. [本文引用: 2] (Jiang Cuiqing, Wang Qilin, Liu Shixi, et al. Semi-supervised Learning for Automobile Defect Identification in the Context of Chinese Social Media [J]. Chinese Journal of Management Science, 2014(S1): 677-685.) [本文引用: 2]
[13]	火车采集器 [CP/OL]. [2016-11-04]. . URL [本文引用: 2] ( LocoySpider [CP/OL]. [2016-11-04]. URL [本文引用: 2]
[14]	Zheng X, Zhu S, Lin Z. Capturing the Essence of Word-of- Mouth for Social Commerce: Assessing the Quality of Online E-Commerce Reviews by a Semi-Supervised Approach [J]. Decision Support Systems, 2013, 56(1): 211-222. https://doi.org/10.1016/j.dss.2013.06.002 URL [本文引用: 1] 摘要 In e-commerce, online product reviews significantly influence the purchase decisions of buyers and the marketing strategies employed by vendors. However, the abundance of reviews and their uneven quality make distinguishing between useful and useless reviews difficult for potential customers, thereby diminishing the benefits of online review systems. To address this problem, we develop a semi-supervised system called Online Review Quality Mining (ORQM). Embedded with independent component analysis and semi-supervised ensemble learning, ORQM exploits two opportunities: the improvement of classification performance through the use of a few labeled instances and numerous unlabeled instances, and the effectiveness of the social characteristics of e-commerce communities as identifiers of influential reviewers who write high-quality reviews. Three complementary experiments on datasets from Amazon.com show that ORQM exhibits remarkably higher performance in classifying reviews of different quality levels than do other well-accepted state-of-the-art text mining methods. The high performance of ORQM is also consistent and stable even under limited availability of labeled instances, thereby outperforming other baseline methods. The experiments also reveal that (1) the social features of reviewers are important in deriving better classification results; (2) classification results are affected by product type given the different purchase habits of consumers; and (3) reviews are contingent on the inherent nature of products, such as whether they are search goods or experience goods, and digital products or physical products, through which purchase decisions are influenced. (C) 2013 Elsevier B.V. All rights reserved.
[15]	Abrahams A S, Fan W, Wang G A, et al. An Integrated Text Analytic Framework for Product Defect Discovery [J]. Production & Operations Management, 2015, 24(6): 975-990. https://doi.org/10.1111/poms.12303 URL [本文引用: 4] 摘要 The recent surge in the usage of social media has created an enormous amount of user-generated content (UGC). While there are streams of research that seek to mine UGC, these research studies seldom tackle analysis of this textual content from a quality management perspective. In this study, we synthesize existing research studies on text mining and propose an integrated text analytic framework for product defect discovery. The framework effectively leverages rich social media content and quantifies the text using various automatically extracted signal cues. These extracted signal cues can then be used as modeling inputs for product defect discovery. We showcase the usefulness of the framework by performing product defect discovery using UGC in both the automotive and the consumer electronics domains. We use principal component analysis and logistic regression to produce a multivariate explanatory analysis relating defects to quantitative measures derived from text. For our samples, we find that a selection of distinctive terms, product features, and semantic factors are strong indicators of defects, whereas stylistic, social, and sentiment features are not. For high sales volume products, we demonstrate that significant corporate value is derivable from a reduction in defect discovery time and consequently defective product units in circulation.
[16]	Krishnamoorthy S. Linguistic Features for Review Helpfulness Prediction [J]. Expert Systems with Applications, 2015, 42(7): 3751-3759. https://doi.org/10.1016/j.eswa.2014.12.044 URL [本文引用: 1] 摘要 Online reviews play a critical role in customer purchase decision making process on the web. The reviews are often ranked based on user helpfulness votes to minimize the review information overload problem. This paper examines the factors that contribute towards helpfulness of online reviews and builds a predictive model. The proposed predictive model extracts novel linguistic category features by analysing the textual content of reviews. In addition, the model makes use of review metadata, subjectivity and readability related features for helpfulness prediction. Our experimental analysis on two real-life review datasets reveals that a hybrid set of features deliver the best predictive accuracy. We also show that the proposed linguistic category features are better predictors of review helpfulness for experience goods such as books, music, and video games. The findings of this study can provide new insights to e-commerce retailers for better organization and ranking of online reviews and help customers in making better product choices.
[17]	Liu Y, Jiang C, Zhao H, et al. Using Contextual Features and Multi-view Ensemble Learning in Product Defect Identification from Online Discussion Forums [J]. Decision Support Systems, 2018, 105: 1-12. https://doi.org/10.1016/j.dss.2017.10.009 URL [本文引用: 1] 摘要 As social media are continually gaining more popularity, they have become an important source for manufacturers to collect information related to defects on their products from consumers. Researchers have started to develop automated models to identify mentions of product defects from social media, such as online discussion forums. In this paper, we propose a novel method for product defect identification from online forums, addressing two inadequacies in previous studies, namely, the inadequate use of information contained in replies and the straightforward use of standard single classifier methods. Our method incorporates contextual features derived from replies and uses a multi-view ensemble learning method specifically tailored to the problem on hand. A case study in the automotive industry demonstrates the utilities of both novelties in our method.
[18]	Abbasi A, Chen H. CyberGate: A Design Framework and System for Text Analysis of Computer-Mediated Communication [J]. MIS Quarterly, 2008, 32(4): 811-837. https://doi.org/10.2307/25148873 URL [本文引用: 1] 摘要 Content analysis of computer-mediated communication (CMC) is important for evaluating the effectiveness of electronic communication in various organizational settings. CMC text analysis relies on systems capable of providing suitable navigation and knowledge discovery functionalities. However, existing CMC systems focus on structural features, with little support for features derived from message text. This deficiency is attributable to the informational richness and representational complexities associated with CMC text. In order to address this shortcoming, we propose a design framework for CMC text analysis systems. Grounded in systemic functional linguistic theory, the proposed framework advocates the development of systems capable of representing the rich array of information types inherent in CMC text. It also provides guidelines regarding the choice of features, feature selection, and visualization techniques that CMC text analysis systems should employ. The CyberGate system was developed as an instantiation of the design framework. CyberGate incorporates a rich feature set and complementary feature selection and visualization methods, including the writeprints and ink blots techniques. An application example was used to illustrate the system's ability to discern important patterns in CMC text. Furthermore, results from numerous experiments conducted in comparison with benchmark methods confirmed the viability of CyberGate's features and techniques. The results revealed that the CyberGate system and its underlying design framework can dramatically improve CMC text analysis capabilities over those provided by existing systems.
[19]	Abrahams A S, Jiao J, Fan W, et al. What’s Buzzing in the Blizzard of Buzz? Automotive Component Isolation in Social Media Postings [J]. Decision Support Systems, 2013, 55(4): 871-882. https://doi.org/10.1016/j.dss.2012.12.023 URL [本文引用: 1] 摘要 In the blizzard of social media postings, isolating what is important to a corporation is a huge challenge. In the consumer-related manufacturing industry, for instance, manufacturers and distributors are faced with an unrelenting, accumulating snow of millions of discussion forum postings. In this paper, we describe and evaluate text mining tools for categorizing this user-generated content and distilling valuable intelligence frozen in the mound of postings. Using the automotive industry as an example, we implement and tune the parameters of a text-mining model for component diagnostics from social media. Our model can automatically and accurately isolate the vehicle component that is the subject of a user discussion. The procedure described also rapidly identifies the most distinctive terms for each component category, which provides further marketing and competitive intelligence to manufacturers, distributors, service centers, and suppliers. (c) 2012 Elsevier B.V. All rights reserved.
[20]	Lee S, Choeh J Y. Predicting the Helpfulness of Online Reviews Using Multilayer Perceptron Neural Networks [J]. Expert Systems with Applications, 2014, 41(6): 3041-3046. https://doi.org/10.1016/j.eswa.2013.10.034 URL [本文引用: 1] 摘要 With the great development of e-commerce, users can create and publish a wealth of product information through electronic communities. It is difficult, however, for manufacturers to discover the best reviews and to determine the true underlying quality of a product due to the sheer volume of reviews available for a single product. The goal of this paper is to develop models for predicting the helpfulness of reviews, providing a tool that finds the most helpful reviews of a given product. This study intends to propose HPNN (a helpfulness prediction model using a neural network), which uses a back-propagation multilayer perceptron neural network (BPN) model to predict the level of review helpfulness using the determinants of product data, the review characteristics, and the textual characteristics of reviews. The prediction accuracy of HPNN was better than that of a linear regression analysis in terms of the mean-squared error. HPNN can suggest better determinants which have a greater effect on the degree of helpfulness. The results of this study will identify helpful online reviews and will effectively assist in the design of review sites.
[21]	Almagrabi H, Malibari A, McNaught J. A Survey of Quality Prediction of Product Reviews [J]. International Journal of Advanced Computer Science & Applications, 2015, 6(11): 49-58. https://doi.org/10.14569/IJACSA.2015.061107 URL [本文引用: 1] 摘要 With the help of Web-2.0, the Internet offers a vast amount of reviews on many topics and in different domains. This has led to an explosive growth of product reviews and customer feedback, which presents the problem of how to handle the abundant volume of data. It is an expensive and time-consuming task to analyze this huge content of opinions. Therefore, the need for automated sentiment analysis systems is vital. However, these systems encounter many challenges; assessing the content quality of the posted opinions is an important area of study that is related to sentiment analysis. Currently, review helpfulness is assessed manually; however the task of automatically assessing it has gained more attention in recent years. This paper provides a survey of approaches to the challenge of identifying the content quality of product reviews.
[22]	Xu N, Liu H, Chen J, et al. Selecting a Representative Set of Diverse Quality Reviews Automatically [C]// Proceedings of the 2014 SIAM International Conference on Data Mining. 2014. [本文引用: 1]
[23]	NTUSD [OL]. [2017-01-05]. . URL [本文引用: 3]
[24]	Zhu F, Zhang X. Impact of Online Consumer Reviews on Sales: The Moderating Role of Product and Consumer Characteristics [J]. Journal of Marketing, 2010, 74(2): 133-148. https://doi.org/10.1509/jmkg.74.2.133 URL [本文引用: 1] 摘要 This article examines how product and consumer characteristics moderate the influence of online consumer reviews on product sales using data from the video game industry. The findings indicate that online reviews are more influential for less popular games and games whose players have greater Internet experience. The article shows differential impact of consumer reviews across products in the same product category and suggests that firms' online marketing strategies should be contingent on product and consumer characteristics. The authors discuss the implications of these results in light of the increased share of niche products in recent years.
[25]	Oh C, Sheng O. Investigating Predictive Power of Stock Micro Blog Sentiment in Forecasting Future Stock Price Directional Movement [C]// Proceedings of the Annual International Conference on Information Systems. 2011. [本文引用: 2]
[26]	Loughran T, McDonald B. When is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10-Ks [J]. Journal of Finance, 2011, 66(1): 35-65. https://doi.org/10.1111/j.1540-6261.2010.01625.x URL [本文引用: 1] 摘要 ABSTRACT Previous research uses negative word counts to measure the tone of a text. We show that word lists developed for other disciplines misclassify common words in financial text. In a large sample of 10-Ks during 1994 to 2008, almost three-fourths of the words identified as negative by the widely used Harvard Dictionary are words typically not considered negative in financial contexts. We develop an alternative negative word list, along with five other word lists, that better reflect tone in financial text. We link the word lists to 10-K filing returns, trading volume, return volatility, fraud, material weakness, and unexpected earnings.
[27]	Abrahams A S, Jiao J, Wang G A, et al. Vehicle Defect Discovery from Social Media [J]. Decision Support Systems, 2012, 54(1): 87-97. https://doi.org/10.1016/j.dss.2012.04.005 URL 摘要 78 Online auto enthusiast forums contain many postings relating to vehicle defects. 78 Therefore, social media analytics for vehicle quality management should be explored. 78 We find that sentiment analysis is not effective for identifying vehicle defects. 78 We propose a novel Vehicle Defect Discovery System (VDDS) using text mining. 78 Results show robust defect classification across multiple vehicle brands.
[28]	Law D, Gruss R, Abrahams A S. Automated Defect Discovery for Dishwasher Appliances from Online Consumer Reviews [J]. Expert Systems with Applications, 2017, 67: 84-94. https://doi.org/10.1016/j.eswa.2016.08.069 URL 摘要 Product defects can have a devastating impact on a firm's sales and reputation, especially in the era of social media. The early detection of defects could not only protect consumers from financial losses, but could also mitigate financial damage to the manufacturer. Previous work in automated defect discovery has had success in the automotive, consumer electronics, and toy industries, but so far there has been no application to home appliances. In this study, we extend the text analytic framework conceived in earlier work to the discovery of underperformance in large home appliances, specifically dishwashers. We find that generic cross-domain sentiment techniques can be strongly complemented by domain-specific “smoke” and “sparkle” term lists that are highly correlated with potential defects. These findings can be highly beneficial to improving dishwasher appliance quality management methods.
[29]	Winkler M, Abrahams A S, Gruss R, et al. Toy Safety Surveillance from Online Reviews [J]. Decision Support Systems, 2016, 90: 23-32. https://doi.org/10.1016/j.dss.2016.06.016 URL PMID: 5145195 [本文引用: 1] 摘要 Toy-related injuries account for a significant number of childhood injuries and the prevention of these injuries remains a goal for regulatory agencies and manufacturers. Text-mining is an increasingly prevalent method for uncovering the significance of words using big data. This research sets out to determine the effectiveness of text-mining in uncovering potentially dangerous children's toys. We develop a danger word list, also known as a “smoke word” list, from injury and recall text narratives. We then use the smoke word lists to score over one million Amazon reviews, with the top scores denoting potential safety concerns. We compare the smoke word list to conventional sentiment analysis techniques, in terms of both word overlap and effectiveness. We find that smoke word lists are highly distinct from conventional sentiment dictionaries and provide a statistically significant method for identifying safety concerns in children's toy reviews. Our findings indicate that text-mining is, in fact, an effective method for the surveillance of safety concerns in children's toys and could be a gateway to effective prevention of toy product-related injuries.
[30]	NLPIR [OL]. [2017-01-10]. . URL [本文引用: 3]
[31]	Wolpert D H. Stacked Generalization [M]. Springer US, 2011. [本文引用: 1]
[32]	汽车之家 [OL]. [2016-11-14]. . URL [本文引用: 1] ( AutoHome [OL]. [2016-11-14]. URL [本文引用: 1]
[33]	WEKA [K/OL]. [2017-01-18]. . URL [本文引用: 1]

Knowledge Management and Data Mining for Marketing

2001

... 随着信息技术和市场的发展, 企业存储了大量的客户人口统计学信息和客户历史交易数据等信息, 可以利用这些信息识别潜在客户.Shaw等^[1]提出利用客户人口统计学信息和客户历史交易数据挖掘客户的行为特征和线下购买行为模式以识别潜在客户.魏国华等^[2]通过分析客户的手机业务信息, 抽取月均本地消费金额、市场类别、月均交往圈个数等7个特征变量, 构建C5.0决策树模型识别手机行业的潜在客户.李杏谊^[3]利用决策树算法模型分析保险行业存储的客户个人基本信息和保单信息等, 发掘客户的购买习惯和购买心理以识别潜在目标客户.王昱元^[4]则利用聚类分析对分类算法进行改进, 通过分析客户基本信息和手机业务信息将移动客户细分为不同类型的客户, 再选用C4.5决策树算法作为分类器, 在有潜力办理4G业务的客户簇中预测潜在客户.曹淑鹏等^[5]根据某银行客户的基本信息、资产负债情况和可捕捉行为等建立了43个指标分析客户的基本特征, 并应用决策树模型以识别具有办理信用消费贷款倾向的潜在客户.此外, Ganatra^[6]除利用客户信息挖掘客户购买模式外, 还引入利润率、忠诚度等主观评价指标, 借助序列模式挖掘算法识别潜在客户.这些方法主要依赖于分析各行业现有客户的基本个人信息和历史交易数据, 但是这些数据的获取具有局限性, 难以识别准确的潜在客户. ...

以客户需求为导向的定制终端潜在客户挖掘模型研究

2014

以客户需求为导向的定制终端潜在客户挖掘模型研究

2014

数据挖掘技术在保险行业目标客户识别中的应用研究

2014

数据挖掘技术在保险行业目标客户识别中的应用研究

2014

基于数据挖掘的移动客户预测及分析

2016

基于数据挖掘的移动客户预测及分析

2016

运用决策树模型识别信用消费贷款潜在客户研究

2016

运用决策树模型识别信用消费贷款潜在客户研究

2016

Draw Attention to Potential Customer with the Help of Subjective Measures in Sequential Pattern Mining (SPM) Approach

2014

An Anticipation Model of Potential Customers’ Purchasing Behavior Based on Clustering Analysis and Association Rules Analysis

2007

... 随着互联网环境下各电子商务网站和企业社交网络的建立, 网站服务器中积累了大量的用户信息.Chang等^[7]通过忠诚客户的购买行为以及忠诚客户和潜在客户的Web日志当中的浏览行为进行聚类和关联分析以识别潜在客户.过蓓蓓等^[8]根据这些信息中记录的客户站点访问时间、页面浏览次数和页面停留时间等信息, 挖掘客户访问页面的浏览模式, 以发现潜在客户的共同行为模式, 进而识别潜在客户.Sun等^[9]结合Web日志中的客户浏览信息提出一种新的SVM算法识别潜在客户.郭林雪^[10]利用关联规则分析网上购车用户的行为特征并找出该类用户的特点, 基于用户的协同过滤算法挖掘寻找与老客户行为特征相似的潜在客户.Hsieh等^[11]则分析用户基于位置的社交网络特征, 结合地理特征和人体移动特征, 利用商店和查询位置之间的空间和时间相关性建立潜在客户估测模型, 以识别在任何地点和任何时间可能出现的商店潜在客户.这些方法能够快速准确地在海量的数据中挖掘出隐藏的客户购买行为模式和规律, 从而辅助企业更好地识别潜在客户. ...

基于SVM的Web日志挖掘及潜在客户发现

2010

基于SVM的Web日志挖掘及潜在客户发现

2010

Web Potential Customer Classification Based on SVM

2012

关联规则及协同过滤在汽车电子商务中的应用

2017

关联规则及协同过滤在汽车电子商务中的应用

2017

2015

中文社会媒体环境下半监督学习的汽车缺陷识别方法

2014

... 本文参考文献[12]构建基于用户生成内容的潜在客户识别框架, 包括两部分, 6个模块, 如图1所示. ...

... 选取吉利品牌汽车中的博越车型作为实验对象, 所使用的语料数据来源于汽车之家网站^[32], 该网站是全球访问量最大的汽车网站之一.使用网络爬虫程序“火车采集器”^[13]爬取博越车型板块从2016年1月1日至2017年1月1日时间段内所有的评论内容, 共253 580条记录.由于评论的文本信息是本文关注的重点, 因此采集的在线评论内容包括: 用户个人信息、评论时间、评论内容、评论回复数等.相关文献表明, 字数较少的评论包含的有用信息过少^[12,15].此外, 随机抽样(10 000条样本)分析结果表明, 10字以下的评论中有96.6%的评论内容为语气词、重叠词以及与产品无关的信息, 60字以上的评论中有95.7%的评论内容属于企业为了宣传产品而发表的软文、广告文案及用户购车后的体验报告.因此, 为了保证模型准确率, 本文删除了字数10字以下和60字以上的噪音评论.除此之外, 在汽车之家论坛中, 现实客户通常会进行认证成为该车型的认证用户.因此, 去掉认证本车型的现实客户, 最终随机抽取一万条数据作为实验数据^[29]. ...

中文社会媒体环境下半监督学习的汽车缺陷识别方法

2014

... 本文参考文献[12]构建基于用户生成内容的潜在客户识别框架, 包括两部分, 6个模块, 如图1所示. ...

火车采集器

2016

... (1) 模块 1 论坛数据的爬取: 使用爬虫程序“火车采集器”^[13]爬取论坛的用户信息和评论内容. ...

火车采集器

2016

... (1) 模块 1 论坛数据的爬取: 使用爬虫程序“火车采集器”^[13]爬取论坛的用户信息和评论内容. ...

Capturing the Essence of Word-of- Mouth for Social Commerce: Assessing the Quality of Online E-Commerce Reviews by a Semi-Supervised Approach

2013

... 基于用户生成内容进行潜在客户的识别, 其本质是一个分类问题, 其核心是潜在客户的特征选择和抽取.Zheng等^[14]主要运用在线评论中用户的社会特征, 并结合在线评论的文本语言特征、本质特征等评估在线电子商务评论的质量, 认为具有较高声誉的用户与普通用户相比, 更能发表一些高质量的评论; Abrahams等^[15]提取用户生成内容中的语言特征、社会特征、情感特征、产品特征和关键词特征进行产品缺陷识别; Krishnamoorthy^[16]提取在线评论的语言特征、评论元数据相关特征、评论的可读性特征和情感特征预测有用性评论; Liu等^[17]提取在线评论的语言特征、社会特征、关键词特征和语境特征识别产品缺陷.笔者从中发现, 语言特征、情感特征、关键词特征和社会特征使用较为普遍, 并且不同文献中的对于相同特征的命名有所不同.因此, 本文选取在线评论的文体特征、情感特征、关键词特征、行为特征.同时, 为了识别在线评论的潜在客户, 用户的人口统计学信息也很重要.因此, 最终选择评论的文体特征、情感特征、关键词特征、行为特征和用户的人口统计学特征作为潜在客户的特征集. ...

An Integrated Text Analytic Framework for Product Defect Discovery

2015

... (3) 情感特征是用于衡量文本内容中用户的主观情感的特征.Abrahams等^[15]和Xu等^[22]计算文档中积极性词和消极性词出现的频率作为情感特征.通过分析用户在线评论的情感极性, 如“很喜欢这车, 正在准备考虑入手”、“某某车太让我失望了, 计划国庆节订车的, 现在都不敢考虑了, 还是看看其他车算了”.可见, 挖掘用户的购买意向和喜好可以更好地识别潜在客户.因此, 本文将情感特征作为潜在客户分类特征之一.选取中国台湾大学研发的中文情感极性词典NTUSD^[23].该词典将11 086个词语分为2 810个积极属性词语和8 276个消极属性词语.另外单独构建一个否定词典, 并设置其权值为-1, 当对情感词进行定位后, 根据情感词的正负以及情感词前的否定词判断该评论内容的情感倾向, 作为潜在客户评论内容的情感特征. ...

... 对于识别潜在客户来说, 准确率高、召回率低说明许多潜在客户尚未被识别, 而召回率高、准确率低说明识别的潜在客户大部分实际为非潜在客户, 一般情况下, 两者相互制约, 因此, 为了避免上述问题, 在评价指标方面, 本文采用准确率和召回率的调和值即F值(F-measure)进行分类效果的整体评估.F值越高, 说明分类器的分类性能越好^[15]. ...

Linguistic Features for Review Helpfulness Prediction

2015

Using Contextual Features and Multi-view Ensemble Learning in Product Defect Identification from Online Discussion Forums

2018

CyberGate: A Design Framework and System for Text Analysis of Computer-Mediated Communication

2008

... (2) 文体特征通常指文本内容中的字、词、短语或者命名实体的特征和文本内容的句法、词语的词性特征, 它广泛应用于各种文本分类问题中.文献[18,19,20]计算文本内容中每条句子的总字数, 以及每条句子中各个词语出现的频率等作为文本内容的文体特征.通常较长的评论中包含更多有用的信息, 以便潜在客户更好地询问购车建议、表达自己的购买喜好等.此外, 潜在客户发布的评论往往会包含一些特殊类型的词汇和句子^[21].因此本文计算评论内容中的总字数、各类词性的词语的数量以及汉语标点符号出现的频率作为潜在客户评论内容的文体特征. ...

What’s Buzzing in the Blizzard of Buzz? Automotive Component Isolation in Social Media Postings

2013

Predicting the Helpfulness of Online Reviews Using Multilayer Perceptron Neural Networks

2014

McNaught J. A Survey of Quality Prediction of Product Reviews

2015

Selecting a Representative Set of Diverse Quality Reviews Automatically

2014

NTUSD

2017

... 潜在客户有效特征集

特征	编号	说明	备注
人口统计学特征	F1-F14	用户是否所属某地区	是为1, 否为0
	F15	用户的注册时长	注册时间到现在的时间差
	F16	用户在论坛中的粉丝数
	F17	用户在论坛中的关注数
	F18	用户在论坛中的发帖精华数
文体特征	F19	评论内容中的总字数
	F20-F26	评论内容中时间词、动词、形容词、副词、普通名词、地点名词以及命名实体的数量	与NLPIR汉语分词包^[30]中汉语词性标记集一致
	F27-29	评论内容中句号、问号和叹号出现的频率	与NLPIR汉语分词包^[30]中汉语词性标记集一致
情感特征	F30	评论内容的情感倾向是否为正面	与中文情感极性词典 NTUSD^[23]一致, 是为1, 否为0
情感特征	F31	评论内容的情感倾向是否为负面	与中文情感极性词典 NTUSD^[23]一致, 是为1, 否为0
行为特征	F32	用户是否认证某车型	是为1, 否为0
	F33	用户是否关注某车型	是为1, 否为0
	F34	用户是否所属某车型组织	是为1, 否为0
	F35	用户总评论数
	F36	用户总发帖数
	F37	用户回复时长	注册时间与回复时间的时间差
关键词特征	F38-F508	关键词出现的词频

3.3 针对不均衡数据集的Stacking分类算法

Stacking也称为(Stacked Generalization)是Wolpert于1992年提出的分类思想^[31], 主要指在同一个训练集上通过训练n个不同的分类模型得到不同的输出结果, 将这些结果作为输入训练另一个模型, 得到最终的输出.该算法与Bagging算法和Boosting算法的不同之处是Stacking算法使用n个不同类型的分类器, 而Bagging和Boosting算法使用相同类型的分类器.即该算法可以通过使用新的分类器学习前一个分类器所犯的错误, 降低泛化误差, 提高最终分类器的性能.由于在论坛在线评论中, 非潜在客户的数量要远远多于潜在客户, 因此, 得到的数据一般为不均衡数据集, 当直接运用不均衡数据集进行分类实验时, 以总体分类准确率为学习目标的分类算法会过多地关注多数类, 将造成少数类样本的分类性能下降, 无法取得理想的结果.因此, 需要对不均衡数据集进行处理.对于上述问题, 本文提出一种新的针对不均衡数据集的Stacking分类算法.该算法是将不均衡数据分类思想和Stacking算法结合起来, 该算法分为两层, 第一层, 先将数据集按照1︰9的比例分为测试集和训练集, 然后将不均衡数据集转换为n个均衡训练集, 将不均衡训练集中少数类增加到合适的数目, 再将多数类分成和少数类数目相同的数据子集, 并将每个数据子集和少数类合并起来, 构成第一层所需的n个均衡训练集.为该n个均衡训练集分配n个不同的分类器, 通过训练得到n个训练模型, 然后分别使用这些不同的分类器对测试集进行预测.同时在第二层, 将第一层的n个训练模型结果集成起来作为第二层的训练集输入, 将第一层中的测试集在不同基分类器上的预测结果集成起来作为第二层的测试集输入, 并选择合适的核分类算法进行分类测试, 得到最终的输出. ...

... [23]一致, 是为1, 否为0 行为特征 F32 用户是否认证某车型是为1, 否为0 F33 用户是否关注某车型是为1, 否为0 F34 用户是否所属某车型组织是为1, 否为0 F35 用户总评论数 F36 用户总发帖数 F37 用户回复时长注册时间与回复时间的时间差关键词特征 F38-F508 关键词出现的词频 3.3 针对不均衡数据集的Stacking分类算法

Impact of Online Consumer Reviews on Sales: The Moderating Role of Product and Consumer Characteristics

2010

... (4) 行为特征是指文本内容中包含的行为属性.Zhu等^[24]计算发帖数、评论数、回复数等作为文本内容中包含的行为特征.Oh等^[25]标记发帖时间、回复时间等作为文本内容的行为特征.由于潜在客户一般多为论坛的新用户, 此时潜在客户的总评论数和总发帖数应当较少并且回复时长较短.再结合上述文献, 本文首先提取“总评论数”、“总发帖数”、“回复时长”三个特征.另外本文认为潜在客户为对某类产品或服务存在需求且具备购买能力的客户, 这类客户尚未与本企业或组织发生过交易关系, 但未来极有可能成为本企业或组织的客户.因此汽车之家论坛中, 除本车型以外的认证用户和关注任一车型的用户都有可能是企业的潜在客户, 其次想要购车的潜在客户会加入到各车型的组织或群体中获取更多信息.这三个特征能间接判断用户是否为潜在用户.所以本文另外构建“用户是否认证某车型”、“用户是否关注某车型”、“用户是否所属某车型组织”三个特征, 并与“用户总评论数”、“用户总发帖数”、“用户回复时长”三个特征共同作为潜在客户评论内容的行为特征. ...

Investigating Predictive Power of Stock Micro Blog Sentiment in Forecasting Future Stock Price Directional Movement

2011

... (5) 关键词特征是指文本内容中与领域相关并且能够反映特定信息的特征词.Oh等^[25]和Loughran等^[26]构建金融行业的领域关键词表, 通过计算相应的领域关键词词频, 预测经济的走势和股票的涨停.文献[15, 19, 27-29]证明该特征在产品缺陷识别中具有很好的性能.另外, 通过分析在线评论, 如“不错.车子挺棒的.介绍也挺详细的.打算入手智慧版”、“很好看的车型, 正在考虑买车, 我想要这款, 感觉车很好.”、“裸车多少米啊? 我也想买自动的.”等, 可以发现评论中出现“打算入手”、“考虑买车”、“想要”等关键词的用户, 都可以定义为潜在客户.因此本文计算评论内容中所有词语出现的频率作为潜在客户评论内容的关键词特征.以上所有特征最终构建成含有2 669个特征的潜在客户特征集. ...

When is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10-Ks

2011

Vehicle Defect Discovery from Social Media

2012

Automated Defect Discovery for Dishwasher Appliances from Online Consumer Reviews

2017

Toy Safety Surveillance from Online Reviews

2016

NLPIR

2017

... 潜在客户有效特征集

特征	编号	说明	备注
人口统计学特征	F1-F14	用户是否所属某地区	是为1, 否为0
	F15	用户的注册时长	注册时间到现在的时间差
	F16	用户在论坛中的粉丝数
	F17	用户在论坛中的关注数
	F18	用户在论坛中的发帖精华数
文体特征	F19	评论内容中的总字数
	F20-F26	评论内容中时间词、动词、形容词、副词、普通名词、地点名词以及命名实体的数量	与NLPIR汉语分词包^[30]中汉语词性标记集一致
	F27-29	评论内容中句号、问号和叹号出现的频率	与NLPIR汉语分词包^[30]中汉语词性标记集一致
情感特征	F30	评论内容的情感倾向是否为正面	与中文情感极性词典 NTUSD^[23]一致, 是为1, 否为0
情感特征	F31	评论内容的情感倾向是否为负面	与中文情感极性词典 NTUSD^[23]一致, 是为1, 否为0
行为特征	F32	用户是否认证某车型	是为1, 否为0
	F33	用户是否关注某车型	是为1, 否为0
	F34	用户是否所属某车型组织	是为1, 否为0
	F35	用户总评论数
	F36	用户总发帖数
	F37	用户回复时长	注册时间与回复时间的时间差
关键词特征	F38-F508	关键词出现的词频

3.3 针对不均衡数据集的Stacking分类算法

... [30]中汉语词性标记集一致情感特征 F30 评论内容的情感倾向是否为正面与中文情感极性词典 NTUSD^[23]一致, 是为1, 否为0 F31 评论内容的情感倾向是否为负面与中文情感极性词典 NTUSD^[23]一致, 是为1, 否为0 行为特征 F32 用户是否认证某车型是为1, 否为0 F33 用户是否关注某车型是为1, 否为0 F34 用户是否所属某车型组织是为1, 否为0 F35 用户总评论数 F36 用户总发帖数 F37 用户回复时长注册时间与回复时间的时间差关键词特征 F38-F508 关键词出现的词频 3.3 针对不均衡数据集的Stacking分类算法

... 数据预处理环节, 使用Java编程, 调用中国科学院计算技术研究所研制的 NLPIR/ICTCLAS 2016版分词包^[30]进行分词, 同时进行词性标注; 完成分词之后, 按照停用词表对评论内容进行去停用词处理, 并计算词性数、标点符号数、字数和词频等特征. ...

Stacked Generalization

2011

... Stacking也称为(Stacked Generalization)是Wolpert于1992年提出的分类思想^[31], 主要指在同一个训练集上通过训练n个不同的分类模型得到不同的输出结果, 将这些结果作为输入训练另一个模型, 得到最终的输出.该算法与Bagging算法和Boosting算法的不同之处是Stacking算法使用n个不同类型的分类器, 而Bagging和Boosting算法使用相同类型的分类器.即该算法可以通过使用新的分类器学习前一个分类器所犯的错误, 降低泛化误差, 提高最终分类器的性能.由于在论坛在线评论中, 非潜在客户的数量要远远多于潜在客户, 因此, 得到的数据一般为不均衡数据集, 当直接运用不均衡数据集进行分类实验时, 以总体分类准确率为学习目标的分类算法会过多地关注多数类, 将造成少数类样本的分类性能下降, 无法取得理想的结果.因此, 需要对不均衡数据集进行处理.对于上述问题, 本文提出一种新的针对不均衡数据集的Stacking分类算法.该算法是将不均衡数据分类思想和Stacking算法结合起来, 该算法分为两层, 第一层, 先将数据集按照1︰9的比例分为测试集和训练集, 然后将不均衡数据集转换为n个均衡训练集, 将不均衡训练集中少数类增加到合适的数目, 再将多数类分成和少数类数目相同的数据子集, 并将每个数据子集和少数类合并起来, 构成第一层所需的n个均衡训练集.为该n个均衡训练集分配n个不同的分类器, 通过训练得到n个训练模型, 然后分别使用这些不同的分类器对测试集进行预测.同时在第二层, 将第一层的n个训练模型结果集成起来作为第二层的训练集输入, 将第一层中的测试集在不同基分类器上的预测结果集成起来作为第二层的测试集输入, 并选择合适的核分类算法进行分类测试, 得到最终的输出. ...

汽车之家

2016

汽车之家

2016

WEKA

2017

... 使用数据挖掘WEKA软件^[33]作为实验工具.首先将数据集随机分割成90%的训练集和10%的测试集.在第一层中, 将不均衡训练集中少数的潜在客户类使用随机抽样增加到原先的4倍, 再将多数的潜在客户类分成4组与增加后的潜在客户类相同的数目, 并与潜在客户类合并, 得到4组均衡训练集.为了保证分类器之间的差异性, 选取4种不同的分类器作为第一层的基分类器.该4类分类器分别为: 贝叶斯网络、C4.5决策树、SMO和朴素贝叶斯.第一层, 随机为该4组均衡数据集分配选取的不同基分类器, 通过训练得到4个不同的训练模型, 再分别使用4个分类器对测试集进行预测, 得到4份不同的预测结果; 第二层, 将第一层得到的4个训练模型结果和4份预测结果集成起来, 作为第二层训练集和测试集的输入, 选取逻辑回归作为最终使用的核分类器, 通过对测试集进行预测, 得到最终的结果. ...

〈

〉

检索词推荐：

基于用户生成内容的潜在客户识别方法*

Identifying Potential Customers Based on User-Generated Contents

1 引 言

2 研究现状

3 基于用户生成内容的潜在客户识别模型

3.1 基于用户生成内容的潜在客户识别框架

3.2 基于用户生成内容的潜在客户的特征集构建和特征抽取

3.3 针对不均衡数据集的Stacking分类算法

4 实验过程

4.1 实验数据

4.2 专家标记和数据预处理

4.3 实验方法

5 实验结果及讨论

6 结 语

作者贡献声明

利益冲突声明

支撑数据

参考文献 文献选项 原文顺序 文献年度倒序 文中引用次数倒序 被引期刊影响因子

基于用户生成内容的潜在客户识别方法^*

1 引言

6 结语

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子