数据分析与知识发现  2018 , 2 (3): 1-8



蒋翠清, 宋凯伦, 丁勇, 刘尧

合肥工业大学管理学院 合肥 230009

Identifying Potential Customers Based on User-Generated Contents

Jiang Cuiqing, Song Kailun, Ding Yong, Liu Yao

School of Management, Hefei University of Technology, Hefei 230009, China

中图分类号:  C931

通讯作者:  通讯作者:蒋翠清, ORCID: 0000-0001-6492-4550, E-mail:

收稿日期: 2017-08-22

修回日期:  2017-12-12

网络出版日期:  2018-03-25

版权声明:  2018 《数据分析与知识发现》编辑部 《数据分析与知识发现》编辑部

基金资助:  *本文系国家自然科学基金项目“基于社交媒体用户生成内容的产品创新需求发现方法研究”(项目编号: 71571059)和教育部人文社会科学规划基金项目“社会化媒体对企业绩效的影响机制研究” (项目编号: 15YJA630010)的研究成果之一



目的】从产品论坛中识别潜在客户, 对产品论坛中的用户生成内容特征进行分析, 识别有购买意愿的产品潜在客户。【方法】将不均衡数据集转换为n个均衡数据集, 结合Stacking分类算法识别潜在客户, 分别使用基分类器算法和本文提出的针对不均衡数据集的Stacking分类算法对样本数据进行测试, 并通过对比F值验证本文算法的有效性。【结果】本文提出的算法的F值较贝叶斯网络、逻辑回归、C4.5决策树、SMO和朴素贝叶斯5种基分类器算法分别提高17.4%、26.5%、24.1%、29.3%、40.9%, 较Stacking、Bagging和Boosting三种集成学习算法分别提高10.1%、5.9%、13.1%。【局限】研究语料来源于汽车行业, 具有一定的领域局限性。【结论】该方法能有效识别潜在客户。

关键词: 用户生成内容 ; 潜在客户识别 ; Stacking分类算法 ; 不均衡数据集


[Objective] This paper aims to identify potential customers by analyzing user-generated contents from product-specific online forums. [Methods] First, we converted the unbalanced dataset into multiple balanced subsets. Then, we employed the Stacking classification algorithm to construct identification model. Finally, we compared results of the proposed method with five baseline algorithms. [Results] Compared to the algorithms of Bayesnet, Logistic, C4.5, SMO and Naive Bayes, the F-measure of our method was increased by 17.4%, 26.5%, 24.1%, 29.3%, and 40.9%. Compared to Stacking, Bagging and Boosting methods, our F-measure increased by 10.1%, 5.9%, 13.1%. [Limitations] We only examined performance of the proposed methods with automotive industry. [Conclusions] The proposed method could effectively identify potential customers based on user-generated contents.

Keywords: User-Generated Content ; Potential Customer Identification ; Stacking Classification Algorithm ; Imbalanced Datasets


蒋翠清, 宋凯伦, 丁勇, 刘尧. 基于用户生成内容的潜在客户识别方法*[J]. 数据分析与知识发现, 2018, 2(3): 1-8

Jiang Cuiqing, Song Kailun, Ding Yong, Liu Yao. Identifying Potential Customers Based on User-Generated Contents[J]. Data Analysis and Knowledge Discovery, 2018, 2(3): 1-8

1 引 言

近年来, 随着汽车之家、手机中国等产品在线论坛的普及, 越来越多的用户自发地在各大产品在线论坛分享自己在产品需求、购买喜好以及购买意愿等方面的信息, 这些信息被称为用户生成内容。通过分析用户生成内容, 可以帮助企业识别有购买其产品意愿的潜在客户。然而, 这些用户生成内容通常为非结构化的文本数据, 一词多义和多词同义现象普遍存在; 同时论坛中活跃的用户仅有很少一部分是潜在客户, 潜在客户的稀疏性强, 使得基于用户生成内容的潜在客户识别面临着巨大挑战。本文以社交媒体中的用户生成内容为语料库, 构建基于用户生成内容的潜在客户特征集, 并提出针对不均衡数据集的Stacking分类算法以实现社交媒体环境下潜在客户的快速识别。

2 研究现状

传统环境下, 企业识别潜在客户的方法主要是通过调查问卷、促销活动、邮件广告、电话访谈等方式进行, 这些方法需要投入大量的资金和人力, 并且响应率低, 时效性差。

随着信息技术和市场的发展, 企业存储了大量的客户人口统计学信息和客户历史交易数据等信息, 可以利用这些信息识别潜在客户。Shaw等[1]提出利用客户人口统计学信息和客户历史交易数据挖掘客户的行为特征和线下购买行为模式以识别潜在客户。魏国华等[2]通过分析客户的手机业务信息, 抽取月均本地消费金额、市场类别、月均交往圈个数等7个特征变量, 构建C5.0决策树模型识别手机行业的潜在客户。李杏谊[3]利用决策树算法模型分析保险行业存储的客户个人基本信息和保单信息等, 发掘客户的购买习惯和购买心理以识别潜在目标客户。王昱元[4]则利用聚类分析对分类算法进行改进, 通过分析客户基本信息和手机业务信息将移动客户细分为不同类型的客户, 再选用C4.5决策树算法作为分类器, 在有潜力办理4G业务的客户簇中预测潜在客户。曹淑鹏等[5]根据某银行客户的基本信息、资产负债情况和可捕捉行为等建立了43个指标分析客户的基本特征, 并应用决策树模型以识别具有办理信用消费贷款倾向的潜在客户。此外, Ganatra[6]除利用客户信息挖掘客户购买模式外, 还引入利润率、忠诚度等主观评价指标, 借助序列模式挖掘算法识别潜在客户。这些方法主要依赖于分析各行业现有客户的基本个人信息和历史交易数据, 但是这些数据的获取具有局限性, 难以识别准确的潜在客户。

随着互联网环境下各电子商务网站和企业社交网络的建立, 网站服务器中积累了大量的用户信息。Chang等[7]通过忠诚客户的购买行为以及忠诚客户和潜在客户的Web日志当中的浏览行为进行聚类和关联分析以识别潜在客户。过蓓蓓等[8]根据这些信息中记录的客户站点访问时间、页面浏览次数和页面停留时间等信息, 挖掘客户访问页面的浏览模式, 以发现潜在客户的共同行为模式, 进而识别潜在客户。Sun等[9]结合Web日志中的客户浏览信息提出一种新的SVM算法识别潜在客户。郭林雪[10]利用关联规则分析网上购车用户的行为特征并找出该类用户的特点, 基于用户的协同过滤算法挖掘寻找与老客户行为特征相似的潜在客户。Hsieh等[11]则分析用户基于位置的社交网络特征, 结合地理特征和人体移动特征, 利用商店和查询位置之间的空间和时间相关性建立潜在客户估测模型, 以识别在任何地点和任何时间可能出现的商店潜在客户。这些方法能够快速准确地在海量的数据中挖掘出隐藏的客户购买行为模式和规律, 从而辅助企业更好地识别潜在客户。

综上所述, 目前相关研究主要是通过挖掘客户的购买行为和浏览行为识别潜在客户, 而基于用户生成内容挖掘和识别潜在客户的研究尚少。与之相比, 本文将用户生成内容应用到潜在客户识别研究中, 综合考虑用户生成内容的非结构化特征和潜在客户的稀疏性, 构建基于用户生成内容的潜在客户识别模型, 从而识别出产品的潜在客户。

3 基于用户生成内容的潜在客户识别模型

3.1 基于用户生成内容的潜在客户识别框架

本文参考文献[12]构建基于用户生成内容的潜在客户识别框架, 包括两部分, 6个模块, 如图1所示。

图1   基于用户生成内容的潜在客户识别框架


(1) 模块 1 论坛数据的爬取: 使用爬虫程序“火车采集器”[13]爬取论坛的用户信息和评论内容。

(2) 模块 2 数据预处理: 将半结构化和非结构化的论坛数据转化为结构化数据, 具体包括数据清理、分词、去停用词、文本向量化等步骤。

(3) 模块 3 人工标注潜在客户和非潜在客户: 将在线评论内容进行人工标注, 判别发表评论的用户是否属于潜在客户, 对潜在客户的在线评论内容标记为1, 非潜在客户的在线评论内容标记为0。

(4) 模块 4 构建潜在客户特征集: 根据论坛用户的人口统计学特征与在线评论内容的文本特征, 构建潜在客户的特征集。

(5) 模块5构建针对不均衡数据集的Stacking分类算法: 根据潜在客户特征集, 构建分类算法。

(6) 模块6识别潜在客户: 使用构建的分类模型识别潜在客户。

3.2 基于用户生成内容的潜在客户的特征集构建和特征抽取

基于用户生成内容进行潜在客户的识别, 其本质是一个分类问题, 其核心是潜在客户的特征选择和抽取。Zheng等[14]主要运用在线评论中用户的社会特征, 并结合在线评论的文本语言特征、本质特征等评估在线电子商务评论的质量, 认为具有较高声誉的用户与普通用户相比, 更能发表一些高质量的评论; Abrahams等[15]提取用户生成内容中的语言特征、社会特征、情感特征、产品特征和关键词特征进行产品缺陷识别; Krishnamoorthy[16]提取在线评论的语言特征、评论元数据相关特征、评论的可读性特征和情感特征预测有用性评论; Liu等[17]提取在线评论的语言特征、社会特征、关键词特征和语境特征识别产品缺陷。笔者从中发现, 语言特征、情感特征、关键词特征和社会特征使用较为普遍, 并且不同文献中的对于相同特征的命名有所不同。因此, 本文选取在线评论的文体特征、情感特征、关键词特征、行为特征。同时, 为了识别在线评论的潜在客户, 用户的人口统计学信息也很重要。因此, 最终选择评论的文体特征、情感特征、关键词特征、行为特征和用户的人口统计学特征作为潜在客户的特征集。

(1) 当用户有购车需求时, 关注论坛的可能性更大。因此, 潜在客户多为论坛新用户, 并且具有注册时间短、粉丝数少、关注数多等特征, 另外不同地区用户之间的偏好不同。因此, 本文选取用户是否所属某地区、用户的注册时长、用户在论坛中的粉丝数、用户在论坛中的关注数、用户在论坛中的发帖精华数等作为潜在客户的人口统计学特征。

(2) 文体特征通常指文本内容中的字、词、短语或者命名实体的特征和文本内容的句法、词语的词性特征, 它广泛应用于各种文本分类问题中。文献[18,19,20]计算文本内容中每条句子的总字数, 以及每条句子中各个词语出现的频率等作为文本内容的文体特征。通常较长的评论中包含更多有用的信息, 以便潜在客户更好地询问购车建议、表达自己的购买喜好等。此外, 潜在客户发布的评论往往会包含一些特殊类型的词汇和句子[21]。因此本文计算评论内容中的总字数、各类词性的词语的数量以及汉语标点符号出现的频率作为潜在客户评论内容的文体特征。

(3) 情感特征是用于衡量文本内容中用户的主观情感的特征。Abrahams等[15]和Xu等[22]计算文档中积极性词和消极性词出现的频率作为情感特征。通过分析用户在线评论的情感极性, 如“很喜欢这车, 正在准备考虑入手”、“某某车太让我失望了, 计划国庆节订车的, 现在都不敢考虑了, 还是看看其他车算了”。可见, 挖掘用户的购买意向和喜好可以更好地识别潜在客户。因此, 本文将情感特征作为潜在客户分类特征之一。选取中国台湾大学研发的中文情感极性词典NTUSD[23]。该词典将11 086个词语分为2 810个积极属性词语和8 276个消极属性词语。另外单独构建一个否定词典, 并设置其权值为-1, 当对情感词进行定位后, 根据情感词的正负以及情感词前的否定词判断该评论内容的情感倾向, 作为潜在客户评论内容的情感特征。

(4) 行为特征是指文本内容中包含的行为属性。Zhu等[24]计算发帖数、评论数、回复数等作为文本内容中包含的行为特征。Oh等[25]标记发帖时间、回复时间等作为文本内容的行为特征。由于潜在客户一般多为论坛的新用户, 此时潜在客户的总评论数和总发帖数应当较少并且回复时长较短。再结合上述文献, 本文首先提取“总评论数”、“总发帖数”、“回复时长”三个特征。另外本文认为潜在客户为对某类产品或服务存在需求且具备购买能力的客户, 这类客户尚未与本企业或组织发生过交易关系, 但未来极有可能成为本企业或组织的客户。因此汽车之家论坛中, 除本车型以外的认证用户和关注任一车型的用户都有可能是企业的潜在客户, 其次想要购车的潜在客户会加入到各车型的组织或群体中获取更多信息。这三个特征能间接判断用户是否为潜在用户。所以本文另外构建“用户是否认证某车型”、“用户是否关注某车型”、“用户是否所属某车型组织”三个特征, 并与“用户总评论数”、“用户总发帖数”、“用户回复时长”三个特征共同作为潜在客户评论内容的行为特征。

(5) 关键词特征是指文本内容中与领域相关并且能够反映特定信息的特征词。Oh等[25]和Loughran等[26]构建金融行业的领域关键词表, 通过计算相应的领域关键词词频, 预测经济的走势和股票的涨停。文献[15, 19, 27-29]证明该特征在产品缺陷识别中具有很好的性能。另外, 通过分析在线评论, 如“不错。车子挺棒的。介绍也挺详细的。打算入手智慧版”、“很好看的车型, 正在考虑买车, 我想要这款, 感觉车很好。”、“裸车多少米啊? 我也想买自动的。”等, 可以发现评论中出现“打算入手”、“考虑买车”、“想要”等关键词的用户, 都可以定义为潜在客户。因此本文计算评论内容中所有词语出现的频率作为潜在客户评论内容的关键词特征。以上所有特征最终构建成含有2 669个特征的潜在客户特征集。

由于潜在客户特征集中的不相关特征和冗余特征会对机器学习算法的性能造成负面影响。另外, 评论内容中的关键词、潜在客户所属地区等分布的不均匀性使得存在一部分特征在潜在客户和非潜在客户发表评论中出现的频率相差较大, 这部分特征对于预测评论是否由潜在客户发布具有很强的指示性。因此, 需要进行有效特征选择, 选择出识别潜在客户的有效特征。

本文依据计算特征集中每个特征与类别的皮尔逊相关系数进行特征选择, 皮尔逊相关系数是一种度量两个变量之间的相关程度的方法, 它的值介于-1和1之间。设置皮尔逊相关系数的阈值为0.01, 最终从特征集中选择出508个与潜在客户类别相关的特征, 构成最终的潜在客户有效特征集。构建的潜在客户有效特征集如表1所示。

表1   潜在客户有效特征集


人口统计学特征F1-F14用户是否所属某地区是为1, 否为0
情感特征F30评论内容的情感倾向是否为正面与中文情感极性词典 NTUSD[23]一致, 是为1, 否为0
F31评论内容的情感倾向是否为负面与中文情感极性词典 NTUSD[23]一致, 是为1, 否为0
行为特征F32用户是否认证某车型是为1, 否为0
F33用户是否关注某车型是为1, 否为0
F34用户是否所属某车型组织是为1, 否为0


3.3 针对不均衡数据集的Stacking分类算法

Stacking也称为(Stacked Generalization)是Wolpert于1992年提出的分类思想[31], 主要指在同一个训练集上通过训练n个不同的分类模型得到不同的输出结果, 将这些结果作为输入训练另一个模型, 得到最终的输出。该算法与Bagging算法和Boosting算法的不同之处是Stacking算法使用n个不同类型的分类器, 而Bagging和Boosting算法使用相同类型的分类器。即该算法可以通过使用新的分类器学习前一个分类器所犯的错误, 降低泛化误差, 提高最终分类器的性能。由于在论坛在线评论中, 非潜在客户的数量要远远多于潜在客户, 因此, 得到的数据一般为不均衡数据集, 当直接运用不均衡数据集进行分类实验时, 以总体分类准确率为学习目标的分类算法会过多地关注多数类, 将造成少数类样本的分类性能下降, 无法取得理想的结果。因此, 需要对不均衡数据集进行处理。对于上述问题, 本文提出一种新的针对不均衡数据集的Stacking分类算法。该算法是将不均衡数据分类思想和Stacking算法结合起来, 该算法分为两层, 第一层, 先将数据集按照1︰9的比例分为测试集和训练集, 然后将不均衡数据集转换为n个均衡训练集, 将不均衡训练集中少数类增加到合适的数目, 再将多数类分成和少数类数目相同的数据子集, 并将每个数据子集和少数类合并起来, 构成第一层所需的n个均衡训练集。为该n个均衡训练集分配n个不同的分类器, 通过训练得到n个训练模型, 然后分别使用这些不同的分类器对测试集进行预测。同时在第二层, 将第一层的n个训练模型结果集成起来作为第二层的训练集输入, 将第一层中的测试集在不同基分类器上的预测结果集成起来作为第二层的测试集输入, 并选择合适的核分类算法进行分类测试, 得到最终的输出。


图2   针对不均衡数据的Stacking分类算法框架


4 实验过程

4.1 实验数据

选取吉利品牌汽车中的博越车型作为实验对象, 所使用的语料数据来源于汽车之家网站[32], 该网站是全球访问量最大的汽车网站之一。使用网络爬虫程序“火车采集器”[13]爬取博越车型板块从2016年1月1日至2017年1月1日时间段内所有的评论内容, 共253 580条记录。由于评论的文本信息是本文关注的重点, 因此采集的在线评论内容包括: 用户个人信息、评论时间、评论内容、评论回复数等。相关文献表明, 字数较少的评论包含的有用信息过少[12,15]。此外, 随机抽样(10 000条样本)分析结果表明, 10字以下的评论中有96.6%的评论内容为语气词、重叠词以及与产品无关的信息, 60字以上的评论中有95.7%的评论内容属于企业为了宣传产品而发表的软文、广告文案及用户购车后的体验报告。因此, 为了保证模型准确率, 本文删除了字数10字以下和60字以上的噪音评论。除此之外, 在汽车之家论坛中, 现实客户通常会进行认证成为该车型的认证用户。因此, 去掉认证本车型的现实客户, 最终随机抽取一万条数据作为实验数据[29]

4.2 专家标记和数据预处理

标注环节共有5位专家参与。标注过程对是否为潜在客户发表的在线评论进行判定, “是”潜在客户则标记为1, “否”则标记为0。同时, 对标记过程中发现的“转帖”和广告帖等非用户评论内容予以删除。为了确保标注的准确性, 选取5人均标记为潜在客户的评论内容, 丢弃标记存在歧义的评论内容。最终的人工标注结果中, 共有9 228条评论内容符合条件, 其中标记为潜在客户的评论内容为559条, 标记为非潜在客户的评论内容为8 669条。

数据预处理环节, 使用Java编程, 调用中国科学院计算技术研究所研制的 NLPIR/ICTCLAS 2016版分词包[30]进行分词, 同时进行词性标注; 完成分词之后, 按照停用词表对评论内容进行去停用词处理, 并计算词性数、标点符号数、字数和词频等特征。

4.3 实验方法

使用数据挖掘WEKA软件[33]作为实验工具。首先将数据集随机分割成90%的训练集和10%的测试集。在第一层中, 将不均衡训练集中少数的潜在客户类使用随机抽样增加到原先的4倍, 再将多数的潜在客户类分成4组与增加后的潜在客户类相同的数目, 并与潜在客户类合并, 得到4组均衡训练集。为了保证分类器之间的差异性, 选取4种不同的分类器作为第一层的基分类器。该4类分类器分别为: 贝叶斯网络、C4.5决策树、SMO和朴素贝叶斯。第一层, 随机为该4组均衡数据集分配选取的不同基分类器, 通过训练得到4个不同的训练模型, 再分别使用4个分类器对测试集进行预测, 得到4份不同的预测结果; 第二层, 将第一层得到的4个训练模型结果和4份预测结果集成起来, 作为第二层训练集和测试集的输入, 选取逻辑回归作为最终使用的核分类器, 通过对测试集进行预测, 得到最终的结果。

5 实验结果及讨论

对于识别潜在客户来说, 准确率高、召回率低说明许多潜在客户尚未被识别, 而召回率高、准确率低说明识别的潜在客户大部分实际为非潜在客户, 一般情况下, 两者相互制约, 因此, 为了避免上述问题, 在评价指标方面, 本文采用准确率和召回率的调和值即F值(F-measure)进行分类效果的整体评估。F值越高, 说明分类器的分类性能越好[15]

为了验证本文分类算法的有效性, 进行4组对比实验, 第一组是分别是与本文使用的5种基分类器进行对比实验, 结果如表2所示。第二组是分别与常见的Stacking集成学习算法、Bagging集成学习算法和Boosting集成学习算法进行比较, 结果如表3所示。

表2   本文算法与基分类器对比实验结果




表3   本文算法与常见集成学习算法对比实验结果




表2可以得出, 所选基分类器处理不均衡数据集时, 贝叶斯网络、逻辑回归、C4.5决策树、SMO和朴素贝叶斯这5种基分类器的F值均低于本文算法。另外, 本文算法在F值上与对照实验中F值最高的贝叶斯网络分类算法相比提高了17.4%, 表明本文算法的整体分类性能要优于基分类器算法。

表3可以得出, 所提出的针对不均衡数据集的Stacking算法的F值相对于常见的Stacking集成学习算法、Bagging集成学习算法和Boosting集成学习算法的F值有明显的提升, 表明该算法可以有效应用于潜在客户识别中。

6 结 语

社交媒体环境下的产品在线论坛网站生成了大量的在线评论等用户生成内容。这些在线评论中包含很多对商家有用的信息, 可以反映出用户的喜好和购买意向。本文将在线评论用于潜在客户识别, 并针对在线评论数据的不均衡问题, 提出针对不均衡数据集的Stacking分类算法。通过对比实验, 该算法可以有效利用用户生成内容进行潜在客户识别, 能有效降低企业获取潜在客户的成本。

本文采用的语料来源于汽车行业, 具有一定的领域局限性。未来将建立领域相关性情感词典和关键词词典, 以提高汽车行业潜在客户识别的精确性。并探索该方法在其他领域的有效性。


蒋翠清: 提出研究思路, 设计研究方案;

宋凯伦, 丁勇, 刘尧: 分析数据;

宋凯伦: 进行实验, 起草论文;

蒋翠清, 宋凯伦, 丁勇, 刘尧: 论文最终版本修订。




支撑数据由作者自存储, E-mail:。

[1] 蒋翠清, 宋凯伦, 丁勇, 刘尧. P-C-indentification.xls. 潜在客户识别的关联数据.


