基于用户生成内容的潜在客户识别方法*
蒋翠清, 宋凯伦, 丁勇, 刘尧

Identifying Potential Customers Based on User-Generated Contents
Jiang Cuiqing,Song Kailun,Ding Yong,Liu Yao
表1 潜在客户有效特征集
特征 编号 说明 备注
人口统计学特征 F1-F14 用户是否所属某地区 是为1, 否为0
F15 用户的注册时长 注册时间到现在的时间差
F16 用户在论坛中的粉丝数
F17 用户在论坛中的关注数
F18 用户在论坛中的发帖精华数
文体特征 F19 评论内容中的总字数
F20-F26 评论内容中时间词、动词、形容词、副词、
普通名词、地点名词以及命名实体的数量
与NLPIR汉语分词包[30]中汉语词性标记集一致
F27-29 评论内容中句号、问号和叹号出现的频率 与NLPIR汉语分词包[30]中汉语词性标记集一致
情感特征 F30 评论内容的情感倾向是否为正面 与中文情感极性词典 NTUSD[23]一致, 是为1, 否为0
F31 评论内容的情感倾向是否为负面 与中文情感极性词典 NTUSD[23]一致, 是为1, 否为0
行为特征 F32 用户是否认证某车型 是为1, 否为0
F33 用户是否关注某车型 是为1, 否为0
F34 用户是否所属某车型组织 是为1, 否为0
F35 用户总评论数
F36 用户总发帖数
F37 用户回复时长 注册时间与回复时间的时间差
关键词特征 F38-F508 关键词出现的词频