Advanced Search

数据分析与知识发现, 2019, 3(8): 1-9 doi: 10.11925/infotech.2096-3467.2018.1207

研究论文

基于机器学习的社交媒体用户分类研究 *

李纲, 周华阳, 毛进,,, 陈思菁

武汉大学信息资源研究中心 武汉 430072

Classifying Social Media Users with Machine Learning

Li Gang, Zhou Huayang, Mao Jin,,, Chen Sijing

Center for Studies of Information Resources, Wuhan University, Wuhan 430072, China

通讯作者: 毛进, ORCID: 0000-0001-9572-6709, E-mail:danveno@163.com

收稿日期: 2018-10-31   修回日期: 2018-12-18   网络出版日期: 2019-08-25

基金资助: *本文系国家自然科学基金重大课题“国家安全大数据综合信息集成与分析方法”.  71790612
国家自然科学基金青年项目“突发公共卫生事件社交媒体信息主题演化与影响力建模”.  71603189
国家自然科学基金青年项目“基于学术异质网络表示学习的知识群落发现”的研究成果之一.  71804135

Received: 2018-10-31   Revised: 2018-12-18   Online: 2019-08-25

摘要

【目的】充分利用社交媒体用户的个人多维度信息, 研究用户自动分类问题。【方法】将社交媒体用户定义为个体民众、媒体、政府和组织4种类型, 从用户多维度信息中提取人口统计学、命名和自我描述三组特征, 构建基于机器学习算法的用户自动分类模型, 在Twitter真实数据集上通过实验对比各分类算法性能, 并分析各组特征的贡献度。【结果】支持向量机和随机梯度下降分类模型的准确率和召回率均在83%以上, 命名、人口统计学和自我描述特征对于分类性能的影响依次递增。【局限】由于标注的用户数量有限, 可能无法让模型充分学习用户特征, 而且没有考虑不同类型用户数量的不均衡问题。【结论】基于支持向量机和随机梯度下降的分类模型能够较准确地识别出4种类型用户, 对后续社交媒体用户划分研究具有借鉴意义。

关键词: 支持向量机 ; 用户分类 ; 机器学习 ; 特征提取

Abstract

[Objective] This paper uses multi-dimensional information of social media users to automatically classify them. [Methods] First, we defined social media users as individual, media, government, and organization. Then, we extracted the following features from user profiles: demographic characteristics, namings, and self-descriptions. Third, we created a user classification models based on machine learning algorithms and evaluated its performance with real Twitter dataset. [Results] Both precision and recall of the proposed model were greater than 83%. The naming, demographic characteristics, and self-description features posed increasing contributions to the classification model. [Limitations] The sample size needs to be expanded, which helps us better analyzed the characteristics of different users. [Conclusions] The proposed method could accurately identify four types of users, which benefits social media user classification research in the future.

Keywords: SVM ; User Classification ; Machine Learning ; Feature Extraction

PDF (1064KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李纲, 周华阳, 毛进, 陈思菁. 基于机器学习的社交媒体用户分类研究 *. 数据分析与知识发现[J], 2019, 3(8): 1-9 doi:10.11925/infotech.2096-3467.2018.1207

Li Gang. Classifying Social Media Users with Machine Learning. Data Analysis and Knowledge Discovery[J], 2019, 3(8): 1-9 doi:10.11925/infotech.2096-3467.2018.1207

1 引 言

社交媒体是以Web 2.0互联网技术为基础, 具有强大信息发布和传播功能的平台, 用户依托其进行兴趣、爱好及状态等信息的创造和分享[1,2], 目前已发展成最为火热的互联网应用。全球各种社交媒体总用户规模为31.96亿, 约占世界总人口数的40%[3]。社交媒体已经成为互联网用户日常生活中必不可少的社交工具。庞大的用户规模在促进社交媒体多元化发展的同时, 也积累了海量用户数据, 其内蕴含诸如用户个性化特征及社交网络结构等极具价值的信息, 对于在线推荐、舆论分析等领域具有重要的指导作用, 因此社交媒体数据挖掘受到学术界的广泛关注。

用户分类是社交媒体数据挖掘最具代表性的基础研究问题之一, 可以支撑多种场景下基于社交媒体的具体应用[4]。比如, 针对不同类型用户提供个性化服务, 提升用户满意度; 根据不同用户群体特征, 选择性投放广告达到精准营销的效果; 通过对不同类型用户采取针对性应急管理决策有效引导突发事件舆情[5,6,7]。一般而言, 用户类型的划分应当结合具体应用场景。本文研究用户分类的目的在于支撑突发事件社交媒体的舆情分析和应急管理需求, 从而定义出适宜于该场景的用户类型。

基于机器学习的文本分类是目前社交媒体用户分类的主要方法之一。机器学习利用系统本身进行自我改进的学习能力, 从大量用户数据中学习特征, 进而挖掘不同用户之间的差异性。但是基于文本内容的用户分类在实践上面临巨大挑战, 达到较好的分类效果往往需要获取用户包括隐私在内的各类信息, 而现实中用户出于隐私顾虑而拒绝主动提供用户性别、年龄、地理位置等信息[8]。基于此, 本文以较少涉及个人隐私信息的用户开放性数据为数据基础, 构建不同类型用户的特征体系, 并利用机器学习算法构造自动分类模型实现社交媒体用户分类, 进一步对比各分类算法的性能, 并分析各种用户特征的贡献度。

2 相关研究

用户分类指在明确的战略业务模式和专注的市场中, 基于用户价值、需求和兴趣等综合因素对用户进行细分[9]。商业上通过对用户群体划分提供满足不同用户需求的产品或服务, 达到增加企业收入并提高自身竞争力的目的。传统环境下的用户分类一般以调查问卷、访谈等方式采集数据, 通过建立分类指标体系实现对用户类型的划分, 存在时效性差、适用性低等缺点。随着社会信息化水平的提高, 企业存储了大量用户数据, 通过对这些数据进行挖掘可以帮助其识别不同客户类型。对于社交媒体, 能以较低成本获取海量用户数据, 通过对用户创造、传播数据的挖掘分析实现用户分类。社交媒体用户分类的本质是在确定用户类别范围的基础上, 通过学习用户特征为其分配类别标签[10]

在建立用户分类模型时, 主要研究两类用户信息: 一是用户的个人资料信息, 如年龄、好友数、关注数、位置、注册时间、兴趣等; 二是用户的博文文本内容。Wu等[11]通过探讨Twitter用户的关注数与被关注数等人口统计学特征, 根据数量建立分类体系将用户划分为广播人、一般人和垃圾虫。Rao等[12]从诸如评论、博文等用户生成内容中获取用户特征信息, 利用改进的栈式支持向量机模型有效地对Twitter用户的性别、年龄、出生地和政治取向进行预测。Zubiaga等[13]认为被标注数据往往体现标注用户的行为动机, 以用户社会化标签数据为特征信息源, 训练支持向量机分类器将标注用户分为资源描述者和分类者。Pennacchiotti等[14]则利用LDA模型对Twitter 用户生成内容进行建模, 利用用户的行为特征、社交网络结构和Twitter生成内容自动推断用户的政治方向、种族等属性。Shafiq等[15]针对社交网络中领导者和追随者识别问题, 提出纵向用户中心影响模型, 以用户间的交互信息作为输入, 将用户划分为内向领导者、外向领导者、追随者和中立者4种类型。Xie等[16]在包含ISIS支持者的大型数据集中基于用户的文本内容和网络信息, 使用集成决策树的机器学习算法构造分类器识别出ISIS宣传账户。Abu-Salih等[17]基于Twitter用户的文本内容, 采用线性回归、支持向量机和决策树三种机器学习算法对其进行语义分析, 将用户划分为政治相关、政治无关两类用户。

国内有关社交媒体用户分类的研究开始阶段主要集中于挖掘用户行为信息来识别用户特征、划分用户类型。赵文兵等[18]使用计量学方法, 基于用户特性分析使用Pajek软件进行可视化分析, 将和讯财经微博用户分为8类, 其中信息搜寻者和网络游民约占总量的90%。近年来, 部分研究人员也开始集成用户文本信息和用户生成内容, 通过使用相关分类算法对用户类型进行划分。薛云霞等[19]提取微博用户的命名特征, 使用贝叶斯融合的方法将微博用户分为个人和非个人用户。贺超波等[10]设计了一种基于随机游走模型的多标签分类方法MLCMRW, 通过学习用户初始化标签、迭代推理获得用户稳定标签分布来对用户进行分类。He等[20]利用多尺度熵方法对用户的关注者、发布行为、Twitter文本内容等进行分析以识别Twitter用户行为, 将用户划分为个人、媒体、企业、机器人和其他类型用户等。蒋翠清等[21]基于产品论坛中的用户生成内容, 构建人口统计学、文体、情感、行为和关键词特征集合, 使用Stacking分类算法将用户划分为具有潜在购买意愿用户和无购买意愿用户。

综上, 现有研究一般结合具体应用场景构建用户分类体系, 并依据用户个人资料信息和用户生成内容提取用户特征建立用户分类模型。有别于以往研究, 本文针对社交媒体舆情分析和应急管理需求定义用户类别。尽管本文所采用的用户特征亦来源于用户个人资料信息, 但在常规人口统计学特征基础上加入用户命名模式, 并充分考虑自我描述信息的重要性。鉴于对用户隐私信息保护和快速分类的要求, 本研究尚未使用用户生成内容, 而仅使用开放的个人资料信息。

3 社交媒体用户分类模型

3.1 社交媒体用户类别设定

总结文献[22,23,24]对Twitter用户类型的划分, 针对社交媒体舆情分析和应急管理需求, 本文从社会职能的角度对用户类型进行划分, 将Twitter用户划分为个体民众、媒体、政府和组织4种类型。这种分类方式具有普适性和代表性, 亦适用于其他类型的社交媒体。其中, 政府用户包括政府官员和政府机构, 媒体用户包括媒体公司和媒体人, 组织用户包括非政府组织、非营利组织和企业等组织机构, 个体民众用户包括普通人、明星、专家学者等。

3.2 社交媒体用户自动分类流程

参考文献[25]构建基于机器学习的社交媒体用户分类框架, 如图1所示。社交媒体用户自动分类流程主要包括用户分类模型的训练和应用。

图1

图1   社交媒体用户分类框架


(1) 用户分类模型的训练第一步需要人工标注数据, 确定用户的类别标签。第二步基于机器学习算法构建分类模型, 通过调节参数使得分类模型取得最佳分类效果, 最后将用户分类模型保存。

(2) 用户分类模型的应用第一步是对用户多维度信息进行数据预处理, 去除冗余信息并转化为数值型数据, 第二步进行特征提取, 构建特征体系并筛选出有效特征, 最后调用分类模型对用户数据进行处理, 实现用户类别划分。

本文采用的主要机器学习算法包括支持向量机和随机梯度下降。支持向量机将向量映射到一个更高维的空间里, 通过建立方向合适的分隔超平面使两个与之平行的超平面间距离最大化来对不同样本进行分类, 在解决小样本、非线性及高维度的模式识别问题中表现出许多优势, 在文本分类领域应用较为广泛。随机梯度下降被成功地应用在大规模稀疏机器学习问题上, 常用于文本分类及自然语言处理, 解决文本向量化后带来的“维灾难”问题。本文使用的随机梯度下降不是单一的算法, 而是一系列利用随机梯度下降求解参数的算法集合。

3.3 用户特征体系构建

基于用户信息进行用户分类的本质是文本分类, 其核心在于有效选择用户特征。选择用户个人信息中的命名、人口统计学和自我描述等三类特征构建Twitter用户的特征体系。

(1) 命名特征包括用户名和昵称相似度、用户名以及昵称的命名模式。不同类型用户其用户名和昵称之间相似度具有差异性, 用户名和昵称命名模式也有所差别。

(2) 人口统计学特征包括用户粉丝数、关注数和被标记数及是否通过认证。不同类型Twitter用户的粉丝数、好友数与列表数差异明显。普通用户的粉丝数、关注数以及被标记数较少。认证用户往往社交影响力较大, 其更可能属于政府或者媒体。

(3) 自我描述特征即用户自我介绍内容中能够反映其所表达主要信息的特征词, 其中可能包含用户兴趣爱好、从事工作等信息。不同类型用户在自我描述中所用到的词汇相差较大。因此, 将自我描述信息中所有词出现的词频-逆频率[26,27]作为用户自我描述特征。

3.4 特征提取

分类模型性能受用户特征集中不相关特征和冗余特征的影响。用户特征在不同用户之间存在的交叉现象干扰用户分类的结果。因此, 需要进行特征选择, 选择出能够识别不同类型用户的有效特征。

通过建立基于树的分类器计算特征重要性, 重要性的值介于0-1之间。根据各个特征的重要性排名消除不相关的特征, 最终从特征集中选择出2 395维与用户分类相关的特征, 构成最终用户分类的有效特征集, 如表1所示。

表1   用户分类特征集

特征组特征编号特征说明备注
人口统计学
特征
F1用户粉丝数取值为0-9
通过为1, 否则
为0
F2用户关注数
F3用户被标记数
F4是否通过认证
命名特征F5用户名的命名模式英文字母搭配
方式
F6昵称命名模式
F7昵称和用户名相似度
自我描述
特征
F8-F2395词汇出现的词频-
逆频率

新窗口打开| 下载CSV


4 实验过程

4.1 用户分类数据集构建

选取Harvey飓风期间在Twitter上发过博文的用户为实验对象, 数据来源于北德克萨斯州大学提供的Twitter数据集[28], 博文发布的时间跨度为2017年8月18日-2017年9月22日, 共7 041 866条微博数据。从作者信息角度进行Twitter用户分类, 用户信息包括账号(用户名)、昵称、居住地、是否通过认证、粉丝数、关注数、自我描述信息等, 最终随机抽取7 338条用户数据作为实验数据集。

4.2 用户标注和数据预处理

在进行用户标注时, 本研究采用如下一般流程。(1) 判断用户为机构用户还是非机构用户;(2) 针对机构用户, 依次判断是否为政府部门、媒体公司或其他组织用户;(3) 针对非机构用户, 依次判断其是否为政府官员、媒体人还是其他个体民众用户, 由于政府官员和媒体人具有较强的机构背景, 将政府官员归为政府用户, 将记者、电视人、主持人等媒体人归为媒体用户。在用户标注时, 仅将一个用户归于单一类别, 不进行重叠划分。对于部分可能存在类型重叠的用户, 按上述顺序进行优先匹配。标注环节共有两位标注人员参与, 标注过程严格按照统一标准判断用户类别, 两位标注人员各自标注全部实验数据并在标注完成后进行交叉检验以确保标注的准确性和客观性, 且对于标注不一致的用户, 标注人员通过讨论分析用户多维度信息确定最终标签。标注结果包括4 385位个体民众类型用户、1 646位媒体类型用户、380位政府类型用户和927位组织用户。数据预处理阶段主要将用户文本型数据转化为数值型数据, 作为后续特征提取和分类模型的输入数据。本文使用Python编程语言去除用户自我描述信息中的网址链接, 结合RANKS NL英文停用词表[29]去除停用词, 最后将文本数据进行向量化表示, 并计算用户命名模式、粉丝数、关注数、被标记数和自我描述等特征。

4.3 实验方法

将数据集随机分割为80%的训练集和20%的测试集。使用开源机器学习框架Scikit-learn, 分别基于支持向量机、随机梯度下降、决策树、朴素贝叶斯、K近邻和人工神经网络6种不同机器学习算法构建分类模型。采用5折交叉验证的方法进行训练, 每组实验重复10次以防止随机影响。训练完成后, 调用分类模型对测试集进行用户类别属性预测, 并与正确用户标签进行比较, 计算评价分类性能。

4.4 性能评价指标

为有效检测用户分类效果, 基于二分类问题的混淆矩阵计算各准确性指标, 具体如表2所示。

表2   二分类混合矩阵

判断是媒体
类型用户
判断不是媒体
类型用户
实际是媒体类型用户TPFN
实际不是媒体类型用户FPTN

新窗口打开| 下载CSV


据此可得到三类评价指标[30], 正确类型用户的准确率、召回率以及调和平均值, 如公式(1)-公式(3)所示。

$Recall={TP}/{(TP+FN)}\;$
$Precision={TP}/{(FP+TP)}\;$
$F={(2\times Recall\times Precision)}/{(Recall+Precision)}\;$

由于实验数据集不均衡, 用户准确率无法正确反映用户分类的说服力。因此考虑用户分类准确率的同时注重召回率, 只有准确率和召回率均较大才能保证F值较大, 一定程度上克服了数据不平衡给分类性能带来的影响。

5 实验结果分析

5.1 整体分类结果

为研究何种机器学习算法能够对用户类型进行有效划分, 分别基于6种机器学习算法构建分类模型进行对比实验, 结果如图2所示。

图2

图2   6种分类模型的性能对比


支持向量机和随机梯度下降模型分类效果较好, 其准确率、召回率和F值均在0.83以上, 明显优于其他分类模型。决策树、K近邻模型分类性能较差, 朴素贝叶斯和人工神经网络模型对用户类别的划分能力居中。

支持向量机能够找出包含重要分类信息的支持向量, 可以进行增量学习和主动学习, 从现有用户数据中充分学习用户特征, 极大提高分类准确率和召回率。本文构建的随机梯度下降分类模型实质上是用随机梯度下降算法求解的线性软间隔支持向量机分类器, 其相比于用序列最小优化算法求解的支持向量机收敛速度较快、更适用于线性分类问题, 个别用户的分类标签与其特征之间并非简单线性关系, 导致随机梯度下降模型的各项评价指标值略低于支持向量机模型。决策树和K近邻在解决数据集不均衡问题方面效果较差, 特征维度较高而用户类型有限造成其对用户类别的错误划分。朴素贝叶斯因受用户特征之间不满足相互独立的假设条件的限制而影响其分类性能。人工神经网络在各项分类任务中表现良好, 而在本文中却没有取得较好的分类效果, 可能与传统神经网络层次较少而无法充分学习到用户特征有关。

为进一步验证不同机器学习算法分类性能的显著性差异, 继续进行t-test检验, 结果如表3所示。检验结果表明, 在显著性水平为0.05的情况下, 支持向量机和随机梯度下降的分类性能无显著差异且明显优于其他4种机器学习算法。总体而言, 支持向量机和随机梯度下降分类模型能够有效划分用户类型。

表3   算法对比的显著性检验结果

算法对比p值
支持向量机-随机梯度下降0.098
支持向量机-决策树0.011**
支持向量机-K近邻0.032**
支持向量机-朴素贝叶斯0.000**
支持向量机-人工神经网络0.000**
随机梯度下降-决策树0.000**
随机梯度下降-K近邻0.002**
随机梯度下降-朴素贝叶斯0.007**
随机梯度下降-人工神经网络0.018**

(注: **表示显著性水平为0.05 的情况下通过显著性检验。)

新窗口打开| 下载CSV


5.2 各类型用户分类结果

考虑到多分类问题中整体分类性能指标不能代表对每个类别用户的分类能力, 因此在计算分类模型的整体准确率、召回率和F值基础上, 进一步研究各类算法对4种类型用户的分类性能, 具体如图3所示。

图3

图3   不同类型用户的分类性能


对于个体民众用户, 6种模型的各项分类指标值均在0.8左右, 其中支持向量机和随机梯度下降模型的准确率、召回率和F值均在0.9左右, 这与个体民众用户数量最多有关, 模型能够充分学习用户特征。对媒体用户的分类性能次之, 6种模型的准确率较高, 召回率较低, 除支持向量机、随机梯度下降和人工神经网络模型的F值接近0.8以外, 其他分类模型的F值均在0.7及以下, 这与媒体用户类型数量不及个体民众用户有关, 模型对媒体特征的学习能力不如个体民众。对于政府和组织用户而言, 支持向量机和随机梯度下降模型的F值接近0.7, 其他模型的F值均低于以上两种模型, 其中决策树和K近邻模型各项指标不足0.5。一方面因为政府和组织用户数量偏少, 另一方面是因为这两类用户下的细分用户类型比较复杂, 干扰用户特征学习进而影响最终对用户的分类性能。

5.3 不同组特征的贡献分析

支持向量机和随机梯度下降分类模型的性能高于其他模型, 在此基础上, 继续以这两种分类模型为分析对象进行特征贡献度分析。为实现此目的, 使用单组特征和分别组合多组特征, 观察分类模型的性能。由于F值综合考虑准确率和召回率, 故仅比较各特征组合的F值, 结果如图4所示。

图4

图4   特征贡献分析结果


可以看到, 在最终分类效果贡献度方面, 自我描述特征最重要, 人口统计学特征对于分类结果的影响居中, 命名特征虽然对分类效果有积极影响但其贡献较小, 任意两类特征组合的分类性能均比全部特征组合要差, 表明本文提取的特征合理。用户自我描述特征包含较多能够判断用户类型的关键词, 模型可以根据自我描述特征学习不同类型的差异。不同类型用户的人口统计学特征存在差别, 媒体和政府一般均会通过认证, 媒体和组织的粉丝数与被标记数往往较大, 而个体民众用户一般未通过认证且粉丝数较少, 同时存在部分个体民众用户比如明星会通过认证, 其粉丝数、被标记数较大, 一些小型组织和媒体粉丝数、关注数及被标记数较小, 由于部分不同类型用户在该特征上具有相似性而降低其贡献度。命名特征对分类模型的影响最小, 除受到不同类型用户命名模式相似的影响, 在命名模式提取阶段, 命名模式过多也导致分类模型训练过程中过拟合现象的出现。

6 结 语

为实现社交媒体用户分类并提高基于社交媒体各种应用的效用, 本文基于Twitter用户信息构建包含命名、人口统计学和自我描述特征的特征体系, 比较基于不同机器学习算法的分类模型对不同类型用户的识别能力, 通过特征分析挖掘提取特征对于分类效果的重要性。支持向量机和随机梯度下降分类模型均能较为准确地识别不同类型用户, 用户自我描述、人口统计学和命名特征对于分类性能的影响依次降低。

本文的不足之处在于受到标注数量的影响, 分类模型无法完全学习各类用户特征, 降低分类性能; 未考虑不同类型用户的数量不均衡问题; 对于用户类别进行粗粒度划分; 只针对Twitter用户分类而缺乏对中文环境下适用性问题的探讨。同时, 仅使用用户个人资料信息已能取得较好的性能, 下一步将探索加入用户生成内容并采用深度学习的方法提升社交媒体用户分类性能。

作者贡献声明

毛进: 提出研究思路, 设计研究方案;

周华阳: 进行实验, 起草论文;

周华阳, 陈思菁: 采集、清洗和分析数据;

李纲, 毛进, 周华阳: 论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: zhywhu@yeah.net。

[1] 周华阳. User_Information. zip. Twitter用户分类相关数据.

参考文献

Wikipedia.

Social Network Service

[EB/OL]. [ 2018- 06- 15].

URL     [本文引用: 1]

Boyd D M, Ellison N B .

Social Network Sites: Definition, History, and Scholarship

[J]. Journal of Computer Mediated Communication, 2008,13(1):210-230.

[本文引用: 1]

We Are Social.

Digital in 2018

[EB/OL]. [ 2018- 10- 30].

URL     [本文引用: 1]

贺超波, 汤庸, 麦辉强 , .

在线社交网络挖掘综述

[J]. 武汉大学学报: 理学版, 2014,60(3):189-200.

[本文引用: 1]

( He Chaobo, Tang Yong, Mai Huiqiang , et al.

A Survey on Online Social Network Mining

[J]. Journal of Wuhan University: Natural Science Edition, 2014,60(3):189-200.)

[本文引用: 1]

陈家维 .

线上运动社群之社群意识组成要素之研究——以日本职棒社群日促会为例

[D]. 朝阳科技大学, 2006.

[本文引用: 1]

( Chen Jiawei .

Exploring the Sense of Community for an Online Sport Community: A Case Study of Nippon Professional Baseball Club

[D]. Chaoyang University of Science and Technology, 2006.)

[本文引用: 1]

Gomez-Rodriguez M, Leskovec J, Krause A .

Inferring Network of Diffusion and Influence

[C]// Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2010: 1019-1028.

[本文引用: 1]

邓三鸿, 刘喜文, 蒋勋 .

基于利益相关者理论的突发事件案例知识库构建研究

[J]. 图书与情报, 2015(3):1-8.

[本文引用: 1]

( Deng Sanhong, Liu Xiwen, Jiang Xun .

Constructing Cases Knowledge Base of Emergency Based on Stakeholder’s Theory

[J]. Library & Information, 2015(3):1-8.)

[本文引用: 1]

穆桃, 陈伟, 陈松健 .

基于多层网络流量分析的用户分类方法

[J]. 计算机应用, 2017,37(3):705-710.

[本文引用: 1]

( Mu Tao, Chen Wei, Chen Songjian .

User Classification Method Based on Multi-Layer Network Traffic Analysis

[J]. Journal of Computer Applications, 2017,37(3):705-710.)

[本文引用: 1]

苏朝晖 . 客户关系管理[M]. 第2版. 北京: 高等教育出版社, 2016: 14-16.

[本文引用: 1]

( Su Zhaohui. Customer Relationship Management[M]. The 2nd Edition. Beijing: Higher Education Press, 2016: 14-16.)

[本文引用: 1]

贺超波, 杨镇雄, 洪少文 , .

应用随机游走的社交网络用户分类方法

[J]. 计算机科学, 2015,42(2):198-202.

[本文引用: 2]

( He Chaobo, Yang Zhenxiong, Hong Shaowen , et al.

User Classification Method in Online Social Network Using Random Walks

[J]. Computer Science, 2015,42(2):198-202.)

[本文引用: 2]

Wu S, Hofman J, Mason W , et al.

Who Says What to Whom on Twitter

[C]// Proceedings of the 20th International Conference on World Wide Web. 2011: 705-714.

[本文引用: 1]

Rao D, Yarowsky D, Shreevats A , et al.

Classifying Latent User Attributes in Twitter

[C]// Proceedings of the 2nd International Workshop on Search and Mining User-generated Contents. ACM, 2010: 37-44.

[本文引用: 1]

Zubiaga A, Körner C, Strohmaier M .

Tags vs Shelves: From Social Tagging to Social Classification

[C]// Proceedings of the 22nd ACM Conference on Hypertext and Hypermedia. ACM, 2011: 93-102.

[本文引用: 1]

Pennacchiotti M, Popescu A M.

A Machine Learning Approach to Twitter User Classification

[C]// Proceedings of the 5th International AAAI Conference on Weblogs and Social Media. AAAI Press, 2011: 281-288.

[本文引用: 1]

Shafiq M Z, Ilyas M U, Liu A X , et al.

Identifying Leaders and Followers in Online Social Networks

[J]. IEEE Journal on Selected Areas in Communications, 2013,31(9):618-628.

[本文引用: 1]

Xie D, Xu J, Lu T C .

Automated Classification of Extremist Twitter Accounts Using Content-Based and Network-Based Features

[C]// Proceedings of the 4th International Conference on Big Data. IEEE, 2016: 2545-2549.

[本文引用: 1]

Abu-Salih B, Wongthontham P, Chan K Y .

Twitter Mining for Ontology-Based Domain Discovery Incorporating Machine Learning

[J]. Journal of Knowledge Management, 2018,22(5):949-981.

[本文引用: 1]

赵文兵, 朱庆华, 吴克文 , .

微博客用户特性及动机分析——以和讯财经微博为例

[J]. 现代图书情报技术, 2011(2):69-75.

[本文引用: 1]

( Zhao Wenbing, Zhu Qinghua, Wu Kewen , et al.

Analysis of Micro-blogging User Character and Motivation——Take Micro-blogging of Hexun.com as an Example

[J]. New Technology of Library and Information Service, 2011(2):69-75.)

[本文引用: 1]

薛云霞, 李寿山, 阮进 .

微博中个人与非个人用户分类方法研究

[J]. 山西大学学报:自然科学版, 2015,38(2):192-198.

[本文引用: 1]

( Xue Yunxia, Li Shoushan, Ruan Jin .

Human and Nonhuman User Classification in Micro-blog

[J]. Journal of Shanxi University: Natural Science Edition, 2015,38(2):192-198.)

[本文引用: 1]

He S, Wang H, Jiang Z H.

Identifying User Behavior on Twitter Based on Multi-scale Entropy

[C]// Proceedings of the 2014 IEEE International Conference on Security, Pattern Analysis, and Cybernetics. IEEE, 2014: 381-384.

[本文引用: 1]

蒋翠清, 宋凯伦, 丁勇 , .

基于用户生成内容的潜在客户识别方法

[J]. 数据分析与知识发现, 2018,2(3):1-8.

[本文引用: 1]

( Jiang Cuiqing, Song Kailun, Ding Yong , et al.

Identifying Potential Customers Based on User-Generated Contents

[J]. Data Analysis and Knowledge Discovery, 2018,2(3):1-8.)

[本文引用: 1]

方洁, 龚立群, 魏疆 .

基于利益相关者理论的微博舆情中的用户分类研究

[J]. 情报科学, 2014,32(1):18-22.

[本文引用: 1]

( Fang Jie, Gong Liqun, Wei Jiang .

A Study of the User’s Classification of Microblog Public Opinion Based on the Stakeholders Theories

[J]. Information Science, 2014,32(1):18-22.)

[本文引用: 1]

李春英, 汤庸, 贺超波 , .

在线社交网络用户分析研究综述

[J]. 华南师范大学学报:自然科学版, 2016,48(5):107-115.

[本文引用: 1]

( Li Chunying, Tang Yong, He Chaobo , et al.

A Survey of Online Social Network Based User Analysis

[J]. Journal of South China Normal University:Natural Science Edition, 2016,48(5):107-115.)

[本文引用: 1]

林燕霞, 谢湘生 .

基于社会认同理论的微博群体用户画像

[J]. 情报理论与实践, 2018,41(3):142-148.

[本文引用: 1]

( Lin Yanxia, Xie Xiangsheng .

User Portrait of Diversified Groups in Micro-blog Based on Social Identity Theory

[J]. Information Studies: Theory & Application, 2018,41(3):142-148.)

[本文引用: 1]

蒋翠清, 王齐林, 刘士喜 , .

中文社会媒体环境下半监督学习的汽车缺陷识别方法

[J]. 中国管理科学, 2014(S1):677-685.

[本文引用: 1]

( Jiang Cuiqing, Wang Qilin, Liu Shixi , et al.

Semi-supervised Learning for Automobile Defect Identification in the Context of Chinese Social Media

[J]. Chinese Journal of Management Science, 2014(S1):677-685.)

[本文引用: 1]

路永和, 李焰锋 .

改进TF-IDF 算法的文本特征项权值计算方法

[J]. 图书情报工作, 2013,57(3):90-95.

DOI:10.7536/j.jssn.0252-3116.2013.03.017      Magsci     [本文引用: 1]

<p>首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(term frequency-inverse document frequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数TW。其次,通过对特征词的卡方分布和TW作对比实验,验证TW能提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值。最后,将TW与TF-IDF结合作为新的特征权重算法,通过在中文分类语料库上的实际分类实验,与其他权重算法比较,验证此种算法的有效性。</p>

( Lu Yonghe, Li Yanfeng .

Improvement of Text Feature Weighting Method Based on TF-IDF Algorithm

[J]. Library and Information Service, 2013,57(3):90-95.)

DOI:10.7536/j.jssn.0252-3116.2013.03.017      Magsci     [本文引用: 1]

<p>首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(term frequency-inverse document frequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数TW。其次,通过对特征词的卡方分布和TW作对比实验,验证TW能提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值。最后,将TW与TF-IDF结合作为新的特征权重算法,通过在中文分类语料库上的实际分类实验,与其他权重算法比较,验证此种算法的有效性。</p>

周立欣, 林杰 .

基于NodeRank 算法的产品特征提取研究

[J]. 数据分析与知识发现, 2018,2(4):90-98.

[本文引用: 1]

( Zhou Lixin, Lin Jie .

Extracting Product Features with NodeRank Algorithm

[J]. Data Analysis and Knowledge Discovery, 2018,2(4):90-98.)

[本文引用: 1]

Philips M E . Hurricane Harvey Twitter Dataset[DB/OL]. [2017-11-22].

URL     [本文引用: 1]

RANKS NL . Stopwords[DB/OL]. [2018-6-19].

URL     [本文引用: 1]

陈远, 王超群, 胡忠义 , .

基于主成分分析和随机森林的恶意网站评估与识别

[J]. 数据分析与知识发现, 2018,2(4):71-79.

[本文引用: 1]

( Chen Yuan, Wang Chaoqun, Hu Zhongyi , et al.

Identifying Malicious Websites with PCA and Random Forest Methods

[J]. Data Analysis and Knowledge Discovery, 2018,2(4):71-79.)

[本文引用: 1]

/

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn