Please wait a minute...
Advanced Search
数据分析与知识发现  2020, Vol. 4 Issue (2/3): 18-28    DOI: 10.11925/infotech.2096-3467.2019.0720
  专辑 本期目录 | 过刊浏览 | 高级检索 |
基于深度融合特征的政务微博转发规模预测模型*
徐月梅(),刘韫文,蔡连侨
北京外国语大学信息科学技术学院 北京 100089
Predicitng Retweets of Government Microblogs with Deep-combined Features
Xu Yuemei(),Liu Yunwen,Cai Lianqiao
School of Information Science and Technology, Beijing Foreign Studies University, Beijing 100089, China
全文: PDF(2023 KB)   HTML ( 19
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 预测政务微博的转发规模,研究及评估影响政府微博传播规模的重要特征,把握政务微博的信息舆论走向。【方法】 针对政务微博的特点,提出一种深度融合特征的政务微博转发预测方案,引入卷积神经网络(CNN)和梯度提升决策树(GBDT)将发布者特征、时间特征及内容特征深度融合,预测政务微博的转发规模并对影响转发规模的特征进行重要性排序,找出影响政务微博转发规模的最重要特征。【结果】 引入文本语义特征显著提升了转发规模的预测准确率,所提模型将政务微博转发规模的预测准确率提升至0.933。特征重要性实验结果表明,文本语义特征在影响政务微博转发规模的所有特征中最为重要。【局限】 未考虑间接转发对整体转发规模的影响。【结论】 深度融合发布者特征、时间特征及内容特征的CNN+GBDT模型能够显著提高政务微博转发规模预测的准确率。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
徐月梅
刘韫文
蔡连侨
关键词 政务微博转发规模预测卷积神经网络文本分类    
Abstract

[Objective] This paper tries to predict the number of retweets of government microblogs, aiming to evaluate the important features affecting retweets and public opinions.[Methods] First, we used the Convolutional Neural Network (CNN) and Gradient Boosting Decision Tree (GBDT) to combine user, time and content features. Then, we predicted the retweet numbers of government microblogs. Finally, we ranked the importance of every feature to find the most important one for retweets.[Results] The proposed model improved the accuracy of retweet prediction to 0.933. The semantic feature of microblog texts is the most important one.[Limitations] We did not study the impacts of indirect retweeting behaviors.[Conclusions] The CNN-GBDT model for deep-combined features could effectively predict retweets of government microblogs.

Key wordsGovernment Microblogs    Retweeting Scale Prediction    Convolutional Neural Network    Text Classification
收稿日期: 2019-06-20     
中图分类号:  TP393  
基金资助:*本文系北京市社会科学基金项目“北京对外文化传播过程中‘两微一端’影响力比较研究”(No. 15JDZHC011);北京外国语大学一流学科建设项目“基于语义神经网络的文本话题和情感分析研究与实现”的研究成果之一(No. YY19ZZA012)
通讯作者: 徐月梅     E-mail: xuyuemei@bfsu.edu.cn
引用本文:   
徐月梅,刘韫文,蔡连侨. 基于深度融合特征的政务微博转发规模预测模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 18-28.
Xu Yuemei,Liu Yunwen,Cai Lianqiao. Predicitng Retweets of Government Microblogs with Deep-combined Features. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2019.0720.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0720
图1  基于深度融合特征的政务微博转发预测流程
图2  CNN模型对微博文本的语义打分过程
微博编号 传播规模 微博内容 发布时间 点赞数(次) 转发数(次) 评论数(条) 发布者 粉丝数(人)
1 平安回家过大年 2019-01-18 07:30 536 5 813 474 公安部交通安全微发布 5 309 399
2 爱心护考,交警同行 2018-06-07 15:13 32 64 6 公安部交通安全微发布 5 309 399
3 曾经,在故宫,观画... 2018-07-25 11:34 10 753 5 138 1 149 故宫博物院 6 282 823
表1  原始数据集示例
参数 参数值
词向量维度 300
卷积核个数 256
卷积核大小 5
Dropout 0.5
batch_size 64
迭代次数 20
激活函数 ReLU
表2  CNN模型参数设置
特征传播
类别
CNN文本语义打分 关键词相似度 粉丝数 发布者日均
发博数
发布者高转
发率
时间特征
1.000 0.317 0.167 0.357 0.147 -1.204
1.000 0.553 0.167 0.357 0.147 -0.223
0.125 0.030 0.024 0.571 0.018 -0.223
0.476 0.065 0.024 0.571 0.018 -0.223
表3  转发规模分类器输入数据集示例
混淆矩阵 预测值
高转发 低转发
实际值 高转发 TT TF
低转发 FT FF
表4  混淆矩阵
算法 准确率 召回率 精确度 F1值
CNN+SVM 0.905 0.823 0.886 0.861
SVM 0.833 0.695 0.781 0.737
CNN+GBDT 0.933 0.869 0.925 0.918
GBDT 0.842 0.683 0.817 0.768
表5  实验结果对比
图3  4种算法的准确率对比
图4  4种算法的召回率对比
图5  4种算法的精确度对比
图6  4种算法的F1值对比
指标
特征组合
准确率 召回率 精确度 F1值
发布者特征+内容特征+时间特征 0.933 0.869 0.925 0.918
发布者特征+时间特征 0.832 0.667 0.800 0.733
内容特征+时间特征 0.886 0.787 0.861 0.852
发布者特征+内容特征 0.931 0.867 0.922 0.912
表6  不同特征组合下GBDT模型表现
指标
特征组合
准确率 召回率 精确度 F1值
发布者特征+内容特征+时间特征 0.905 0.823 0.886 0.861
发布者特征+时间特征 0.814 0.681 0.742 0.712
内容特征+时间特征 0.852 0.693 0.837 0.760
发布者特征+内容特征 0.897 0.806 0.877 0.843
表7  不同特征组合下SVM模型表现
图7  GBDT对不同特征的重要性排序结果
[1] 刘泱育 . 新闻大学[J]. 新闻大学, 2017(1):78-84.
Liu Yangyu . Communication Efficacy of the Local Government Affairs Micro-blogging in China: Evidence from the Central Government Work Report by the Official Sina Micro-blogging in 31 Provincial Capital Cities[J]. Journalism Bimonthly, 2017(1):78-84.)
[2] 人民网舆情数据中心. 2018年度人民日报政务指数·微博影响力报告[R/OL]. [ 2019- 03- 03]. http://yuqing.people.com.cn/NMediaFile/2019/0121/MAIN201901211335000329860253572.pdf.
( Public Sentiment Data Center of People’s Daily Online. Government Affairs Index of People’s Daily and Report of Microblog Influence in 2018[R/OL]. [ 2019- 03- 03]. http://yuqing.people.com.cn/NMediaFile/2019/0121/MAIN201901211335000329860253572.pdf.)
[3] 仇学明, 肖基毅, 陈磊 . 基于用户特征的微博转发预测研究[J]. 南华大学学报:自然科学版, 2016,30(4):100-105.
( Qiu Xueming, Xiao Jiyi, Chen Lei . Research on Micro-blog Forward Prediction Based on User Characteristics[J]. Journal of University of South China: Science and Technology, 2016,30(4):100-105.)
[4] 刘玮, 贺敏, 王丽宏 , 等. 基于用户行为特征的微博转发预测研究[J]. 计算机学报, 2016,39(10):1992-2006.
( Liu Wei, He Min, Wang Lihong , et al. Research on Microblog Retweeting Prediction Based on User Behavior Features[J]. Chinese Journal of Computers, 2016,39(10):1992-2006.)
[5] 马晓峰, 王磊, 陈观淡 . 基于混合特征学习的微博转发预测方法[J]. 计算机应用与软件, 2016,33(11):249-252, 257.
( Ma Xiaofeng, Wang Lei, Chen Guandan . A Microblogging Retweet Prediction Method Based on Hybrid Features Learning[J]. Computer Applications and Software, 2016,33(11):249-252, 257.)
[6] 李志清 . 基于LDA主题特征的微博转发预测[J]. 情报杂志, 2015,34(9):158-162.
( Li Zhiqing . Predicting Retweeting Behavior Based on LDA Topic Features[J]. Journal of Intelligence, 2015,34(9):158-162.)
[7] Kim Y . Convolutional Neural Networks for Sentence Classification [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, Doha, Qatar. 2014: 1746-1751.
[8] Friedman J H . Greedy Function Approximation: A Gradient Boosting Machine[J]. The Annals of Statistics, 2001,29(5):1189-1232.
[9] Petrovic S, Osborne M, Lavrenko V . RT to Win! Predicting Message Propagation in Twitter [C]// Proceedings of the 5th International AAAI Conference on Web and Social Media. 2011.
[10] 曹玖新, 吴江林, 石伟 , 等. 新浪微博网信息传播分析与预测[J]. 计算机学报, 2014,37(4):779-790.
( Cao Jiuxin, Wu Jianglin, Shi Wei , et al. Sina Microblog Information Diffusion Analysis and Prediction[J]. Chinese Journal of Computers, 2014,37(4):779-790.)
[11] 陈江, 刘玮, 巢文涵 , 等. 融合热点话题的微博转发预测研究[J]. 中文信息学报, 2015,29(6):150-158.
( Chen Jiang, Liu Wei, Chao Wenhan , et al. Microblog Forwarding Prediction Based on Hot Topics[J]. Journal of Chinese Information Processing, 2015,29(6):150-158.)
[12] Weng J, Lim E P, Jiang J , et al. TwitterRank: Finding Topic Sensitive Influential Twitters [C]// Proceedings of the 3rd ACM International Conference on Web Search and Data Mining. ACM, 2010: 261-270.
[13] 李倩, 张碧君, 赵中英 . 微博信息转发影响因素研究[J]. 软件导刊, 2017,16(1):15-17.
( Li Qian, Zhang Bijun, Zhao Zhongying . Research on the Influencing Factors of Microblogs Information[J]. Software Guide, 2017,16(1):15-17.)
[14] 周莉, 李晓, 黄娟 . 新闻大学[J].新闻大学, 2015(2):144-152.
( Zhou Li, Li Xiao, Huang Juan . The Release of Information and Its Impact on Government Microblogs in Emergencies[J]. Journalism Bimonthly, 2015(2):144-152.)
[15] 陈然, 刘洋 . 电子政务[J].电子政务, 20177):108-117.
( Chen Ran, Liu Yang . Research on the Dissemination Mode of Government Microblogs Based on Retweeting Behaviors[J]. E-Government, 2017(7):108-117.)
[16] 张漫锐, 刘文波 . 政务微博传播效果影响因素研究——以“江宁公安在线”为例[J]. 今传媒, 2017,25(10):72-73.
( Zhang Manrui, Liu Wenbo . A Study on the Influencing Factors of the Effect of Government Microblogs——Taking Jiangning Public Security Online as an Example[J]. Today’s Massmedia, 2017,25(10):72-73.)
[17] 李倩倩, 姜景, 李瑛 , 等. 我国政务微博转发规模分类预测[J]. 情报杂志, 2018,37(1):95-99.
( Li Qianqian, Jiang Jing, Li Ying , et al. The Retweeting Scale Classification Prediction of Government Microblogs in China[J]. Journal of Intelligence, 2018,37(1):95-99.)
[18] Maning C D, Schütze H, Raghavan P. 信息检索导论[M]. 王斌译. 北京: 人民邮电出版社, 2011.
( Manning C D, Schütze H, Raghavan P. Introduction to Information Retrieval[M]. Translated by Wang Bin. Beijing: Post &Telecom Press, 2011.)
[19] Ilia I, Tsangaratos P . Applying Weight of Evidence Method and Sensitivity Analysis to Produce a Landslide Susceptibility Map[J]. Landslides, 2016,13(2):379-397.
[1] 向菲,谢耀谈. 基于混合采样与迁移学习的患者评论识别模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 39-47.
[2] 余本功,曹雨蒙,陈杨楠,杨颖. 基于nLD-SVM-RF的短文本分类研究*[J]. 数据分析与知识发现, 2020, 4(1): 111-120.
[3] 聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 *[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[4] 邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
[5] 秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 *[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[6] 陈果,许天祥. 基于主动学习的科技论文句子功能识别研究 *[J]. 数据分析与知识发现, 2019, 3(8): 53-61.
[7] 刘勘,陈露. 面向医疗分诊的深度神经网络学习*[J]. 数据分析与知识发现, 2019, 3(6): 99-108.
[8] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
[9] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
[10] 陶志勇,李小兵,刘影,刘晓芳. 基于双向长短时记忆网络的改进注意力短文本分类方法 *[J]. 数据分析与知识发现, 2019, 3(12): 21-29.
[11] 李钰曼,陈志泊,许福. 基于KACC模型的文本分类研究 *[J]. 数据分析与知识发现, 2019, 3(10): 89-97.
[12] 张紫玄,王昊,朱立平,邓三鸿. 中国海关HS编码风险的识别研究*[J]. 数据分析与知识发现, 2019, 3(1): 72-84.
[13] 徐月梅,吕思凝,蔡连侨,张小娅. 结合卷积神经网络和Topic2Vec的新闻主题演变分析*[J]. 数据分析与知识发现, 2018, 2(9): 31-41.
[14] 李心蕾,王昊,刘小敏,邓三鸿. 面向微博短文本分类的文本向量化方法比较研究*[J]. 数据分析与知识发现, 2018, 2(8): 41-50.
[15] 李琳,李辉. 一种基于概念向量空间的文本相似度计算方法[J]. 数据分析与知识发现, 2018, 2(5): 48-58.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn