Please wait a minute...
Advanced Search
数据分析与知识发现  2020, Vol. 4 Issue (2/3): 18-28     https://doi.org/10.11925/infotech.2096-3467.2019.0720
  专辑 本期目录 | 过刊浏览 | 高级检索 |
基于深度融合特征的政务微博转发规模预测模型*
徐月梅(),刘韫文,蔡连侨
北京外国语大学信息科学技术学院 北京 100089
Predicitng Retweets of Government Microblogs with Deep-combined Features
Xu Yuemei(),Liu Yunwen,Cai Lianqiao
School of Information Science and Technology, Beijing Foreign Studies University, Beijing 100089, China
全文: PDF (2023 KB)   HTML ( 23
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 预测政务微博的转发规模,研究及评估影响政府微博传播规模的重要特征,把握政务微博的信息舆论走向。【方法】 针对政务微博的特点,提出一种深度融合特征的政务微博转发预测方案,引入卷积神经网络(CNN)和梯度提升决策树(GBDT)将发布者特征、时间特征及内容特征深度融合,预测政务微博的转发规模并对影响转发规模的特征进行重要性排序,找出影响政务微博转发规模的最重要特征。【结果】 引入文本语义特征显著提升了转发规模的预测准确率,所提模型将政务微博转发规模的预测准确率提升至0.933。特征重要性实验结果表明,文本语义特征在影响政务微博转发规模的所有特征中最为重要。【局限】 未考虑间接转发对整体转发规模的影响。【结论】 深度融合发布者特征、时间特征及内容特征的CNN+GBDT模型能够显著提高政务微博转发规模预测的准确率。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
徐月梅
刘韫文
蔡连侨
关键词 政务微博转发规模预测卷积神经网络文本分类    
Abstract

[Objective] This paper tries to predict the number of retweets of government microblogs, aiming to evaluate the important features affecting retweets and public opinions.[Methods] First, we used the Convolutional Neural Network (CNN) and Gradient Boosting Decision Tree (GBDT) to combine user, time and content features. Then, we predicted the retweet numbers of government microblogs. Finally, we ranked the importance of every feature to find the most important one for retweets.[Results] The proposed model improved the accuracy of retweet prediction to 0.933. The semantic feature of microblog texts is the most important one.[Limitations] We did not study the impacts of indirect retweeting behaviors.[Conclusions] The CNN-GBDT model for deep-combined features could effectively predict retweets of government microblogs.

Key wordsGovernment Microblogs    Retweeting Scale Prediction    Convolutional Neural Network    Text Classification
收稿日期: 2019-06-20      出版日期: 2020-04-26
ZTFLH:  TP393  
基金资助:*本文系北京市社会科学基金项目“北京对外文化传播过程中‘两微一端’影响力比较研究”(No. 15JDZHC011);北京外国语大学一流学科建设项目“基于语义神经网络的文本话题和情感分析研究与实现”的研究成果之一(No. YY19ZZA012)
通讯作者: 徐月梅     E-mail: xuyuemei@bfsu.edu.cn
引用本文:   
徐月梅,刘韫文,蔡连侨. 基于深度融合特征的政务微博转发规模预测模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 18-28.
Xu Yuemei,Liu Yunwen,Cai Lianqiao. Predicitng Retweets of Government Microblogs with Deep-combined Features. Data Analysis and Knowledge Discovery, 2020, 4(2/3): 18-28.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0720      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2020/V4/I2/3/18
Fig.1  基于深度融合特征的政务微博转发预测流程
Fig.2  CNN模型对微博文本的语义打分过程
微博编号 传播规模 微博内容 发布时间 点赞数(次) 转发数(次) 评论数(条) 发布者 粉丝数(人)
1 平安回家过大年 2019-01-18 07:30 536 5 813 474 公安部交通安全微发布 5 309 399
2 爱心护考,交警同行 2018-06-07 15:13 32 64 6 公安部交通安全微发布 5 309 399
3 曾经,在故宫,观画... 2018-07-25 11:34 10 753 5 138 1 149 故宫博物院 6 282 823
Table 1  原始数据集示例
参数 参数值
词向量维度 300
卷积核个数 256
卷积核大小 5
Dropout 0.5
batch_size 64
迭代次数 20
激活函数 ReLU
Table 2  CNN模型参数设置
特征传播
类别
CNN文本语义打分 关键词相似度 粉丝数 发布者日均
发博数
发布者高转
发率
时间特征
1.000 0.317 0.167 0.357 0.147 -1.204
1.000 0.553 0.167 0.357 0.147 -0.223
0.125 0.030 0.024 0.571 0.018 -0.223
0.476 0.065 0.024 0.571 0.018 -0.223
Table 3  转发规模分类器输入数据集示例
混淆矩阵 预测值
高转发 低转发
实际值 高转发 TT TF
低转发 FT FF
Table 4  混淆矩阵
算法 准确率 召回率 精确度 F1值
CNN+SVM 0.905 0.823 0.886 0.861
SVM 0.833 0.695 0.781 0.737
CNN+GBDT 0.933 0.869 0.925 0.918
GBDT 0.842 0.683 0.817 0.768
Table 5  实验结果对比
Fig.3  4种算法的准确率对比
Fig.4  4种算法的召回率对比
Fig.5  4种算法的精确度对比
Fig.6  4种算法的F1值对比
指标
特征组合
准确率 召回率 精确度 F1值
发布者特征+内容特征+时间特征 0.933 0.869 0.925 0.918
发布者特征+时间特征 0.832 0.667 0.800 0.733
内容特征+时间特征 0.886 0.787 0.861 0.852
发布者特征+内容特征 0.931 0.867 0.922 0.912
Table 6  不同特征组合下GBDT模型表现
指标
特征组合
准确率 召回率 精确度 F1值
发布者特征+内容特征+时间特征 0.905 0.823 0.886 0.861
发布者特征+时间特征 0.814 0.681 0.742 0.712
内容特征+时间特征 0.852 0.693 0.837 0.760
发布者特征+内容特征 0.897 0.806 0.877 0.843
Table 7  不同特征组合下SVM模型表现
Fig.7  GBDT对不同特征的重要性排序结果
[1] 刘泱育 . 新闻大学[J]. 新闻大学, 2017(1):78-84.
[1] Liu Yangyu . Communication Efficacy of the Local Government Affairs Micro-blogging in China: Evidence from the Central Government Work Report by the Official Sina Micro-blogging in 31 Provincial Capital Cities[J]. Journalism Bimonthly, 2017(1):78-84.)
[2] 人民网舆情数据中心. 2018年度人民日报政务指数·微博影响力报告[R/OL]. [ 2019- 03- 03]. http://yuqing.people.com.cn/NMediaFile/2019/0121/MAIN201901211335000329860253572.pdf.
[2] ( Public Sentiment Data Center of People’s Daily Online. Government Affairs Index of People’s Daily and Report of Microblog Influence in 2018[R/OL]. [ 2019- 03- 03]. http://yuqing.people.com.cn/NMediaFile/2019/0121/MAIN201901211335000329860253572.pdf.)
[3] 仇学明, 肖基毅, 陈磊 . 基于用户特征的微博转发预测研究[J]. 南华大学学报:自然科学版, 2016,30(4):100-105.
[3] ( Qiu Xueming, Xiao Jiyi, Chen Lei . Research on Micro-blog Forward Prediction Based on User Characteristics[J]. Journal of University of South China: Science and Technology, 2016,30(4):100-105.)
[4] 刘玮, 贺敏, 王丽宏 , 等. 基于用户行为特征的微博转发预测研究[J]. 计算机学报, 2016,39(10):1992-2006.
[4] ( Liu Wei, He Min, Wang Lihong , et al. Research on Microblog Retweeting Prediction Based on User Behavior Features[J]. Chinese Journal of Computers, 2016,39(10):1992-2006.)
[5] 马晓峰, 王磊, 陈观淡 . 基于混合特征学习的微博转发预测方法[J]. 计算机应用与软件, 2016,33(11):249-252, 257.
[5] ( Ma Xiaofeng, Wang Lei, Chen Guandan . A Microblogging Retweet Prediction Method Based on Hybrid Features Learning[J]. Computer Applications and Software, 2016,33(11):249-252, 257.)
[6] 李志清 . 基于LDA主题特征的微博转发预测[J]. 情报杂志, 2015,34(9):158-162.
[6] ( Li Zhiqing . Predicting Retweeting Behavior Based on LDA Topic Features[J]. Journal of Intelligence, 2015,34(9):158-162.)
[7] Kim Y . Convolutional Neural Networks for Sentence Classification [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, Doha, Qatar. 2014: 1746-1751.
[8] Friedman J H . Greedy Function Approximation: A Gradient Boosting Machine[J]. The Annals of Statistics, 2001,29(5):1189-1232.
[9] Petrovic S, Osborne M, Lavrenko V . RT to Win! Predicting Message Propagation in Twitter [C]// Proceedings of the 5th International AAAI Conference on Web and Social Media. 2011.
[10] 曹玖新, 吴江林, 石伟 , 等. 新浪微博网信息传播分析与预测[J]. 计算机学报, 2014,37(4):779-790.
[10] ( Cao Jiuxin, Wu Jianglin, Shi Wei , et al. Sina Microblog Information Diffusion Analysis and Prediction[J]. Chinese Journal of Computers, 2014,37(4):779-790.)
[11] 陈江, 刘玮, 巢文涵 , 等. 融合热点话题的微博转发预测研究[J]. 中文信息学报, 2015,29(6):150-158.
[11] ( Chen Jiang, Liu Wei, Chao Wenhan , et al. Microblog Forwarding Prediction Based on Hot Topics[J]. Journal of Chinese Information Processing, 2015,29(6):150-158.)
[12] Weng J, Lim E P, Jiang J , et al. TwitterRank: Finding Topic Sensitive Influential Twitters [C]// Proceedings of the 3rd ACM International Conference on Web Search and Data Mining. ACM, 2010: 261-270.
[13] 李倩, 张碧君, 赵中英 . 微博信息转发影响因素研究[J]. 软件导刊, 2017,16(1):15-17.
[13] ( Li Qian, Zhang Bijun, Zhao Zhongying . Research on the Influencing Factors of Microblogs Information[J]. Software Guide, 2017,16(1):15-17.)
[14] 周莉, 李晓, 黄娟 . 新闻大学[J].新闻大学, 2015(2):144-152.
[14] ( Zhou Li, Li Xiao, Huang Juan . The Release of Information and Its Impact on Government Microblogs in Emergencies[J]. Journalism Bimonthly, 2015(2):144-152.)
[15] 陈然, 刘洋 . 电子政务[J].电子政务, 20177):108-117.
[15] ( Chen Ran, Liu Yang . Research on the Dissemination Mode of Government Microblogs Based on Retweeting Behaviors[J]. E-Government, 2017(7):108-117.)
[16] 张漫锐, 刘文波 . 政务微博传播效果影响因素研究——以“江宁公安在线”为例[J]. 今传媒, 2017,25(10):72-73.
[16] ( Zhang Manrui, Liu Wenbo . A Study on the Influencing Factors of the Effect of Government Microblogs——Taking Jiangning Public Security Online as an Example[J]. Today’s Massmedia, 2017,25(10):72-73.)
[17] 李倩倩, 姜景, 李瑛 , 等. 我国政务微博转发规模分类预测[J]. 情报杂志, 2018,37(1):95-99.
[17] ( Li Qianqian, Jiang Jing, Li Ying , et al. The Retweeting Scale Classification Prediction of Government Microblogs in China[J]. Journal of Intelligence, 2018,37(1):95-99.)
[18] Maning C D, Schütze H, Raghavan P. 信息检索导论[M]. 王斌译. 北京: 人民邮电出版社, 2011.
[18] ( Manning C D, Schütze H, Raghavan P. Introduction to Information Retrieval[M]. Translated by Wang Bin. Beijing: Post &Telecom Press, 2011.)
[19] Ilia I, Tsangaratos P . Applying Weight of Evidence Method and Sensitivity Analysis to Produce a Landslide Susceptibility Map[J]. Landslides, 2016,13(2):379-397.
[1] 范少萍,赵雨宣,安新颖,吴清强. 基于卷积神经网络的医学实体关系分类模型研究*[J]. 数据分析与知识发现, 2021, 5(9): 75-84.
[2] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[3] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[4] 范涛,王昊,吴鹏. 基于图卷积神经网络和依存句法分析的网民负面情感分析研究*[J]. 数据分析与知识发现, 2021, 5(9): 97-106.
[5] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[6] 孟镇,王昊,虞为,邓三鸿,张宝隆. 基于特征融合的声乐分类研究*[J]. 数据分析与知识发现, 2021, 5(5): 59-70.
[7] 韩普,张展鹏,张明淘,顾亮. 基于多特征融合的中文疾病名称归一化研究*[J]. 数据分析与知识发现, 2021, 5(5): 83-94.
[8] 王艳, 王胡燕, 余本功. 基于多特征融合的中文文本分类研究*[J]. 数据分析与知识发现, 2021, 5(10): 1-14.
[9] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[10] 邱尔丽,何鸿魏,易成岐,李慧颖. 基于字符级CNN技术的公共政策网民支持度研究 *[J]. 数据分析与知识发现, 2020, 4(7): 28-37.
[11] 王思迪,胡广伟,杨巳煜,施云. 基于文本分类的政府网站信箱自动转递方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 51-59.
[12] 刘伟江,魏海,运天鹤. 基于卷积神经网络的客户信用评估模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 80-90.
[13] 向菲,谢耀谈. 基于混合采样与迁移学习的患者评论识别模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 39-47.
[14] 彭郴,吕学强,孙宁,张乐,姜肇财,宋黎. 基于CNN的消费品缺陷领域词典构建方法研究*[J]. 数据分析与知识发现, 2020, 4(11): 112-120.
[15] 徐彤彤,孙华志,马春梅,姜丽芬,刘逸琛. 基于双向长效注意力特征表达的少样本文本分类模型研究*[J]. 数据分析与知识发现, 2020, 4(10): 113-123.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn