数据分析与知识发现  2021, Vol. 5 Issue (5): 21-29
1武汉大学信息管理学院 武汉 430072
2武汉大学信息检索与知识挖掘研究所 武汉 430072
3苏州大学社会学院 苏州 215000
Detecting Social Media Fake News with Semantic Consistency Between Multi-model Contents
Zhang Guobiao1,2,Li Jie3()
1School of Information Management, Wuhan University, Wuhan 430072, China
2Institute for Information Retrieval and Knowledge Mining, Wuhan University, Wuhan 430072, China
3School of Sociology, Soochow University, Suzhou 215000, China
【目的】 实现社交媒体虚假新闻早期检测,遏制虚假信息的广泛传播。【方法】 在同时利用图像与文本特征的基础上,通过将图像映射为语义标签,设计了一种图像与文本内容语义一致性计算方法,构建虚假新闻检测模型,并采用虚假新闻检测标准数据集FakeNewsNet验证模型的性能。【结果】 融合新闻图像与文本语义一致性特征的全特征模型在PolitiFact数据上的检测F1值达到0.775,在GossipCop数据上的F1值达到0.879,说明该模型具有良好的检测效果。【局限】 由于现有图像语义标注模型标注能力的局限性,尚无法准确描述图像内容,所计算的语义一致性存在误差。【结论】 多模态特征融合能够有效提升虚假新闻检测性能,本文构建的新闻文本与图像语义一致性特征能够丰富和拓展虚假新闻检测依据。

关键词 虚假新闻检测社交媒体多模态特征融合语义一致性深度学习    

[Objective] This study aims to detect fake news on social media earlier and curb the dissemination of mis/dis-information. [Methods] Based on the features of news images and texts, we mapped the images to semantic tags and calculated the semantic consistency between images and texts. Then, we constructed a model to detect fake news. Finally, we examined our new model with the FakeNewsNet dataset. [Results] The F1 value of our model was up to 0.775 on PolitiFact data and 0.879 on GossipCop data. [Limitations] Due to the limits of existing annotation methods for image semantics, we could not accurately describe image contents, and calculate semantic consistency. [Conclusions] The constructed model could effectively detect fake news from social media.

Key wordsFake News Detection    Social Media    Multi-modal Feature Fusion    Semantic Consistency    Deep Learning
收稿日期: 2020-09-08      出版日期: 2020-11-24
ZTFLH:  TP393  
通讯作者: 李洁     E-mail:
张国标,李洁. 融合多模态内容语义一致性的社交媒体虚假新闻检测*[J]. 数据分析与知识发现, 2021, 5(5): 21-29.
Zhang Guobiao,Li Jie. Detecting Social Media Fake News with Semantic Consistency Between Multi-model Contents. Data Analysis and Knowledge Discovery, 2021, 5(5): 21-29.
Fig.1  虚假新闻图文内容语义不一致示例
Fig.2  图像标签映射过程
Fig.3  多模态特征融合的社交媒体虚假新闻检测模型
项目 PolitiFact GossipCop
Fake True Fake True
训练集 2 466 3 190 14 737 17 922
验证集 352 456 2 105 2 560
测试集 705 912 4 210 5 121
总计 3 523 4 558 21 052 25 603
Table 1  FakeNewsNet实验数据
参数 参数值
Epoch 50
Dropout 0.4
Batch_size 32
激活函数 ReLU
学习率 0.0001
图像全连接层神经元个数 200
MLP各层神经元个数 500,200,100
Tabel 2  
特征类型 PolitiFact GossipCop
准确度 精确率 召回率 F1 准确度 精确率 召回率 F1
文本特征 0.761 0.768 0.773 0.753 0.836 0.810 0.821 0.815
图像特征 0.540 0.520 0.560 0.520 0.654 0.704 0.702 0.653
语义一致性特征 0.520 0.450 0.524 0.480 0.564 0.530 0.545 0.548
文本与图像特征 0.782 0.784 0.813 0.770 0.857 0.827 0.838 0.836
全部特征 0.791 0.792 0.803 0.775 0.883 0.864 0.853 0.879
EANN 0.776 0.764 0.798 0.768 0.841 0.814 0.796 0.806
Tabel 3  
Fig.4  各CNN模型语义一致性均值
Fig.5  新闻图文语义一致性案例
