Please wait a minute...
Advanced Search
数据分析与知识发现  2021, Vol. 5 Issue (6): 126-134     https://doi.org/10.11925/infotech.2096-3467.2021.0098
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于BERT-BiGA模型的标题党新闻识别研究*
尹鹏博,潘伟民(),张海军,陈德刚
新疆师范大学计算机科学技术学院 乌鲁木齐 830054
Identifying Clickbait with BERT-BiGA Model
Yin Pengbo,Pan Weimin(),Zhang Haijun,Chen Degang
College of Computer Science and Technology, Xinjiang Normal University, Urumqi 830054, China
全文: PDF (1288 KB)   HTML ( 23
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 为了识别网络新闻中的标题党现象,提出一种以中文BERT模型为基础,结合BiGRU和融合注意力机制的标题党新闻检测方法。【方法】 该方法使用中文BERT预训练模型作为文本编码器,通过融合注意力机制提取文本特征,最后使用BiGRU直接对新闻标题和新闻内容进行建模,通过它们之间的语义相关度判定是否为标题党。【结果】 该方法避免使用文本相似度计算方法中复杂的特征工程和误差二次放大等问题,取得了81%的识别准确率。并且开发浏览器插件为新闻读者实现标题党新闻实时检测。【局限】 标题党判别机制只考虑新闻标题和内容,未将阅读数、点赞数和评论等信息纳入计算。【结论】 该方法在召回率指标上取得了4%的提升,可以看出该方法对于标题党新闻的特征更敏感。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
尹鹏博
潘伟民
张海军
陈德刚
关键词 新闻标题党识别中文BERTBiGRU注意力机制    
Abstract

[Objective] This paper proposes an algorithm with BiGRU and attention mechanism based on the Chinese BERT model,aiming to identify the clickbait from online news titles. [Methods] First, we pre-trained our model as a text encoder using the Chinese BERT. Then, we extracted text features through the fusion attention mechanism, and used BiGRU to model news titles and contents. Finally, we identified clickbait based on their semantic correlation. [Results] This method addressed the issues of complex feature engineering and secondary error amplification in the text similarity calculation. The recognition accuracy rate was 81%, and a browser plug-in was developed to detect clickbait. [Limitations] The proposed model only examined news titles and contents, and did not include pageviews, likes, and comments in the calculation. [Conclusions] Our new method, whose recall is 4% higher than those of the existing methods, could effectively identify the clickbait from online news.

Key wordsNews    Clickbait Detection    Chinese BERT    BiGRU    Attention Mechanism
收稿日期: 2021-01-29      出版日期: 2021-07-06
ZTFLH:  TP391  
基金资助:*国家自然科学基金-新疆联合基金项目(U1703261)
通讯作者: 潘伟民     E-mail: panweiminss@163.com
引用本文:   
尹鹏博,潘伟民,张海军,陈德刚. 基于BERT-BiGA模型的标题党新闻识别研究*[J]. 数据分析与知识发现, 2021, 5(6): 126-134.
Yin Pengbo,Pan Weimin,Zhang Haijun,Chen Degang. Identifying Clickbait with BERT-BiGA Model. Data Analysis and Knowledge Discovery, 2021, 5(6): 126-134.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2021.0098      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2021/V5/I6/126
参数
新闻来源 趣头条、hao123、一点资讯、2345新闻
新闻类别 政治、经济、文化、体育、娱乐、教育、游戏、情感
时间范围 2017.01.01-2020.01.01
爬取标准 阅读量大于100的新闻
Table 1  数据源及其设置
字段 说明
Source_name 数据来源站点名称
Title 新闻标题
Content 新闻内容
Abstract 新闻的摘要
Unlikes 不喜欢这篇新闻的人数
Likes 喜欢这篇新闻的人数
views 这篇新闻的浏览数
tags 新闻标签词汇
url 新闻的原文链接
Table 2  新闻数据所包含字段信息
Fig.1  人工标注平台
新闻标题 新闻摘要 标签
20岁男子患上尿毒症,医生:经常喝“它” 小王因为持续的皮肤瘙痒到医院检查,结果发现自己患上了尿毒症。医生提示,当身体出现不适时,要尽快就医 标题党
6年后贾乃亮再爬香山,无意间露出手机壁纸,不是李小璐而是她! 主要内容是贾乃亮和助理两个人一起去爬了香山。贾乃亮拿出手机对着镜头给大家看时间,屏幕壁纸很明显不是和李小璐的合影,但文章未说明是谁 标题党
《仙剑奇侠传》原定主角是他,没有档期才让给胡歌,网友:好险 节目组一开始邀请的男一号并不是胡歌,而是邀请何炅来扮演李逍遥的角色,但当时何炅忙着主持工作,所以才邀请了胡歌 标题党
儿子不愿与53岁的妈妈逛街,只因妈妈太年轻,常被误认为是情侣 在印度尼西亚雅加达,有一位妈妈,虽然已经53岁了,但是脸上丝毫看不出岁月留下的痕迹。每次和儿子走在大街上,总会被别人误认为是他的女朋友,所以连自己的儿子都不愿意跟她一起逛街 正常
Table 3  数据集样本示例
Fig.2  BERT-BiGA模型结构
内容
原文
分词
中文和英文的基本组成单位不同
中文和英文的基本组成单位不同
字Mask
全词Mask
[mask]文 和 英文 的 基[mask] 组成[mask]位 不同
[mask][mask] 和 英文 的 [mask][mask] 组成单位 不同
Table 4  字级Mask和全词Mask对比
Fig.3  BiGRU示意图
方法 准确率 F1值 召回率
Word2Vec-BiGA 0.78 0.78 0.79
BERT-BiGRU 0.76 0.77 0.78
BERT-GA 0.79 0.81 0.82
EBERT-BiGA 0.80 0.81 0.83
BERT-BiGA 0.81 0.82 0.85
Table 5  消融实验结果
方法/模型 准确率 F1值 召回率
SVM 0.70 0.68 0.65
n-grams 0.73 0.72 0.70
LSTM 0.77 0.77 0.79
BiGRU-Att 0.80 0.79 0.81
BERT-BiGA 0.81 0.82 0.85
Table 6  不同模型的实验结果对比
Fig.4  模型的分类鉴别能力
Fig.5  自动检测插件运行效果
[1] Pujahari A, Sisodia D S. Clickbait Detection Using Multiple Categorisation Techniques[J]. Journal of Information Science, 2019,24(5):132-137.
[2] Agrawal A. Clickbait Detection Using Deep Learning[C]// Proceedings of the 2nd International Conference on Next Generation Computing Technologies (NGCT). 2016: 268-272.
[3] Loewenstein G. The Psychology of Curiosity: A Review and Reinterpretation[J]. Psychological Bulletin, 1994,116(1):75-82.
doi: 10.1037/0033-2909.116.1.75
[4] Potthast M, Köpsel S, Stein B, et al. Clickbait Detection[C]// Proceedings of European Conference on Information Retrieval. 2016: 810-817.
[5] 赵帅. 基于改进型VSM-HowNet融合相似度算法在“标题党”新闻识别中的研究[D]. 长春: 吉林大学, 2018.
[5] (Zhao Shuai. A Research on the Recognition of the “Sensational Headline” News Based on an Improved VSM-HowNet Fusion Similarity Algorithm[D]. Changchun: Jilin University, 2018.)
[6] Bourgonje P, Schneider J M, Rehm G. From Clickbait to Fake News Detection: An Approach Based on Detecting the Stance of Headlines to Articles[C]// Proceedings of the 2017 EMNLP Workshop: Natural Language Processing Meets Journalism. 2017: 84-89.
[7] Potthast M, Gollub T, Komlossy K, et al. Crowdsourcing a Large Corpus of Clickbait on Twitter[C]// Proceedings of the 27th International Conference on Computational Linguistics. 2018: 1498-1507.
[8] Shu K, Wang S H, Le T, et al. Deep Headline Generation for Clickbait Detection[C]// Proceedings of 2018 IEEE International Conference on Data Mining (ICDM). 2018: 467-476.
[9] Chen Y M, Conroy N J, Rubin V L. Misleading Online Content: Recognizing Clickbait as “False News”[C]// Proceedings of the 2015 ACM on Workshop on Multimodal Deception Detection. 2015: 15-19.
[10] Chakraborty A, Paranjape B, Kakarla S, et al. Stop Clickbait: Detecting and Preventing Clickbaits in Online News Media[C]// Proceedings of 2016 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. 2016: 9-16.
[11] Biyani P, Tsioutsiouliklis K, Blackmer J. “8 Amazing Secrets for Getting More Clicks”: Detecting Clickbaits in News Streams Using Article Informality[C]// Proceedings of the 31st AAAI Conference on Artificial Intelligence. 2016: 46-53.
[12] 梅钟霄. 基于文本挖掘的新闻标题与内容契合度评价研究[D]. 北京: 首都经济贸易大学, 2018.
[12] (Mei Zhongxiao. Research on Evaluation of News Headlines and Content Correspondence Based on Text Mining[D]. Beijing: Capital University of Economics and Business, 2018.)
[13] 罗佳. 基于潜在语义分析的标题党新闻识别技术研究[D]. 武汉: 湖北工业大学, 2015.
[13] (Luo Jia. Research of Title Party News Identification Technology Based on Latent Semantic Analysis[D]. Wuhan: Hubei University of Technology, 2015.)
[14] Rony M M U, Hassan N, Yousuf M. Diving Deep into Clickbaits: Who Use Them to What Extents in Which Topics with What Effects?[C]// Proceedings of the 2017 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. 2017: 232-239.
[15] Anand A, Chakraborty T, Park N. We Used Neural Networks to Detect Clickbaits: You won’t Believe What Happened Next![C]// Proceedings of European Conference on Information Retrieval. 2017: 541-547.
[16] Chakraborty A, Sarkar R, Mrigen A, et al. Tabloids in the Era of Social Media? Understanding the Production and Consumption of Clickbaits in Twitter[J]. PACM on Human-Computer Interaction, 2017, 1(CSCW): Article No. 30.
[17] Zhou Y W. Clickbait Detection in Tweets Using Self-Attentive Network[OL]. arXiv Preprint, arXiv:1710.05364.
[18] Kumar V, Khattar D, Gairola S, et al. Identifying Clickbait: A Multi-Strategy Approach Using Neural Networks[C]// Proceedings of the 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 2018: 1225-1228.
[19] Cui Y M, Che W X, Liu T, et al. Pre-training with Whole Word Masking for Chinese BERT [OL]. arXiv Preprint, arXiv:1906.08101.
[20] Seo M, Kembhavi A, Farhadi A, et al. Bidirectional Attention Flow for Machine Comprehension [OL]. arXiv Preprint, arXiv:1611.01603.
[21] Vaswani A, Shazeer N, Parmar N, et al. Attention is All You Need [OL]. arXiv Preprint, arXiv:1706.03762.
[22] Tilk O, Alumäe T. Bidirectional Recurrent Neural Network with Attention Mechanism for Punctuation Restoration[C]// Proceedings of Interspeech 2016: Understanding Speech Processing in Human and Machines. 2016: 3047-3051.
[23] Naeem B, Khan A, Beg M O, et al. A Deep Learning Framework for Clickbait Detection on Social Area Network Using Natural Language Cues[J]. Journal of Computational Social Science, 2020,26(2):1-13.
[1] 范涛,王昊,吴鹏. 基于图卷积神经网络和依存句法分析的网民负面情感分析研究*[J]. 数据分析与知识发现, 2021, 5(9): 97-106.
[2] 杨晗迅, 周德群, 马静, 罗永聪. 基于不确定性损失函数和任务层级注意力机制的多任务谣言检测研究*[J]. 数据分析与知识发现, 2021, 5(7): 101-110.
[3] 谢豪,毛进,李纲. 基于多层语义融合的图文信息情感分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 103-114.
[4] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[5] 韩普,张展鹏,张明淘,顾亮. 基于多特征融合的中文疾病名称归一化研究*[J]. 数据分析与知识发现, 2021, 5(5): 83-94.
[6] 许光,任明,宋城宇. 西方媒体新闻中的中国经济形象提取*[J]. 数据分析与知识发现, 2021, 5(5): 30-40.
[7] 张国标,李洁. 融合多模态内容语义一致性的社交媒体虚假新闻检测*[J]. 数据分析与知识发现, 2021, 5(5): 21-29.
[8] 段建勇,魏晓鹏,王昊. 基于多角度共同匹配的多项选择机器阅读理解模型 *[J]. 数据分析与知识发现, 2021, 5(4): 134-141.
[9] 王雨竹,谢珺,陈波,续欣莹. 基于跨模态上下文感知注意力的多模态情感分析 *[J]. 数据分析与知识发现, 2021, 5(4): 49-59.
[10] 王红斌,王健雄,张亚飞,杨恒. 主题不平衡新闻文本数据集的主题识别方法研究*[J]. 数据分析与知识发现, 2021, 5(3): 109-120.
[11] 赵天资, 段亮, 岳昆, 乔少杰, 马子娟. 基于Biterm主题模型的新闻线索生成方法 *[J]. 数据分析与知识发现, 2021, 5(2): 1-13.
[12] 蒋翠清,王香香,王钊. 基于消费者关注度的汽车销量预测方法研究*[J]. 数据分析与知识发现, 2021, 5(1): 128-139.
[13] 吕华揆,刘政昊,钱宇星,洪旭东. 异质性财经新闻与股市关系研究*[J]. 数据分析与知识发现, 2021, 5(1): 99-111.
[14] 黄露,周恩国,李岱峰. 融合特定任务信息注意力机制的文本表示学习模型*[J]. 数据分析与知识发现, 2020, 4(9): 111-122.
[15] 尹浩然,曹金璇,曹鲁喆,王国栋. 扩充语义维度的BiGRU-AM突发事件要素识别研究*[J]. 数据分析与知识发现, 2020, 4(9): 91-99.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn