数据分析与知识发现  2022, Vol. 6 Issue (5): 54-63
北京信息科技大学网络文化与数字传播北京市重点实验室 北京 100101
Extracting Keywords from Government Work Reports with Multi-feature Fusion
Pan Huiping,Li Baoan,Zhang Le,Lv Xueqiang()
Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China
全文: PDF (859 KB)   HTML ( 18
【目的】 通过融合BERT词向量、五笔特征、领域同义词表信息以及字频特征于BiLSTM-CRF模型,实现对政府工作报告语料集的关键词自动提取。【方法】 利用BERT向量和五笔向量捕捉输入序列的语义特征和字形特征,通过融合针对政府工作报告所构建的领域同义词表,捕捉输入序列的类别特征,并进一步将字频特征作为权重值赋值于词向量捕捉输入序列上下文特征,使BiLSTM-CRF模型捕捉到更多的语义信息,实现对政府工作报告的关键词自动提取。【结果】 基于多特征融合的关键词提取方法,在自建的政府工作报告语料库上,准确率、召回率和F1值分别达到86.14%、91.56%以及88.42%。此外,通过消融实验评估了方法中各特征的有效性。【局限】 模型针对政府工作报告领域取得了较好的结果,在之后的工作中需要提高模型的泛化能力。【结论】 基于多特征融合的关键词提取方法与其他关键词提取基线方法相比,具有更好的提取效果。

关键词 关键词提取政府工作报告BERT五笔字频    

[Objective] This paper proposes a modified BiLSTM-CRF model to automatically extract keywords from the government work reports with the help of BERT word vector, Wubi features, domain synonyms, and word frequencies. [Methods] First, we used the BERT and Wubi vectors to capture the semantic and font features of the input sequence. Then, we captured the category features of the input sequence with the domain synonym table for the government work reports. Third, we assigned the word frequency features as weight to the word vector to capture context features of input sequence. Finally, we used the BiLSTM-CRF model to retrieve more semantic information and automatically extract keywords from government work reports. [Results] We examined the proposed model on the self-built corpus of government work reports. The precision, recall and F1 values reached 86.14%, 91.56%, and 88.42%. We also evaluated the validity of each feature in the model with the ablation experiment. [Limitations] More research is needed to utilize the model to other texts. [Conclusions] The proposed method could effectively extract keywords from Chinese texts.

Key wordsExtraction    Government Work Report    BERT    Wubi    Word Frequency
收稿日期: 2021-07-13      出版日期: 2022-03-01
ZTFLH:  TP393  
通讯作者: 吕学强,ORCID:0000-0002-1422-0560     E-mail:
潘慧萍, 李宝安, 张乐, 吕学强. 基于多特征融合的政府工作报告关键词提取研究*[J]. 数据分析与知识发现, 2022, 6(5): 54-63.
Pan Huiping, Li Baoan, Zhang Le, Lv Xueqiang. Extracting Keywords from Government Work Reports with Multi-feature Fusion. Data Analysis and Knowledge Discovery, 2022, 6(5): 54-63.
Fig.1  基于多特征融合的关键词提取模型整体架构
环境 版本
操作系统 Linux
CPU Intel(R) Xeon(R) Gold 5118 CPU @2.30GHz
显卡 Tesla P4
Python 3.6.9
PyTorch 1.6.0
Table 1  实验环境
序号 模型 P/% R/% F1/%
1 BertVecRank 42.60 42.60 42.60
2 Word2Vec-BiLSTM-CRF 67.81 59.33 63.29
3 BERT-BiLSTM-CRF 83.30 86.88 84.64
4 基于多特征融合的关键词提取方法 86.14 91.56 88.42
Table 2  政府工作报告关键词提取对比实验结果
序号 语段 标注
BertVecRank Word2Vec-BiLSTM-CRF BERT-BiLSTM-CRF 基于多特征融合的关键词提取方法
1 农村综合改革稳步推进,农业税全部取消。企业改革继续深化,60%的省管企业完成了主辅分离,74家上市公司全部完成或进入股权分置改革程序。民营经济不断发展壮大,非公有制经济占全省生产总值的比重达到52%。 企业
2 深入开展“执政为民、服务发展”学习整改活动,强化“五种观念”,解决“五大问题”。政府各部门针对思想禁锢、程序繁琐、效率不高和官僚习气等突出问题,认真查找整改,服务意识增强,工作作风得到改进。深化行政管理体制改革,下放了一批行政管理权限,精简了一批行政审批事项,减少了一批行政事业性收费项目,发展环境进一步改善。 行政
3 (七)努力做好就业再就业和社会保障工作,切实解决人民等措施,鼓励和支持劳动者自主创业。落实社会保险补贴和岗位补贴政策,鼓励企业吸纳更多下岗失业人员再就业。落实就业培训补贴政策,加强城乡劳动力职业技能培训。城市低保政策与就业政策联动,指导和帮助16.3万下岗失业人员实现就业再就业。 就业
Table 3  关键词提取模型结果的样例说明
序号 特征组合 P/% R/% F1/%
A BERT-Wubi-BiLSTM-CRF 84.35 89.66 86.57
B BERT-Count-BiLSTM-CRF 85.37 90.05 87.28
C BERT-Wubi-Count-BiLSTM-CRF 86.03 90.61 87.89
D 基于多特征融合的关键词提取方法 86.14 91.56 88.42
Table4  各特征组合实验结果
