%A 武楷彪, 郎宇翔, 董瑜 %T 融合句法结构和词义信息的政策文本关联挖掘方法研究* %0 Journal Article %D 2022 %J 数据分析与知识发现 %R 10.11925/infotech.2096-3467.2021.0606 %P 20-33 %V 6 %N 5 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_5357.shtml} %8 2022-05-25 %X

【目的】 进一步提高政策文本语义关联挖掘的深度,探索政策文本关联挖掘方法。【方法】 融合依存句法分析和词嵌入模型,分别从句子信息和词义信息角度挖掘政策文本内容深层次语义关联,且在设置依存句法抽取规则时充分考虑政策文本的用语特征。【结果】 在方法效果上,在政策文本关联程度区分相对较低的测试数据集中,所提方法F1值达到0.857,相较于融合TF-IDF和余弦相似度的算法,提升了22.78%;在方法功能上,可从文本用词的细微差异刻画政策文本关联。【局限】 在语义信息挖掘上,方法目前采用开源模型,后续可自主训练特定政策领域词向量模型以进一步提高准确度;在句子信息挖掘上,方法依赖于现有依存句法分析工具的准确性。【结论】 所提方法效果较好,功能较强,能有效揭示政策文本内容关联程度,可为政策文本量化研究提供新的研究视角和工具方法。