%A 严娇,马静,房康 %T 基于融合共现距离的句法网络下文本语义相似度计算 * %0 Journal Article %D 2019 %J 数据分析与知识发现 %R 10.11925/infotech.2096-3467.2019.0737 %P 93-100 %V 3 %N 12 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_4753.shtml} %8 2019-12-25 %X

【目的】综合语义、句法和词频等多种文本信息特征, 突破现有文本相似度计算的局限。【方法】构建融合共现距离和依存句法的文本复杂网络, 运用信息熵确定网络动力学特征指标的权重。利用词嵌入、句法结构和倒排档信息避免词语结构和语义的缺失。【结果】对比实验结果表明, 不同类别下本文算法分类效果的F1值较句法网络+TF-IDF方法最高提高12.1%, 比共现网络+语义方法最高提高5.8%。本文算法的各类别分类效果的平均F1值较二者分别提高5.8%和1.6%。【局限】特征提取中对各指标的选取有待改进, 以更全面地区分节点间的重要性。【结论】与传统方法相比, 本文算法减少了文本信息流失并实现文本降维, 有效地提高了文本相似度计算的准确率。