%A 俞琰, 赵乃瑄 %T 加权专利文本主题模型研究* %0 Journal Article %D 2018 %J 数据分析与知识发现 %R 10.11925/infotech.2096-3467.2017.1068 %P 81-89 %V 2 %N 4 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_4499.shtml} %8 2018-04-25 %X

目的】解决专利文本分析中主题模型向高频词倾斜、区分度低的问题。【方法】提出基于词权重方法, 形成加权专利文本主题模型, 给不同的词分配不同的权重, 改变生成模型生成词的概率。【结果】相较于传统的专利文本主题模型, 本文提出的加权专利主题模型能够增加主题间的区分度。【局限】加权算法需要更多数据集验证, 并不断优化。【结论】通过专利文本数据验证了该方法的可行性与有效性。