Data Analysis and Knowledge Discovery  2022, Vol. 6 Issue (11): 72-78    DOI: 10.11925/infotech.2096-3467.2022.0115
Selecting Optimal LDA Numbers to Identify News Topics
Yang Yang(),Jiang Kaizhong,Yuan Mingjun,Hui Lanxin
School of Mathematics and Statistics, Shanghai University of Engineering Science, Shanghai 201620, China
[Objective] This paper proposes an adaptive method to decide the optimal topic numbers for the LDA model, aiming to effectively identify news topics. [Methods] Frist, we extract the needed data from news using semantics and time series, which helped us construct the corresponding feature vectors. Then, we utilized the Co-DPSC algorithm to collaboratively train the two views and obtained a semantic feature matrix containing timing effects. Finally, we conducted the density peak clustering by row after the matrix dimension reduction, which generated the optimal number of topics. [Results] The precision and F value of the proposed model were improved by 35.09% and 15.39%. [Limitations] We only clustered keywords from news and need to examine the new model with datasets from other fields. [Conclusions] The proposed method could provide better number of topics for the LDA model.

Key wordsLDA Model      News Topics      Multi-View Clustering     
Received: 14 February 2022      Published: 13 January 2023
ZTFLH:  TP393  
Fund:National Statistical Science Research Project of China(2020LY080)
Yang Yang,Jiang Kaizhong,Yuan Mingjun,Hui Lanxin. Selecting Optimal LDA Numbers to Identify News Topics. Data Analysis and Knowledge Discovery, 2022, 6(11): 72-78.

Flow Chart
Clustering Decision Graph
Visualization of Clustering Results
Perplexity for the Number of Different Topics
主题 关键词
Topic1 公司 比赛 球员 基金 市场
Topic2 汽车 市场 北京 消费者 公司
Topic3 市场 增长 销量 发展 同比
Topic4 公司 时间 比赛 俄罗斯 市场
Topic5 公司 车型 时间 市场 情况
Topic6 比赛 车型 计划 欧洲杯 利率
Topic7 比赛 汽车 市场 发展 时间
Topic8 比赛 叙利亚 情况 影响 银行
Topic9 市场 公司 价格 基金 汽车
Topic10 西班牙 比赛 训练 印度 建设
Extraction Results Based on Multi-View Clustering
主题 关键词
Topic1 木雕 市场 情况 血液 比赛
Topic2 男士 谢师宴 酒店 国际 发展
Topic3 游行 部门 民众 项目 经费
Topic4 消费者 价格 花生油 社会 交易
Topic5 车型 市场 人民币 银行 学生
Topic6 官兵 市场 护航 海军 幼师
Topic7 幼儿园 市场 产品 利率 家长
Topic8 比赛 门罗 球员 欧洲杯 影响
Topic9 汽车 印度 面包 车型 北京
Topic10 导弹 美国 利率 公司 发生
Extraction Results Based on Perplexity
方法 T e x t r a c t T c o r r e c t T s t a n d r a d 查准率P/% 查全率R/% F值/%
基于语义与时序的方法 6 4 7 66.67 57.14 61.54
基于困惑度 19 6 7 31.58 85.71 46.15
Method Performance
