基于多因素特征选择与AFOA/K-means的新闻热点发现方法

温廷新¹, 李洋子¹^,, 孙静霜²

¹辽宁工程技术大学系统工程研究所葫芦岛 125105

²辽宁工程技术大学工商管理学院葫芦岛 125105

Wen Tingxin¹, Li Yangzi¹^,, Sun Jingshuang²

¹Institute of Systems Engineering, Liaoning Technical University, Huludao 125105, China

²College of Business Administration, Liaoning Technical University, Huludao 125105, China

通讯作者: 李洋子, ORCID: 0000-0002-1392-0709, E-mail: 598190079@qq.com。

基金资助: *本文系辽宁省社会科学规划基金项目“辽宁新型城镇化评价指标体系研究”(项目编号: L14BTJ004)的研究成果之一;

中图分类号: G250

摘要:

【目的】研究新闻文本的特征降维方法及聚类算法, 以期进一步提升热点话题发现效率及准确率。【方法】基于传统TF-IDF特征权重计算方法, 引入符号、词性、位置及长度4个特征加权, 实现多因素特征选择。从编码方式、适应度函数、自适应步长及群体适应度方差这4方面构造改进果蝇优化算法(Ameliorated Fruit Fly Optimization Algorithm, AFOA), 利用AFOA优选K-means初始聚类中心, 实现优化后的K-means热点话题发现。采用多因素特征选择识别热点话题, 利用TOPSIS获得热点话题排名。【结果】相关实验表明, 多因素特征选择及AFOA/K-means算法分别显著提高了聚类效果, 验证了所提方法整体有效性。【局限】仅适用于中文新闻文本。【结论】本文方法能够为中文新闻热点发现方法研究提供一条新思路。

关键词: 网络新闻 ; 热点话题发现 ; 多因素特征选择 ; AFOA/K-means算法 ; TOPSIS模型

Abstract:

[Objective] This paper aims to improve the efficiency and accuracy of the hot topic by studying the feature reduction method and clustering algorithm of the news text. [Methods] Based on the traditional TF-IDF formula, the four features are introduced to realize multi factor feature selection, including weighting of symbol, part of speech, position and length. The Ameliorated Fruit fly Optimization Algorithm(AFOA) is constructed from four aspects of coding, fitness function, adaptive step length and population fitness variance. AFOA is used to optimize the K-means initial cluster center, and the optimized K-means is used to find hot topics. Multi factor feature selection is used to identify hot topics, and hot topic ranking is achieved by using TOPSIS. [Results] Relevant experiments show that multi factor feature selection and AFOA/K-means algorithm significantly improve the clustering effect respectively, and verify the overall effectiveness of the proposed method. [Limitations] It is only applicable to Chinese news texts. [Conclusions] The proposed method can provide a new idea for the research of Chinese news hotspots discovery.

Key words: Network News ; Hot Topic Discovery ; Multi Factor Feature Selection ; AFOA/K-means Algorithm ; TOPSIS Model

1 引言

随着互联网的普及和快速发展, 其信息发布成本极低、信息发布与传播极为迅速、实时交互性强的特点, 使互联网成为各大新闻媒体发布新闻及人们获取新闻信息的重要平台。网络新闻文本数量庞大且内容复杂, 为满足用户快速且准确获取感兴趣的网络新闻热点的需求, 有必要研究新闻热点发现方法。

在新闻热点发现方法研究领域, 相关学者取得了一定的研究成果。Lu等^[1]融合Single-Pass算法与K近邻算法。格桑多吉等^[2]引入新闻文本不同位置特征项的加权处理, 以改进Single-Pass文本聚类算法。陈强等^[3]引入Canopy种子的概念, 优化种子选取策略, 减弱Canopy算法分块不均衡的缺点。孙明溪等^[4]通过动态调整参数以优化DBSCAN算法。上述学者基本采用聚类方法处理海量、重复的新闻文本, 实现新闻热点发现。此外, 文本聚类普遍应用向量空间模型(Vector Space Model, VSM)的文本表示方式, 海量新闻文本使得VSM维度达到几万维甚至几十万维, 且VSM中存在过多的冗余特征和噪音特征。因此, 面向海量网络新闻文本, 有必要研究其特征降维方法及聚类算法, 提升热点话题发现效率及准确率, 以便更好地服务于网络用户。

2 相关研究

2.1 文本特征降维方法

现有文本特征降维方法主要包括特征选择与特征抽取^[5]。

(1) 文本特征选择方面: 裴英博等^[6]消除卡方统计(Chi-Square Statistic, CHI)中的特征与类别间负相关, 并引入浓度信息、分布信息和频率信息。Patil等^[7]使用词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)基于最小阈值从文档中选择特征。辛竹等^[8]综合考虑频度、集中度、分散度等因素, 在互信息(Mutual Information, MI)中引入三个调整参数。刘海峰等^[9]从基于文本的类内分布、基于词频的类内分布及词频的类间分布等角度逐步改进信息增益(Information Gain, IG)。

(2) 文本特征抽取方面: 刘美茹^[10]利用潜在语义索引(Latent Semantic Indexing, LSI)进行文本特征抽取降维。常娥^[11]利用N-gram统计法抽取文档关键词, 并应用LSI对VSM进行降维。Zahedi等^[12]利用主成分分析(Principal Component Analysis, PCA)、词频及类别相关因子对波斯语文本进行降维。Abdulhussain等^[13]提出基于相似性/相关准则的PCA以获得低维特征。

由于文本特征抽取忽略了特征语义信息, 文本特征选择易于理解、使用简单且保留语义信息, 笔者使用文本特征选择方法进行特征空间降维。其中IG、MI、CHI等考虑类间相关性, 即在文本类别已知情况下, 综合考虑特征在已定义的所有类别中的出现情况。对于网络新闻文本聚类而言, 文本类别事先未知, TF-IDF无需确定文本类别, 计算简单且计算量小, 然而其仅使用词频及文档频率共同表示特征对文本的贡献程度, 忽略了影响特征区分能力的相关因素。为此, 笔者考虑改进TF-IDF特征权重计算公式, 以选择代表性、区分能力较强的特征, 实现特征空间大幅降维, 提高话题间的区分能力。

2.2 文本聚类算法

在文本聚类算法研究领域, 学者通常应用或改进基于划分、基于密度的聚类算法。蔡岳等^[14]创建一种应用于DBSCAN算法的簇关系树结构, 能够实现自适应文本聚类。柯钢^[15]提出基于增强蜂群优化搜索与K-means的高效文本聚类算法。Zade等^[16]讨论K-means算法在非结构化文本聚类中的实现。张琳等^[17]将Canopy算法与K-means算法结合, 显著提高K-means的聚类效果。

由于K-means处理大数据集时可保持良好的伸缩性及高效性, 局部搜索能力强, 收敛速度快, 笔者考虑应用K-means聚类算法作为新闻热点发现方法。然而K-means随机选择初始聚类中心, 容易使用同一类别的文本作为不同类别的聚类中心, 会对聚类效果产生干扰, 因此应考虑优选K-means的初始聚类中心。上述优化K-means方法在有效提高聚类效果的同时存在些许不足, 如改进蜂群算法一定概率易陷入局部最优, Canopy算法未能较优确定参数T₁、T₂取值。笔者查找国内外关于优化K-means文本聚类的研究, 发现果蝇优化算法(Fruit fly Optimization Algorithm, FOA)在此领域存在应用空白, FOA全局搜索能力强、实现简单, 同时易“早熟”收敛。为此, 笔者考虑改进FOA, 使其兼顾全局与局部搜索能力, 优化K-means初始聚类中心, 以提升K-means聚类效果。

2.3 小结

鉴于此, 笔者提出一种基于多因素特征选择与AFOA/K-means的新闻热点发现方法。文本特征降维采用多因素特征选择方法, 为此引入符号、词性、位置及长度4个特征影响因素改进传统TF-IDF特征权重计算公式, 多因素选择代表性强、区分能力高的网络新闻特征, 以实现文本特征空间大幅降维及聚类效果的提升。文本聚类采用AFOA/K-means算法, 为此从编码方式、适应度函数、自适应步长调整策略及群体适应度方差策略4方面构造改进果蝇优化算法(AFOA), 利用AFOA优化选取K-means初始聚类中心, 实现K-means聚类效果提升。针对多数研究在发现热点话题以后未对其进一步分析, 笔者采用多因素特征选择识别各热点话题, 在网络新闻文本数据采集阶段, 分析网络新闻特征, 挖掘“报道数量”、“评论数量”、“评论最长时间间隔”、“来源数量” 4方面热度影响因素, 利用TOPSIS进行热度排序, 更好地分析网络新闻热点话题。

3 多因素特征选择

3.1 多因素特征权重计算

笔者总结影响特征区分能力的相关因素, 包括特征词符号、特征词词性、特征词位置及特征词长度。

(1) 特征词符号: 在描述相关热点事件时, 对于热点事件中出现的新词汇通常进行中文引号、中文书名号的符号标注。这一类词汇很大程度上能区分文本, 对文本内容贡献程度较高。

(2) 特征词词性: 通常作为区分文本的特征词大部分为名词或动词。

(3) 特征词位置: 文本开头通常是总起句, 文本结尾是总结句, 处于此两个位置上的特征词能够很大程度上区分文本。

(4) 特征词长度: 中文分词后通常会出现单字, 这一类单字包含信息量少, 区分文本能力差, 因此应该被有效过滤。

基于原始特征权重计算公式综合考虑了上述4个特征影响因素, 如公式(1)所示。

$TF\mathrm{-}IDF=\frac{t{{f}_{ij}}\times \log (N/d{{f}_{j}})}{\sqrt{\mathop{\sum }_{j}^{M}{{[t{{f}_{ij}}\times \log (N/d{{f}_{j}})]}^{2}}}}$ (1)

构造改进的多因素特征权重计算公式如公式(2)-公式(4)所示。

${{W}_{ij}}=\lambda {{W}_{ij符号}}+(1-\lambda ){{W}_{ij无符号}}\ \lambda \in \{0,1\}$. (2)

$\begin{align} & {{W}_{ij符号}}=1\times \frac{t{{f}_{ij}}\times \log (N/d{{f}_{j}})\times {{w}_{词性}}}{\sqrt{\mathop{\sum }_{j}^{M}{{[t{{f}_{ij}}\times \log (N/d{{f}_{j}})]}^{2}}}} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \times \frac{t{{f}_{ij}}\times \log (N/d{{f}_{j}})\times w位置}{\sqrt{\mathop{\sum }_{j}^{M}{{[t{{f}_{ij}}\times \log (N/d{{f}_{j}})]}^{2}}}} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \times \frac{t{{f}_{ij}}\times \log (N/d{{f}_{j}})\times {{w}_{长度}}}{\sqrt{\mathop{\sum }_{j}^{M}{{[t{{f}_{ij}}\times \log (N/d{{f}_{j}})]}^{2}}}} \\ \end{align}$ (3)

$\begin{align} & {{W}_{ij无符号}}=0.5\times \frac{t{{f}_{ij}}\times \log (N/d{{f}_{j}})\times {{w}_{词性}}}{\sqrt{\mathop{\sum }_{j}^{M}{{[t{{f}_{ij}}\times \log (N/d{{f}_{j}})]}^{2}}}} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \times \frac{t{{f}_{ij}}\times \log (N/d{{f}_{j}})\times {{w}_{位置}}}{\sqrt{\mathop{\sum }_{j}^{M}{{[t{{f}_{ij}}\times \log (N/d{{f}_{j}})]}^{2}}}} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \times \frac{t{{f}_{ij}}\times \log (N/d{{f}_{j}})\times {{w}_{长度}}}{\sqrt{\mathop{\sum }_{j}^{M}{{[t{{f}_{ij}}\times \log (N/d{{f}_{j}})]}^{2}}}} \\ \end{align}$ (4)

${{w}_{词性}}=\left\{ \begin{matrix} 1,名词或动词 \\ 0.5,其他词性 \\\end{matrix}\ \ \right.{{w}_{位置}}=\left\{ \begin{align} & 1,头或结尾位置 \\ & 0.5,其他位置 \\ \end{align} \right.$

${{w}_{长度}}=\left\{ \begin{matrix} 1,长度超过1 \\ 0.5,长度为1 \\\end{matrix} \right.$

其中, ${{W}_{ij}}$为特征词j在文本i中的权重, ${{W}_{ij符号}}{{W}_{ij无符号}}$.分别为含符号特征词j、无符号特征词j在文本i中的权重, $t{{f}_{ij}}$为特征词j在文本i中出现的频次, $d{{f}_{j}}$为文本集合中包含特征词j的文本数, N为文本集合中的文本总数, M为文本集合中的特征词总数, ${{w}_{词性}}$、${{w}_{位置}}$、${{w}_{长度}}$分、别为特征词词性、位置、长度的加权因子。

3.2 特征选择

将特征选择问题转换为文本特征重要性排序问题, 通过上述多因素特征权重计算公式, 多角度计算文本特征权重, 根据权重实现特征在文本中的排序。多因素特征选择流程详细描述如下:

输入: 新闻文本集合$D=\left\{ {{d}_{1}}\mathrm{,}{{d}_{2}}\mathrm{,}\cdot \cdot \cdot \mathrm{,}{{d}_{N}} \right\}$

输出: 低维、代表性特征集合$W=\left\{ {{w}_{1}}\mathrm{,}{{w}_{2}}\mathrm{,}\cdot \cdot \cdot \mathrm{,}{{w}_{k}} \right\}$

(1) 文本内特征选择

①循环计算各文本的各特征权重;

②特征权重排序靠前的k个特征构成各文本内代表性特征集合。

(2) 文本间特征选择

①循环计算各特征在文本集合中的波动程度(方差);

②波动程度排序靠前的l个特征构成文本间区分能力较强的特征集合。

(3) 寻找文本集合的低维、代表性特征集合

①循环计算各文本的各代表性特征新权重, 新权重为旧权重与波动程度之积, 若该特征波动程度没有被选入, 则将其波动程度记为0;

②合并各文本代表性特征集合, 去除重复特征, 重复特征权重由该特征平均权重决定;

③重复特征权重排序靠前的k个特征构成文本集合的低维、代表性特征集合。

4 AFOA/K-means文本聚类

4.1 果蝇优化算法(FOA)

按照果蝇觅食行为的特点, FOA归纳为以下步骤^[18]。

①随机初始化果蝇群体二维位置$Init{{X}_{axis}}Init{{Y}_{axis}}$;

②赋予果蝇个体利用嗅觉搜寻食物的随机方向与距离:

${{X}_{i}}={{X}_{axis}}+Randomvalue$, ${{Y}_{i}}={{Y}_{axis}}+Randomvalue$;

③由于食物位置未知, 因此先估计与原点的距离, 再计算味道浓度判定值(S), 此值为距离的倒数(距离越近, 味道浓度越大; 反之, 浓度越小): $Disti=\sqrt{X_{i}^{2}+Y_{i}^{2}}{{S}_{i}}=\frac{1}{Disti}$;

④将味道浓度判定值(S)代入味道浓度判定函数, 求出该果蝇个体位置的味道浓度:

$Smel{{l}_{i}}=Function({{S}_{i}})$;

⑤找出该果蝇群体中味道浓度最高的果蝇个体(求极大值):

$[bestSmell\ bestIndex]=\max Smell$;

⑥保留最佳味道浓度值和X, Y的坐标, 果蝇利用视觉往该最佳位置飞去:

$\begin{align} & \ \ \ \ \ \ \ Smellbest=bestSmell,\ {{X}_{axis}}=X(bestIndex), \\ & \ \ \ \ \ \ \ {{Y}_{axis}}=Y(bestIndex); \\ \end{align}$

⑦进入迭代寻优, 重复步骤②-步骤⑤, 并判断味道浓度是否优于前一代的味道浓度, 若是, 实行步骤⑥。

4.2 改进果蝇优化算法(AFOA)

(1) 编码方式

将每个果蝇个体作为AFOA寻优问题的一个解, 每个果蝇个体由K个初始聚类中心组成, 每个聚类中心由N个文本特征组成, 因此每个果蝇个体为$K\times N$维向量。对文本集合中的N个文本进行1~N实数编号, 每个初始聚类中心、文本特征使用文本编号表示, 设$F\in {{\left\{ 0,1 \right\}}^{K\times N}}$表示一个果蝇个体, 其中$[{{f}_{ij}}](1\le i\le K,1\le j\le N)$表示文本j是否划分至聚簇 i (必须将各文本划分到唯一的聚簇, 且当i=j时. ${{f}_{ij}}=0$)。

${{f}_{ij}}=\left\{ \begin{matrix} 1\ \ \ \ 划分 \\ 0\ \ \ \ 排除 \\\end{matrix} \right.$.

该编码方式不仅便于理解, 还能够大幅度降低向量空间维度、严格控制聚类中心选取范围, 非常适用于AFOA。

(2) 适应度函数

根据初始聚类中心“聚簇内紧密, 聚簇间分散” 的选择目标, 给出AFOA适应度函数如公式(5)所示, 以比较初始聚类中心优劣。类间距离越大、类内距离越小, fitness适应值越大, 说明该初始聚类中心越优。

$fitness=\frac{类间距离}{类内距离}=\frac{\mathop{\sum }_{i,j=1}^{K}\left| {{D}_{i}}-{{D}_{j}} \right|}{\mathop{\sum }_{i=1}^{K}\mathop{\sum }_{d\in {{D}_{i}}}^{{}}\left| d-{{D}_{i}} \right|}$ (5)

(3) 自适应步长调整策略

FOA果蝇个体位置为二维位置, 由于上述编码方式作用, 果蝇个体位置中的文本与初始聚类中心仅有0、1操作, 使用二维位置初始化果蝇个体无意义且计算复杂度增大, 为此设置AFOA果蝇个体位置为一维位置。FOA果蝇个体搜索步长是一个固定范围[0,1]的随机数, 固定步长一定程度上可能导致算法迭代前期陷入局部最优、迭代后期无法收敛而错过最优解, 为此在AFOA中引入自适应步长调整策略(初始化无步长调整, 直接计算适应度函数)。自适应步长调整策略流程详细描述如下。

输入: 本次迭代所有果蝇个体位置集合$FS=\left\{ {{F}_{1}}\mathrm{,}\cdots \mathrm{,}{{F}_{S}} \right\}$

输出: 下次迭代所有果蝇个体新位置集合$F{{S}_{new}}=\left\{ {{F}_{1new}}\mathrm{,}\cdots \mathrm{,}{{F}_{Snew}} \right\}$

根据各果蝇个体位置计算适应度函数, 寻找最优果蝇个体位置。

根据最优果蝇个体位置循环更新剩余普通果蝇个体位置。

①针对最优果蝇个体位置的各个聚类中心, 寻找普通果蝇个体位置的相同聚类中心作为更新对象。

②循环更新各聚类中心对象。分别根据最优果蝇个体位置、普通果蝇个体位置聚类中心特征向量得到对应聚类文本集合, 将各自聚类文本集合转换为特征词权重向量(权重计算使用归一化TF-IDF), 计算两者相似性, 大于一定阈值则保留该聚类中心, 反之更新该聚类中心。

③更新聚类中心特征权重向量如公式(6)-公式(9)所示。

${{X}_{i,new\_ordinary}}={{X}_{i,best}}+step$ (6)

$step=\frac{1}{Iter}\times [(1-\lambda )\left| {{D}_{ordinary}}-{{D}_{best}} \right|+\lambda \left| {{d}_{ordinary}}-{{d}_{best}} \right|]$ (7)

$D=\frac{\frac{1}{K-1}\mathop{\sum }_{j=1且j\ne i}^{K}\left| {{D}_{i}}-{{D}_{j}} \right|-\underset{j=1,\cdots ,K且j\ne i}{\mathop{\min }}\,\left| {{D}_{i}}-{{D}_{j}} \right|}{\underset{j=1,\cdots ,K且j\ne i}{\mathop{\max }}\,\left| {{D}_{i}}-{{D}_{j}} \right|-\underset{j=1,\cdots ,K且j\ne i}{\mathop{\min }}\,\left| {{D}_{i}}-{{D}_{j}} \right|}$(8)

$d=\frac{\frac{1}{(d\in {{D}_{i}})总数}\mathop{\sum }_{d\in {{D}_{i}}}\left| d-{{D}_{i}} \right|-\underset{d\in {{D}_{i}}}{\mathop{\min }}\,\left| d-{{D}_{i}} \right|}{\underset{d\in {{D}_{i}}}{\mathop{\max }}\,\left| d-{{D}_{i}} \right|-\underset{d\in {{D}_{i}}}{\mathop{\min }}\,\left| d-{{D}_{i}} \right|}$ (9)

其中, ${{X}_{i,new\_ordinary}}{{X}_{i,best}}$分别为更新后的普通果蝇个体位置、最优果蝇个体位置的聚类中心i的特征权重向量, step为自适应调整步长, Iter为当前迭代次数, D为归一化类间距离, d为归一化类内距离, $\lambda $为[0,1]范围加权系数。

④循环对更新后的各聚类中心在剩余文本中寻找相似性最大的文本, 将该文本更新为新聚类中心。

(4) 群体适应度方差策略

FOA全局搜索能力较强, 但存在易陷入局部最优的弊端, 为此在AFOA中引入群体适应度方差策略, 以群体适应度方差${{\sigma }^{2}}$判断AFOA搜索状态, 继而执行相应的搜索操作。${{\sigma }^{2}}$计算如公式(10)所示。

${{\sigma }^{2}}=\frac{1}{S}\sum\nolimits_{i=1}^{S}{{{[fitnes{{s}_{i}}-favg]}^{2}}}$ (10)

其中, $fitnes{{s}_{i}}$为第i个果蝇个体位置的适应值, $favg$为果蝇群体位置的平均适应值, S为果蝇群体规模大小。

群体适应度方差${{\sigma }^{2}}$描述S个果蝇个体位置的波动程度, 波动程度大, 算法AFOA处于全局搜索状态, 反之算法AFOA处于局部收敛或全局收敛状态。由此根据${{\sigma }^{2}}$值与一定阈值θ的比较, 选择执行相应搜索操作。若${{\sigma }^{2}}>\theta $, 算法AFOA继续进行全局搜索; 若${{\sigma }^{2}}\le \theta $且未达到最大迭代次数, 判断算法AFOA局部收敛, 引入遗传算法的交叉操作对各果蝇个体位置的各聚类中心进行局部更新。群体适应度方差策略流程详细描述如下:

输入: 本次迭代所有果蝇个体位置集合$FS=\left\{ {{F}_{1}}\mathrm{,}\cdots \mathrm{,}{{F}_{S}} \right\}$

输出: 下次迭代所有果蝇个体新位置集合$F{{S}_{new}}=\left\{ {{F}_{1new}}\mathrm{,}\cdots \mathrm{,}{{F}_{Snew}} \right\}$

计算本次迭代果蝇群体适应度方差${{\sigma }^{2}}$, 并将${{\sigma }^{2}}$与阈值θ比较。${{\sigma }^{2}}>\theta $则继续进行全局搜索, 按照自适应步长调整策略更新位置。${{\sigma }^{2}}\le \theta $则使用交叉操作进行局部更新, 循环更新各果蝇个体位置。

①对果蝇个体位置的各聚类中心特征权重向量, 使用两点交叉更新操作。

②重新计算各聚类中心的特征权重向量。

③循环对更新后的各聚类中心在文本中寻找相似性最大的文本, 将该文本更新为新聚类中心。

4.3 AFOA优化K-means初始聚类中心流程

输入: 新闻文本集合$D=\left\{ {{d}_{1}}\mathrm{,}{{d}_{2}}\mathrm{,}\cdots \mathrm{,}{{d}_{N}} \right\}$

输出: 全局最优果蝇个体位置${{F}_{best}}$(K个初始聚类中心)

①初始化果蝇群体。使用上述编码方式对果蝇个体进行编码, 初始化果蝇个体位置, 循环S次, 生成群体规模大小为S的果蝇群体。

②计算初始果蝇个体适应度函数。使用上述适应度函数分别计算S个果蝇个体位置的适应值, 找出最优果蝇个体位置作为全局最优果蝇个体位置。

③更新果蝇个体位置。使用上述自适应步长调整策略进行果蝇个体位置更新操作。

④计算迭代果蝇个体适应度函数。使用上述适应度函数分别计算更新后的S个果蝇个体位置的适应值, 找出最优果蝇个体位置, 更新全局最优果蝇个体位置。

⑤判断AFOA搜索状态。使用上述群体适应度方差策略进行相应位置更新操作。

⑥判断迭代次数。若达到最大迭代次数, 输出全局最优果蝇个体位置。反之继续执行步骤③-步骤⑥。

4.4 K-means算法文本聚类

K-means是一种典型的基于距离的迭代式算法, 以距离相近性作为评价标准, 距离贴近的对象能够组成一个聚簇, 多个聚簇实现簇间分散、簇内紧凑的目标。K-means算法文本聚类流程详细描述如下。

输入: 全局最优果蝇个体位置${{F}_{best}}$

输出: K个聚簇$D=\left\{ {{D}_{1}}\mathrm{,}{{D}_{2}}\mathrm{,}\cdots \mathrm{,}{{D}_{K}} \right\}$

①将AFOA优化K-means得到的K个聚类中心作为初始聚类中心;

②对剩余的各文本计算其到各聚类中心的距离, 并将其划分给最近的聚类中心;

③重新计算各聚类中心;

④迭代步骤②-步骤③, 直到各聚类中心稳定不变。

5 热点话题识别及排序

5.1 热点话题识别

聚类划分后的各文本集合, 由于无标签标注而无法识别各文本集合的热点话题特征, 为此笔者调用上述多因素特征选择方法进行各文本集合热点话题识别。热点话题识别流程详细描述如下:

输入: 聚类划分的各文本集合$D=\left\{ {{D}_{1}}\mathrm{,}{{D}_{2}}\mathrm{,}\cdots \mathrm{,}{{D}_{K}} \right\}$

输出: 聚类划分的各文本集合热点话题特征集合$W=\left\{ {{W}_{1}}\mathrm{,}{{W}_{2}}\mathrm{,}\cdots \mathrm{,}{{W}_{K}} \right\}$

循环对各文本集合进行热点话题特征选择。

①对文本集合进行多因素特征权重计算;

②选择排序前k个特征, 构成代表性特征集合。

5.2 热点话题排序

TOPSIS是一种针对多目标、多属性问题的决策评估方法, 该方法将待测对象的评估转化为计算理想最优解、最劣解间的欧氏距离, 并计算各个评估对象的相对贴近度, 根据相对贴近度对评估对象进行优劣排序。

为从获取的K个热点话题中发现热点话题排名, 笔者提出使用TOPSIS模型对K个热点话题进行有效排序。浏览相关新闻网站, 总结热点话题影响因素, 包括“话题文本报道数量”、“话题文本评论数量”、“话题文本评论最长时间间隔”、“话题文本来源数量”, 将其作为排序指标, 构造热度排序向量。热点话题排序流程详细描述如下:

$H=\left[ \begin{matrix} \begin{matrix} {{B}_{1}} \\ {{B}_{2}} \\\end{matrix}\ \ \begin{matrix} {{P}_{1}} \\ {{P}_{2}} \\\end{matrix}\ \ \begin{matrix} {{T}_{1}} \\ {{T}_{2}} \\\end{matrix}\ \ \begin{matrix} {{Y}_{1}} \\ {{Y}_{2}} \\\end{matrix} \\ \begin{matrix} \cdots \\ {{B}_{K}}\ \\\end{matrix}\begin{matrix} \cdots \\ {{P}_{K}}\ \\\end{matrix}\begin{matrix} \cdots \\ {{T}_{K}} \\\end{matrix}\ \begin{matrix} \cdots \\ {{Y}_{K}} \\\end{matrix} \\\end{matrix} \right]$

其中, K为话题数量, B_i为话题i包含文本总数, P_i为话题i所有文本评论总数, T_i为话题i所有文本评论最长时间间隔, Y_i为话题i所有文本互异来源总数。

输入: 热度排序向量H

输出: 各热点话题排序结果$R=\left\{ {{R}_{1}}\mathrm{,}{{R}_{2}}\mathrm{,}\cdots \mathrm{,}{{R}_{K}} \right\}$

①对向量H每一列进行归一化处理;

②寻找向量H每一个指标的最优解构造最优方案${{A}^{+}}$, 寻找向量H每一个指标的最劣解构造最劣方案${{A}^{-}}$;

③分别计算各评价对象各指标值与最优方案${{A}^{+}}$的欧氏距离$D_{i}^{+}$、最劣方案${{A}^{-}}$的欧氏距离$D_{i}^{-}$;

④计算各评价对象与最优方案的接近程度${{C}_{i}}=\frac{D_{i}^{-}}{D_{i}^{+}+D_{i}^{-}}$;

⑤根据C_i大小对各评价对象进行排序, C_i值越大, 排序越靠前。

6 实验结果与分析

6.1 实验设计

(1) 实验数据

数据1: 为验证多因素特征选择方法及AFOA/K-means文本聚类方法的有效性, 选择复旦大学李荣陆提供的中文文本分类语料库下文本数量较多的6个类别: 艺术、计算机、经济、环境、政治、体育, 每个类别下200篇新闻文本。

数据2: 为将笔者所提热点话题发现方法应用于实际, 以腾讯新闻网为平台, 采集2018年5月共964篇新闻文本相关数据。

(2) 评价指标

为比较不同特征选择方法、不同文本聚类方法的聚类效果, 以F₁作为评价指标, 计算方法如公式(11)-公式(13)所示。

$P=\frac{A}{A+C}$ (11)

$R=\frac{A}{A+B}$ (12)

${{F}_{1}}=2\times \frac{P\times R}{P+R}$ (13)

其中, P为精度, R为召回率, $A+B+C+D=N$为文本总数, A为检测正确的相关文本数量, B为检测错误的相关文本数量, C为错误被检测到的无关文本数量, D为正确被检测到的无关文本数量。

6.2 验证实验

(1) 多因素特征选择

为验证多因素特征选择方法的有效性, 以数据1中的1 200篇新闻文本(特征词总数为57 878个)作为实验数据集, 采用传统特征选择方法(TF-IDF特征选择)与多因素特征选择方法, 分别选择1 200维、2 400维、3 600维、4 800维及6 000维的不同维度特征, 使用K-means算法(聚簇数量K=6, 且选取相同的初始聚类中心)分别进行5次文本聚类操作。两种特征选择方法不同维度的整体聚类效果如表1所示。

表1 两种特征选择方法不同维度的整体聚类效果比较

方法	维度	F₁
传统特征选择方法	1 200	62.697	1.726
2 400	70.641	1.895
3 600	73.102	1.770
4 800	71.341	1.941
6 000	71.257	1.762
多因素特征选择方法	1 200	66.053	1.955
2 400	72.830	2.272
3 600	76.512	1.788
4 800	75.559	1.871
6 000	74.997	1.753

由表1可知, 多因素特征选择在各维度上的F₁均值都高于传统特征选择, 在各维度上的F₁方差近似传统特征选择。多因素特征选择在3 600维度达到最优, F₁均值为76.512%, 相较于传统特征选择最优F₁均值73.102%, 聚类效果提升3.41%。由此, 认为多因素特征选择方法能够大幅度降低特征空间维度, 提升文本聚类效果, 同时保持较好的稳定性。

(2) AFOA/K-means算法

为验证AFOA/K-means文本聚类方法的有效性, 以数据1中的1 200篇新闻文本作为实验数据集, 采用多因素特征选择方法实现3 600维度特征选择, 使用K-means、GA/K-means、PSO/K-means、FOA/K-means及AFOA/K-means, 分别进行5次文本聚类操作。各文本聚类方法整体聚类效果如表2所示。

表2 各文本聚类方法整体聚类效果比较

	F₁
K-means	76.512	1.788
GA/K-means	81.413	0.773
PSO/K-means	81.570	0.631
FOA/K-means	78.999	0.958
AFOA/K-means	84.493	0.631

为保证验证结果可靠性, 对相关优化算法共同参数进行统一设置, 包括群体规模大小S=20, 最大迭代次数G=100。AFOA算法其他参数设置为群体适应度方差阈值$\theta ={{10}^{-4}}$, 交叉率P_c=0.6。GA算法及PSO算法其他参数设置分别参考文献[19,20]。此外, 设置K-means算法聚簇数量K=6, 且初始聚类中心随机生成。

由表2可知, 与K-means相比, AFOA/K-means的F₁均值达到最大7.981%的提升。与其他三种方法相比, AFOA/K-means在F₁均值上有较大提升且F₁方差相近。由此, 在采用多因素特征选择方法基础上, 笔者认为AFOA/K-means文本聚类方法能够提升文本聚类效果, 同时保持较好的稳定性。

6.3 实例应用

(1) 数据采集、清洗及预处理

①数据采集: 根据话题排序相关指标, 以2018年5月的腾讯新闻作为采集对象, 采集每一篇新闻的相关数据, 包括标题、来源、发表时间、评论数、正文、最近评论时间, 各数据单独成行, 每一组数据集合以一篇txt文本形式保存。

②数据清洗: 对采集结果中的相同文本进行去重操作, 仅保留一篇有效文本。清除文本中各项数据存在空值的整篇文本, 及各文本中的未处理HTML标签、噪音符号等。

③数据预处理: 对清洗后的文本集合使用Python的jieba包进行中文分词处理, 并且在已有的停用词表基础上, 进一步加入文本中频繁出现的无意义词汇及符号, 构建适合该实验的停用词表, 对中文分词后的文本集合过滤停用词。此外, 根据笔者所提多因素特征选择方法的相关因素, 对各个特征词进行中文引号、书名号标注, 名词、动词标注, 首尾位置标注和长度标注。

(2) 热点话题发现

选择各文本的标题及正文组合作为文本聚类对象, 采用多因素特征选择方法选择文本特征集合, 使用AFOA/K-means文本聚类方法聚类各话题。由于聚簇数量K值不确定, 并且考虑到一个月范围的新闻文本话题繁杂, 难以聚集到少数几个话题, 因此以评论数量为主要依据, 从964篇新闻文本中挑选出排序前25%的新闻文本, 缩小范围进行文本聚类操作。采用试错法在[1, 289]范围内分别进行5次K-means聚类试验, 通过平均类内平方和距离寻找较优的K值, 得到K=30。各热点话题聚类结果如表3所示。

表3 各热点话题聚类结果

话题标号	新闻数量	话题标号	新闻数量	话题标号	新闻数量
1	5	11	2	21	8
2	12	12	5	22	10
3	25	13	2	23	10
4	10	14	5	24	3
5	6	15	2	25	9
6	20	16	5	26	8
7	14	17	9	27	13
8	5	18	7	28	2
9	4	19	7	29	9
10	15	20	7	30	2

(3) 热点话题识别及排序

由于篇幅原因, 笔者采用多因素特征选择方法仅选择各热点话题排名前三的代表性特征词汇, 各热点话题特征词汇选择结果如表4所示。可知, 30个热点话题各自选择的代表性特征词汇语义清晰、易于理解, 表明多因素特征选择方法识别话题具有相对完整的语义信息, 符合用户对热点新闻的理解。此外, 将所提新闻热点发现方法应用于新浪新闻网2018年5月的新闻, 计算得到二者热点话题发现结果的相似性约为86.67%, 验证了基于多因素特征选择与AFOA/K-means的新闻热点发现方法的整体有效性。

表4 各热点话题特征词汇选择结果

标号	特征词汇	标号	特征词汇	标号	特征词汇
1	李克强、王毅、访问	11	法国、游行、极端	21	空姐、滴滴、嫌疑犯
2	习近平、金正恩、会晤	12	村民、走私肉、私挖	22	航母、海试、空军
3	刘鹤、中美贸易、中兴	13	战争、爆发、周年	23	川航、迫降、玻璃
4	朝美、特金会、朝鲜	14	海南、开放、旅游	24	缅北、冲突、武装
5	布基纳法索、台湾、断交	15	学生、徒步、失联	25	生态、绿色、环保
6	习近平、视察、讲话	16	李利娟、爱心、两面	26	幼儿、女童、划伤
7	习近平、马克思、讲话	17	地震、汶川、灾区	27	英雄、致敬、缅怀
8	习近平、上合、会议	18	严书记、调查、审查	28	美方、中方、环太军演
9	关税、降低、进口	19	伊朗、伊核、协议	29	科技、强国、建设
10	民警、抓获、解救	20	房价、炒房、调控	30	六安、教师、工资

为进一步分析网络新闻热点话题, 笔者充分考虑新闻话题热度影响因素, 对于每一个热点话题, 通过文本总数确定文本报道数量B, 文本评论总数确定文本评论数量P, 文本发表最远时间与文本评论最近时间的间隔确定评论最长时间间隔T, 文本互异来源总数确定文本来源数量Y, 使用TOPSIS对各热点话题进行排序, 构造、计算排序矩阵进而发现热点话题排名。各热点话题TOPSIS相关数据如表5所示, 各热点话题排序结果如表6所示。

表5 各热点话题TOPSIS相关数据

标号	B	P	T	Y	标号	B	P	T	Y	标号	B	P	T	Y
1	5	2 879	29	3	11	2	2 689	22	2	21	8	34 179	20	7
2	12	64 472	27	5	12	5	13 661	20	4	22	10	21 509	21	7
3	25	46 393	30	14	13	2	3 829	15	2	23	10	25 572	16	7
4	10	16 998	10	5	14	5	5 311	19	4	24	3	5 163	22	2
5	6	9 607	7	4	15	2	2 026	26	2	25	9	31 651	15	6
6	20	101 121	21	8	16	5	16 330	16	3	26	8	25 142	18	7
7	14	35 229	29	7	17	9	37 034	27	6	27	13	48 774	19	8
8	5	10 740	4	3	18	7	19 067	15	5	28	2	5 927	2	2
9	4	2 634	11	3	19	7	3 686	26	5	29	9	33 622	21	5
10	15	48 634	28	13	20	7	7 115	15	6	30	2	6 707	4	2

表6 各热点话题排序结果

标号	{Invalid MML}值	排序	标号	{Invalid MML}值	排序	标号	{Invalid MML}值	排序
1	0.378 102	14	11	0.289 670	20	21	0.418 270	9
2	0.542 262	5	12	0.309 113	17	22	0.419 941	8
3	0.764 111	1	13	0.204 898	25	23	0.380 235	12
4	0.264 842	23	14	0.287 747	22	24	0.294 865	18
5	0.153 676	27	15	0.330 296	16	25	0.353 134	15
6	0.706 582	2	16	0.252 682	24	26	0.379 949	13
7	0.547 982	4	17	0.476 561	7	27	0.514 120	6
8	0.095 630	28	18	0.289 020	21	28	0.019 488	30
9	0.162 684	26	19	0.384 635	11	29	0.400 007	10
10	0.683 358	3	20	0.290 610	19	30	0.042 241	29

由表5和表6可知, 以从腾讯新闻网2018年5月的新闻文本中发现的30个热点话题为基础, 在B、P、T、Y的综合影响下, 发现中美贸易、习近平视察、民警工作、习近平与马克思、习近平会晤金正恩、致敬英雄、地震灾区、航母海试、空姐滴滴遇害、科技强国这10个热点话题热度最高, 实现了对新闻热点话题更准确有效的分析。

7 结语

通过研究网络新闻文本特点、分析前人关于文本特征降维方法及文本聚类算法的研究成果, 本文提出一种基于多因素特征选择与AFOA/K-means的新闻热点发现方法。针对传统TF-IDF特征权重计算公式考虑特征影响因素较少的缺陷, 笔者引入4个特征影响因素进行改进。实验结果显示, 多因素特征选择方法(改进TF-IDF)的F₁值明显优于传统特征选择方法(TF-IDF), 实现了代表性特征集合的选择, 且使文本特征空间大幅降维, 提高了聚类效率。针对果蝇优化算法(FOA)易陷入局部最优的不足, 通过4方面的改进构造了改进果蝇优化算法(AFOA), 针对K-means初始聚类中心随机选择影响聚类效果的问题, 使用AFOA优化K-means初始聚类中心。实验结果表明,相较于其他4种算法, AFOA显著提升了K-means文本聚类F₁值。最后, 为进一步分析网络新闻热点话题, 使用多因素特征选择方法识别各热点话题, 针对网络新闻选取4个代表性热度指标, 使用TOPSIS排序发现网络新闻热点话题排名。实例结果证明, 热点话题识别结果语义准确、易于理解, 腾讯新闻热点话题发现结果与新浪新闻热点话题发现结果较接近, 充分验证了所提方法的整体有效性, 且使用TOPSIS对热点话题排序, 能够更进一步准确、有效地分析新闻热点。由此可见, 基于多因素特征选择与AFOA/K-means的新闻热点发现方法, 能够提升热点话题发现效率及准确率, 一定程度上便于网络用户快速准确获取热点话题。

作者贡献声明

温廷新: 提出研究思路, 设计研究方案, 修改论文;

李洋子: 数据采集、清洗及预处理, 实现算法程序, 负责实验, 起草论文;

孙静霜: 负责实验, 修改论文。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据见期刊网络版http://www.infotech.ac.cn。

[1] 温廷新, 李洋子, 孙静霜. 实验1数据集. rar. 李荣陆提供的中文文本分类语料库的一部分训练集和测试集.

[2] 温廷新, 李洋子, 孙静霜. 实验2数据集.rar. 腾讯新闻网964篇新闻文本相关数据.

[3] 温廷新, 李洋子, 孙静霜. 实验相关结果.rar. 实验1的相关实验结果及实验2的聚类结果.

参考文献

View Option

[1]	Lu P, Liu S, Dong Z, et al.HSPKNN: An Effective and Practical Framework for Hot Topic Detection of Internet News[C]// Proceedings of the 7th International Conference on Computing and Convergence Technology. IEEE, 2013: 888-893. [本文引用:1]
[2]	格桑多吉, 乔少杰, 韩楠, 等. 基于Single-Pass的网络舆情热点发现算法[J]. 电子科技大学学报, 2015, 44(4): 599-604. 考虑网络事件的时间距离,基于半结构化网页中不同位置特征项重要程度的不同,提出改进的single-pass文本聚类算法single-pass*,优势在于对Web文本不同位置特征项的加权处理,仅需计算新文档与同类别种子文档间的相似度。实验结果表明,相比single-pass,改进算法极大减少了漏检率和错检率,降低了由于新文本流内文档进行相似度计算导致系统性能的下降,平均提高Web文本聚类效率40%。将聚类后的Web文本应用于网络舆情分析,进行主题关注度分析和话题热度特性分析。 DOI:10.3969/j.issn.1001-0548.2015.04.021 URL [本文引用:1] (Gesang Duoji, Qiao Shaojie, Han Nan, et al.An Internet Public Opinion Hotspot Detection Algorithm Based on Single-Pass[J]. Journal of University of Electronic Science and Technology of China, 2015, 44(4): 599-604.)
[3]	陈强, 杜攀, 陈海强, 等. K-Canopy: 一种面向话题发现的快速数据切分算法[J]. 山东大学学报: 理学版, 2016, 51(9): 106-112. 针对海量数据上的话题发现任务,提出了一种均匀快速的数据预切分算法。在保证一定精度情况下,通过该算法可以按照数据的语义关联强度快速有效地将数据集切分成大小均匀的子数据集,以支持后续的话题发现算法的并行执行。实验表明,所提出的方法能够快速切分海量数据,保持块内数据的语义关联,大大提升话题发现的效率与质量。 DOI:10.6040/j.issn.1671-9352.1.2015.057 URL [本文引用:1] (Chen Qiang, Du Pan, Chen Haiqiang, et al.K-Canopy: A Fast Data Segmentation Algorithm for the Topic Detection[J]. Journal of Shandong University: Natural Science, 2016, 51(9): 106-112.)
[4]	孙明溪, 刘春琦. 基于DBSCAN算法与句间关系的热点话题发现研究[J]. 图书情报工作, 2017, 61(12): 113-121. [目的 /意义]在大数据时代面对海量的数据用户有时会束手无策。因此,越来越多的学者们开始关注互联网热点话题发现的算法,帮助用户快速获取热点话题。[方法 /过程]基于DBSCAN算法,通过动态调整参数来优化算法,实现热点话题发现。根据句法结构与句间关系分析构建热点话题过滤模型,过滤包含热点词项的一般话题。[结果 /结论]采用主流网站新闻数据集进行实验,利用错检率、漏检率等评价指标对算法的有效性进行检验,实验结果证明改进算法性能有所提升,能够为信息用户提供科学研究网络数据的高效途径。 DOI:10.13266/j.issn.0252-3116.2017.12.015 URL [本文引用:1] (Sun Mingxi, Liu Chunqi.Research on Hot Topic Detection Based on DBSCAN Algorithm and Inter Sentence Relationship[J]. Library and Information Service, 2017, 61(12): 113-121.)
[5]	奉国和, 郑伟. 文本分类特征降维研究综述[J]. 图书情报工作, 2011, 55(9): 109-113. <html dir="ltr"><head><title></title></head><body><font style="BACKGROUND-COLOR: #c7edcc">特征降维是文本分类的关键技术之一，包括特征选择与特征抽取两类，其中特征选择按特征子集获取范围、特征子集搜索策略、特征子集评价策略等方式进行不同划分。归纳出当前特征选择与特征抽取所用的常用方法，分析各种方法的原理、指出每种方法的优势与不足，总结出相应改进算法。</font></body></html> Magsci URL [本文引用:1] (Feng Guohe, Zheng Wei.Review of Feature Dimension Reduction in Text Classification[J]. Library and Information Service, 2011, 55(9): 109-113.)
[6]	裴英博, 刘晓霞. 文本分类中改进型CHI特征选择方法的研究[J]. 计算机工程与应用, 2011, 47(4): 128-130, 194. 分析了影响传统CHI统计方法分类精度的因素，去除了特征项与类别负相关的情况。同时将改进后的方法用于特征词的权重调整，使其分类效果有了明显提高；将分散度、集中度、频度等因素引入到改进后的方法中，提高了其在类分布不均匀语料集上的分类精确度。最后通过实验证明了该方法的有效性和可行性。 <BR> DOI:10.3778/j.issn.1002-8331.2011.04.035 Magsci URL [本文引用:1] (Pei Yingbo, Liu Xiaoxia.Study on Improved CHI for Feature Selection in Chinese Text Categorization[J]. Computer Engineering and Applications, 2011, 47(4): 128-130, 194.)
[7]	Patil L H, Atique M.A Novel Approach for Feature Selection Method TF-IDF in Document Clustering[C]// Proceedings of the 3rd IEEE International Advance Computing Conference. IEEE, 2013: 858-862. [本文引用:1]
[8]	辛竹, 周亚建. 文本分类中互信息特征选择方法的研究与算法改进[J]. 计算机应用, 2013, 33(S2): 116-118, 152. 在深入研究传统互信息特征选择方法的基础上,详细分析了该算法分类精确度不高的原因。针对传统互信息算法中的负相关现象以及倾向于选择低频特征词的问题,提出一种基于互信息的特征优化选择方法。该方法在综合考虑频度、集中度、分散度等因素的基础上,通过引入三个调整参数,有效地保证了负相关特征在文本分类中不可忽视的作用,并且提高了高频词汇的选择比重。实验表明,改进的方法可以有效地提高文本分类精度,并且具有更好的稳定性。 URL [本文引用:1] (Xin Zhu, Zhou Yajian.Study and Improvement of Mutual Information for Feature Selection in Text Categorization[J]. Journal of Computer Applications, 2013, 33(S2): 116-118, 152.)
[9]	刘海峰, 刘守生, 宋阿羚. 基于词频分布信息的优化IG特征选择方法[J]. 计算机工程与应用, 2017, 53(4): 113-117, 122. 文本特征选择是文本分类的核心技术.针对信息增益模型的不足之处,以特征项的频数在文本中不同层面的分布为依据,分别从特征项基于文本的类内分布、基于词频的类内分布以及词频的类间分布等角度对IG模型逐步进行改进,提出了一种基于词频分布信息的优化IG特征选择方法.随后的文本分类实验验证了提出的优化IG模型的有效性. DOI:10.3778/j.issn.1002-8331.1507-0240 URL [本文引用:1] (Liu Haifeng, Liu Shousheng, Song Aling.Improved Method of IG Feature Selection Based on Word Frequency Distribution[J]. Computer Engineering and Applications, 2017, 53(4): 113-117, 122.)
[10]	刘美茹. 基于LSI和SVM的文本分类研究[J]. 计算机工程, 2007, 33(15): 217-219. 文本分类技术是文本数据挖掘的基础和核心，是基于自然语言处理技术和机器学习算法的一个具体应用。特征选择和分类算法是文本分类中两个最关键的技术，该文提出了利用潜在语义索引进行特征提取和降维，并结合支持向量机(SVM)算法进行多类分类，实验结果显示与向量空间模型(VSM)结合SVM方法和LSI结合K近邻(KNN)方法相比，取得了更好的效果，在文本类别数较少、类别划分比较清晰的情况下可以达到实用效果。 <BR><BR> DOI:10.3969/j.issn.1000-3428.2007.15.077 Magsci [本文引用:1] (Liu Meiru.Research on Text Classification Based on LSI and SVM[J]. Computer Engineering, 2007, 33(15): 217-219.)
[11]	常娥. 基于LSI理论的文本自动聚类研究[J]. 图书情报工作, 2012, 56(11): 89-92. <html dir="ltr"><head><title></title></head><body>结合潜性语义索引（latent semantic index，LSI）理论和K-means聚类法，提出一种改进的文本自动聚类方法，即首先利用N-gram统计法抽取文档关键词，并应用潜性语义索引LSI对构建文档的向量空间模型进行降维，然后采用K-means算法进行文本聚类。实验表明，该算法进行文本聚类的准确度最高可达84.7%。</body></html> Magsci URL [本文引用:1] (Chang E.Automatic Text Clustering Based on Latent Semantic Index Theory[J]. Library and Information Service, 2012, 56(11): 89-92.)
[12]	Zahedi M, Sorkhi A G.Improving Text Classification Performance Using PCA and Recall-Precision Criteria[J]. Arabian Journal for Science & Engineering, 2013, 38(8): 2095-2102. Persian text is usually associated with a wide range of important or useless features. This is the main reason why feature extraction process is one of the difficult tasks in the field of Persian text analysis and understanding. While few research works have focused on this problem, the aim of this paper is to introduce a novel approach for extracting the most relevant features and classification of Persian text. Experimental results show that utilizing the principle component analysis along with recall and precision criteria and employing term frequency and category relevancy factor can result in considerable improvement in running time of the classification process while accuracy and precision criteria are improved a little or are not decreased as much as affecting classification performance. DOI:10.1007/s13369-013-0569-2 URL [本文引用:1]
[13]	Abdulhussain M I, Gan J Q.An Experimental Investigation on PCA Based on Cosine Similarity and Correlation for Text Feature Dimensionality Reduction[C]// Proceedings of the 7th Computer Science and Electronic Engineering Conference. IEEE, 2015: 1-4. [本文引用:1]
[14]	蔡岳, 袁津生. 基于改进DBSCAN算法的文本聚类[J]. 计算机工程, 2011, 37(12): 50-52, 55. 目前多数聚类算法不能很好地适应文本聚类的快速自适应需求。为此，论述DBSCAN算法的基本原理和实现过程，提出一种基于改进DBSCAN算法的文本聚类算法，利用最小二乘法降低文本向量的维度，并创建一种应用于DBSCAN算法的簇关系树结构。实验结果表明，该算法能自适应地进行文本聚类，且与DBSCAN相比，准确率较高。 DOI:10.3969/j.issn.1000-3428.2011.12.017 Magsci URL [本文引用:1] (Cai Yue, Yuan Jinsheng.Text Clustering Based on Improved DBSCAN Algorithm[J]. Computer Engineering, 2011, 37(12): 50-52, 55.)
[15]	柯钢. 基于增强蜂群优化与K-means的文本聚类算法[J]. 计算机应用研究, 2016, 33(8): 2298-2302. 针对文本数据维度较高、空间分布稀疏及其聚类效果不佳的问题,提出一种基于增强蜂群优化搜索与K-means的高效文本聚类算法。首先为蜂群算法引入公平操作与克隆操作来提高全局搜索的能力,公平操作提高了样本多样性,并增强了蜂群搜索能力;克隆操作则增强了各代之间的信息交流,提高了求解质量。最终引入K-means进行局部质心的提炼,提高聚类质量。基于文本数据集的实验结果证明,相较于其他聚类算法,本算法具有更高的聚类质量。 URL [本文引用:1] (Ke Gang.Enhanced Bee Colony Optimal and K-means Based Document Clustering Algorithm[J]. Application Research of Computers, 2016, 33(8): 2298-2302.)
[16]	Zade J, Bamnote G R, Agrawal P K.Text Document Clustering Using K-means Algorithm with Its Analysis and Implementation[J]. Imperial Journal of Interdisciplinary Research, 2017, 3(2): 1528-1531. URL [本文引用:1]
[17]	张琳, 牟向伟. 基于Canopy+K-means的中文文本聚类算法[J]. 图书馆论坛, 2018(6): 113-119. 随着互联网的发展,网络电子文本的数量急剧增加,给人们快速高效地从海量数据中挖掘出所需要的信息带来了巨大挑战。文本聚类是解决这个问题的一种可行方法。文章在文本聚类的过程中,针对K-means算法在聚类时需要事先指定簇的个数k和k个初始中心点这两方面的不足,采用Canopy+K-means的聚类算法进行中文文本聚类。为了提高K-means的聚类效果,先使用Canopy算法对数据进行"粗"聚类,在得到k值和聚类中心后,再使用K-means算法进行"细"聚类。在聚类过程中,为了避免"维灾难"现象,本文基于Word2vec通过获得同义词或近义词来有效减少文本特征向量的维度。实验结果表明,基于Canopy+K-means的聚类效果比传统的K-means算法有较好的纯度、准确率、召回率和F值。 URL [本文引用:1] (Zhang Lin, Mou Xiangwei.Chinese Text Clustering Algorithm Based on Canopy+K-means[J]. Library Tribune, 2018(6): 113-119.)
[18]	潘文超. 果蝇最佳化演算法[M]. 中国台北: 沧海书局, 2011: 10-12. [本文引用:1] (Pan Wenchao.Fruit Fly Optimization Algorithm[M]. Taipei: The Sea Book Company, 2011: 10-12.)
[19]	何婷婷, 戴文华, 焦翠珍. 基于混合并行遗传算法的文本聚类研究[J]. 中文信息学报, 2007, 21(4): 55-60. 针对传统K-Means聚类算法对初始聚类中心的选择敏感,易陷入局部最优解的问题,提出一种基于混合并行遗传算法的文本聚类方法。该方法首先将文档集合表示成向量空间模型,并在文档向量中随机选择初始聚类中心形成染色体,然后结合K-Means算法的高效性和并行遗传算法的全局优化能力,通过种群内的遗传、变异和种群间的并行进化、联姻,有效地避免了局部最优解的出现。实验表明该算法相对于K-Means算法、简单遗传算法等文本聚类方法具有更高的精确度和全局寻优能力。 DOI:10.3969/j.issn.1003-0077.2007.04.008 Magsci URL [本文引用:1] (He Tingting, Dai Wenhua, Jiao Cuizhen.Research of Text Clustering Based on Hybrid Parallel Genetic Algorithm[J]. Journal of Chinese Information Processing, 2007, 21(4): 55-60.)
[20]	王永贵, 林琳, 刘宪国. 结合双粒子群和K-means的混合文本聚类算法[J]. 计算机应用研究, 2014, 31(2): 364-368. 传统K—means算法对初始聚类中心选择较敏感，结果有可能收敛于一般次优解，为些提出一种结合双粒子群和K-means的混合文本聚类算法。设计了自调整惯性权值策略，根据最优适应度值的变化率动态调整惯性权值。两子群分别采用基于不同惯性权值策略的粒子群算法进化，子代间及子代与父代信息交流，共享最优粒子，替换最劣粒子，完成进化，该算法命名为双粒子群算法。将能平衡全局与局部搜索能力的双粒子群算法与高效的K—means算法结合，每个粒子是一组聚类中心，类内离散度之和的倒数是适应度函数，用K—means算法优化新生粒子，即为结合双粒子群和K—means的混合文本聚类算法。实验结果表明，该算法相对于K—means、PSO等文本聚类算法具有更强鲁棒性，聚类效果也有明显的改善。 DOI:10.3969/j.issn.1001-3695.2014.02.011 URL [本文引用:1] (Wang Yonggui, Lin Lin, Liu Xianguo.Hybrid Text Clustering Algorithm Based on Dual Particle Swarm Optimization and K-means Algorithm[J]. Application Research of Computers, 2014, 31(2): 364-368.)

HSPKNN: An Effective and Practical Framework for Hot Topic Detection of Internet News

2013

... 在新闻热点发现方法研究领域, 相关学者取得了一定的研究成果.Lu等^[1]融合Single-Pass算法与K近邻算法.格桑多吉等^[2]引入新闻文本不同位置特征项的加权处理, 以改进Single-Pass文本聚类算法.陈强等^[3]引入Canopy种子的概念, 优化种子选取策略, 减弱Canopy算法分块不均衡的缺点.孙明溪等^[4]通过动态调整参数以优化DBSCAN算法.上述学者基本采用聚类方法处理海量、重复的新闻文本, 实现新闻热点发现.此外, 文本聚类普遍应用向量空间模型(Vector Space Model, VSM)的文本表示方式, 海量新闻文本使得VSM维度达到几万维甚至几十万维, 且VSM中存在过多的冗余特征和噪音特征.因此, 面向海量网络新闻文本, 有必要研究其特征降维方法及聚类算法, 提升热点话题发现效率及准确率, 以便更好地服务于网络用户. ...

基于Single-Pass的网络舆情热点发现算法

2015

An Internet Public Opinion Hotspot Detection Algorithm Based on Single-Pass

2015

K-Canopy: 一种面向话题发现的快速数据切分算法

2016

K-Canopy: A Fast Data Segmentation Algorithm for the Topic Detection

2016

基于DBSCAN算法与句间关系的热点话题发现研究

2017

Research on Hot Topic Detection Based on DBSCAN Algorithm and Inter Sentence Relationship

2017

文本分类特征降维研究综述

2011

... 现有文本特征降维方法主要包括特征选择与特征抽取^[5]. ...

Review of Feature Dimension Reduction in Text Classification

2011

... 现有文本特征降维方法主要包括特征选择与特征抽取^[5]. ...

文本分类中改进型CHI特征选择方法的研究

2011

... (1) 文本特征选择方面: 裴英博等^[6]消除卡方统计(Chi-Square Statistic, CHI)中的特征与类别间负相关, 并引入浓度信息、分布信息和频率信息.Patil等^[7]使用词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)基于最小阈值从文档中选择特征.辛竹等^[8]综合考虑频度、集中度、分散度等因素, 在互信息(Mutual Information, MI)中引入三个调整参数.刘海峰等^[9]从基于文本的类内分布、基于词频的类内分布及词频的类间分布等角度逐步改进信息增益(Information Gain, IG). ...

Study on Improved CHI for Feature Selection in Chinese Text Categorization

2011

A Novel Approach for Feature Selection Method TF-IDF in Document Clustering

2013

文本分类中互信息特征选择方法的研究与算法改进

2013

Study and Improvement of Mutual Information for Feature Selection in Text Categorization

2013

基于词频分布信息的优化IG特征选择方法

2017

Improved Method of IG Feature Selection Based on Word Frequency Distribution

2017

基于LSI和SVM的文本分类研究

2007

... (2) 文本特征抽取方面: 刘美茹^[10]利用潜在语义索引(Latent Semantic Indexing, LSI)进行文本特征抽取降维.常娥^[11]利用N-gram统计法抽取文档关键词, 并应用LSI对VSM进行降维.Zahedi等^[12]利用主成分分析(Principal Component Analysis, PCA)、词频及类别相关因子对波斯语文本进行降维.Abdulhussain等^[13]提出基于相似性/相关准则的PCA以获得低维特征. ...

Research on Text Classification Based on LSI and SVM

2007

基于LSI理论的文本自动聚类研究

2012

Automatic Text Clustering Based on Latent Semantic Index Theory

2012

Improving Text Classification Performance Using PCA and Recall-Precision Criteria

2013

An Experimental Investigation on PCA Based on Cosine Similarity and Correlation for Text Feature Dimensionality Reduction

2015

基于改进DBSCAN算法的文本聚类

2011

... 在文本聚类算法研究领域, 学者通常应用或改进基于划分、基于密度的聚类算法.蔡岳等^[14]创建一种应用于DBSCAN算法的簇关系树结构, 能够实现自适应文本聚类.柯钢^[15]提出基于增强蜂群优化搜索与K-means的高效文本聚类算法.Zade等^[16]讨论K-means算法在非结构化文本聚类中的实现.张琳等^[17]将Canopy算法与K-means算法结合, 显著提高K-means的聚类效果. ...

Text Clustering Based on Improved DBSCAN Algorithm

2011

基于增强蜂群优化与K-means的文本聚类算法

2016

Enhanced Bee Colony Optimal and K-means Based Document Clustering Algorithm

2016

Text Document Clustering Using K-means Algorithm with Its Analysis and Implementation

2017

基于Canopy+K-means的中文文本聚类算法

Chinese Text Clustering Algorithm Based on Canopy+K-means

果蝇最佳化演算法

2011

... 按照果蝇觅食行为的特点, FOA归纳为以下步骤^[18]. ...

Fruit Fly Optimization Algorithm

2011

... 按照果蝇觅食行为的特点, FOA归纳为以下步骤^[18]. ...

基于混合并行遗传算法的文本聚类研究

2007

... 为保证验证结果可靠性, 对相关优化算法共同参数进行统一设置, 包括群体规模大小S=20, 最大迭代次数G=100.AFOA算法其他参数设置为群体适应度方差阈值$\theta ={{10}^{-4}}$, 交叉率P_c=0.6.GA算法及PSO算法其他参数设置分别参考文献[19,20].此外, 设置K-means算法聚簇数量K=6, 且初始聚类中心随机生成. ...

Research of Text Clustering Based on Hybrid Parallel Genetic Algorithm

2007

结合双粒子群和K-means的混合文本聚类算法

2014

Hybrid Text Clustering Algorithm Based on Dual Particle Swarm Optimization and K-means Algorithm

2014

方法	维度	F₁
方法	维度	均值(%)	方差/10^-5
传统特征选择方法	1 200	62.697	1.726
	2 400	70.641	1.895
	3 600	73.102	1.770
	4 800	71.341	1.941
	6 000	71.257	1.762
多因素特征选择方法	1 200	66.053	1.955
	2 400	72.830	2.272
	3 600	76.512	1.788
	4 800	75.559	1.871
	6 000	74.997	1.753

话题标号	新闻数量	话题标号	新闻数量	话题标号	新闻数量
1	5	11	2	21	8
2	12	12	5	22	10
3	25	13	2	23	10
4	10	14	5	24	3
5	6	15	2	25	9
6	20	16	5	26	8
7	14	17	9	27	13
8	5	18	7	28	2
9	4	19	7	29	9
10	15	20	7	30	2

话题标号	新闻数量	话题标号	新闻数量	话题标号	新闻数量
1	5	11	2	21	8
2	12	12	5	22	10
3	25	13	2	23	10
4	10	14	5	24	3
5	6	15	2	25	9
6	20	16	5	26	8
7	14	17	9	27	13
8	5	18	7	28	2
9	4	19	7	29	9
10	15	20	7	30	2

话题标号	新闻数量	话题标号	新闻数量	话题标号	新闻数量
1	5	11	2	21	8
2	12	12	5	22	10
3	25	13	2	23	10
4	10	14	5	24	3
5	6	15	2	25	9
6	20	16	5	26	8
7	14	17	9	27	13
8	5	18	7	28	2
9	4	19	7	29	9
10	15	20	7	30	2