【目的】研究新闻文本的特征降维方法及聚类算法, 以期进一步提升热点话题发现效率及准确率。【方法】基于传统TF-IDF特征权重计算方法, 引入符号、词性、位置及长度4个特征加权, 实现多因素特征选择。从编码方式、适应度函数、自适应步长及群体适应度方差这4方面构造改进果蝇优化算法(Ameliorated Fruit Fly Optimization Algorithm, AFOA), 利用AFOA优选K-means初始聚类中心, 实现优化后的K-means热点话题发现。采用多因素特征选择识别热点话题, 利用TOPSIS获得热点话题排名。【结果】相关实验表明, 多因素特征选择及AFOA/K-means算法分别显著提高了聚类效果, 验证了所提方法整体有效性。【局限】仅适用于中文新闻文本。【结论】本文方法能够为中文新闻热点发现方法研究提供一条新思路。
[Objective] This paper aims to improve the efficiency and accuracy of the hot topic by studying the feature reduction method and clustering algorithm of the news text. [Methods] Based on the traditional TF-IDF formula, the four features are introduced to realize multi factor feature selection, including weighting of symbol, part of speech, position and length. The Ameliorated Fruit fly Optimization Algorithm(AFOA) is constructed from four aspects of coding, fitness function, adaptive step length and population fitness variance. AFOA is used to optimize the K-means initial cluster center, and the optimized K-means is used to find hot topics. Multi factor feature selection is used to identify hot topics, and hot topic ranking is achieved by using TOPSIS. [Results] Relevant experiments show that multi factor feature selection and AFOA/K-means algorithm significantly improve the clustering effect respectively, and verify the overall effectiveness of the proposed method. [Limitations] It is only applicable to Chinese news texts. [Conclusions] The proposed method can provide a new idea for the research of Chinese news hotspots discovery.
随着互联网的普及和快速发展, 其信息发布成本极低、信息发布与传播极为迅速、实时交互性强的特点, 使互联网成为各大新闻媒体发布新闻及人们获取新闻信息的重要平台。网络新闻文本数量庞大且内容复杂, 为满足用户快速且准确获取感兴趣的网络新闻热点的需求, 有必要研究新闻热点发现方法。
在新闻热点发现方法研究领域, 相关学者取得了一定的研究成果。Lu等[1]融合Single-Pass算法与K近邻算法。格桑多吉等[2]引入新闻文本不同位置特征项的加权处理, 以改进Single-Pass文本聚类算法。陈强等[3]引入Canopy种子的概念, 优化种子选取策略, 减弱Canopy算法分块不均衡的缺点。孙明溪等[4]通过动态调整参数以优化DBSCAN算法。上述学者基本采用聚类方法处理海量、重复的新闻文本, 实现新闻热点发现。此外, 文本聚类普遍应用向量空间模型(Vector Space Model, VSM)的文本表示方式, 海量新闻文本使得VSM维度达到几万维甚至几十万维, 且VSM中存在过多的冗余特征和噪音特征。因此, 面向海量网络新闻文本, 有必要研究其特征降维方法及聚类算法, 提升热点话题发现效率及准确率, 以便更好地服务于网络用户。
现有文本特征降维方法主要包括特征选择与特征抽取[5]。
(1) 文本特征选择方面: 裴英博等[6]消除卡方统计(Chi-Square Statistic, CHI)中的特征与类别间负相关, 并引入浓度信息、分布信息和频率信息。Patil等[7]使用词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)基于最小阈值从文档中选择特征。辛竹等[8]综合考虑频度、集中度、分散度等因素, 在互信息(Mutual Information, MI)中引入三个调整参数。刘海峰等[9]从基于文本的类内分布、基于词频的类内分布及词频的类间分布等角度逐步改进信息增益(Information Gain, IG)。
(2) 文本特征抽取方面: 刘美茹[10]利用潜在语义索引(Latent Semantic Indexing, LSI)进行文本特征抽取降维。常娥[11]利用N-gram统计法抽取文档关键词, 并应用LSI对VSM进行降维。Zahedi等[12]利用主成分分析(Principal Component Analysis, PCA)、词频及类别相关因子对波斯语文本进行降维。Abdulhussain等[13]提出基于相似性/相关准则的PCA以获得低维特征。
由于文本特征抽取忽略了特征语义信息, 文本特征选择易于理解、使用简单且保留语义信息, 笔者使用文本特征选择方法进行特征空间降维。其中IG、MI、CHI等考虑类间相关性, 即在文本类别已知情况下, 综合考虑特征在已定义的所有类别中的出现情况。对于网络新闻文本聚类而言, 文本类别事先未知, TF-IDF无需确定文本类别, 计算简单且计算量小, 然而其仅使用词频及文档频率共同表示特征对文本的贡献程度, 忽略了影响特征区分能力的相关因素。为此, 笔者考虑改进TF-IDF特征权重计算公式, 以选择代表性、区分能力较强的特征, 实现特征空间大幅降维, 提高话题间的区分能力。
在文本聚类算法研究领域, 学者通常应用或改进基于划分、基于密度的聚类算法。蔡岳等[14]创建一种应用于DBSCAN算法的簇关系树结构, 能够实现自适应文本聚类。柯钢[15]提出基于增强蜂群优化搜索与K-means的高效文本聚类算法。Zade等[16]讨论K-means算法在非结构化文本聚类中的实现。张琳等[17]将Canopy算法与K-means算法结合, 显著提高K-means的聚类效果。
由于K-means处理大数据集时可保持良好的伸缩性及高效性, 局部搜索能力强, 收敛速度快, 笔者考虑应用K-means聚类算法作为新闻热点发现方法。然而K-means随机选择初始聚类中心, 容易使用同一类别的文本作为不同类别的聚类中心, 会对聚类效果产生干扰, 因此应考虑优选K-means的初始聚类中心。上述优化K-means方法在有效提高聚类效果的同时存在些许不足, 如改进蜂群算法一定概率易陷入局部最优, Canopy算法未能较优确定参数T1、T2取值。笔者查找国内外关于优化K-means文本聚类的研究, 发现果蝇优化算法(Fruit fly Optimization Algorithm, FOA)在此领域存在应用空白, FOA全局搜索能力强、实现简单, 同时易“早熟”收敛。为此, 笔者考虑改进FOA, 使其兼顾全局与局部搜索能力, 优化K-means初始聚类中心, 以提升K-means聚类效果。
鉴于此, 笔者提出一种基于多因素特征选择与AFOA/K-means的新闻热点发现方法。文本特征降维采用多因素特征选择方法, 为此引入符号、词性、位置及长度4个特征影响因素改进传统TF-IDF特征权重计算公式, 多因素选择代表性强、区分能力高的网络新闻特征, 以实现文本特征空间大幅降维及聚类效果的提升。文本聚类采用AFOA/K-means算法, 为此从编码方式、适应度函数、自适应步长调整策略及群体适应度方差策略4方面构造改进果蝇优化算法(AFOA), 利用AFOA优化选取K-means初始聚类中心, 实现K-means聚类效果提升。针对多数研究在发现热点话题以后未对其进一步分析, 笔者采用多因素特征选择识别各热点话题, 在网络新闻文本数据采集阶段, 分析网络新闻特征, 挖掘“报道数量”、“评论数量”、“评论最长时间间隔”、“来源数量” 4方面热度影响因素, 利用TOPSIS进行热度排序, 更好地分析网络新闻热点话题。
笔者总结影响特征区分能力的相关因素, 包括特征词符号、特征词词性、特征词位置及特征词长度。
(1) 特征词符号: 在描述相关热点事件时, 对于热点事件中出现的新词汇通常进行中文引号、中文书名号的符号标注。这一类词汇很大程度上能区分文本, 对文本内容贡献程度较高。
(2) 特征词词性: 通常作为区分文本的特征词大部分为名词或动词。
(3) 特征词位置: 文本开头通常是总起句, 文本结尾是总结句, 处于此两个位置上的特征词能够很大程度上区分文本。
(4) 特征词长度: 中文分词后通常会出现单字, 这一类单字包含信息量少, 区分文本能力差, 因此应该被有效过滤。
基于原始特征权重计算公式综合考虑了上述4个特征影响因素, 如公式(1)所示。
$TF\mathrm{-}IDF=\frac{t{{f}_{ij}}\times \log (N/d{{f}_{j}})}{\sqrt{\mathop{\sum }_{j}^{M}{{[t{{f}_{ij}}\times \log (N/d{{f}_{j}})]}^{2}}}}$ (1)
构造改进的多因素特征权重计算公式如公式(2)-公式(4)所示。
${{W}_{ij}}=\lambda {{W}_{ij符号}}+(1-\lambda ){{W}_{ij无符号}}\ \lambda \in \{0,1\}$. (2)
$\begin{align} & {{W}_{ij符号}}=1\times \frac{t{{f}_{ij}}\times \log (N/d{{f}_{j}})\times {{w}_{词性}}}{\sqrt{\mathop{\sum }_{j}^{M}{{[t{{f}_{ij}}\times \log (N/d{{f}_{j}})]}^{2}}}} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \times \frac{t{{f}_{ij}}\times \log (N/d{{f}_{j}})\times w位置}{\sqrt{\mathop{\sum }_{j}^{M}{{[t{{f}_{ij}}\times \log (N/d{{f}_{j}})]}^{2}}}} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \times \frac{t{{f}_{ij}}\times \log (N/d{{f}_{j}})\times {{w}_{长度}}}{\sqrt{\mathop{\sum }_{j}^{M}{{[t{{f}_{ij}}\times \log (N/d{{f}_{j}})]}^{2}}}} \\ \end{align}$ (3)
$\begin{align} & {{W}_{ij无符号}}=0.5\times \frac{t{{f}_{ij}}\times \log (N/d{{f}_{j}})\times {{w}_{词性}}}{\sqrt{\mathop{\sum }_{j}^{M}{{[t{{f}_{ij}}\times \log (N/d{{f}_{j}})]}^{2}}}} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \times \frac{t{{f}_{ij}}\times \log (N/d{{f}_{j}})\times {{w}_{位置}}}{\sqrt{\mathop{\sum }_{j}^{M}{{[t{{f}_{ij}}\times \log (N/d{{f}_{j}})]}^{2}}}} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \times \frac{t{{f}_{ij}}\times \log (N/d{{f}_{j}})\times {{w}_{长度}}}{\sqrt{\mathop{\sum }_{j}^{M}{{[t{{f}_{ij}}\times \log (N/d{{f}_{j}})]}^{2}}}} \\ \end{align}$ (4)
${{w}_{词性}}=\left\{ \begin{matrix} 1,名词或动词 \\ 0.5,其他词性 \\\end{matrix}\ \ \right.{{w}_{位置}}=\left\{ \begin{align} & 1,头或结尾位置 \\ & 0.5,其他位置 \\ \end{align} \right.$
${{w}_{长度}}=\left\{ \begin{matrix} 1,长度超过1 \\ 0.5,长度为1 \\\end{matrix} \right.$
其中, ${{W}_{ij}}$为特征词
将特征选择问题转换为文本特征重要性排序问题, 通过上述多因素特征权重计算公式, 多角度计算文本特征权重, 根据权重实现特征在文本中的排序。多因素特征选择流程详细描述如下:
输入: 新闻文本集合$D=\left\{ {{d}_{1}}\mathrm{,}{{d}_{2}}\mathrm{,}\cdot \cdot \cdot \mathrm{,}{{d}_{N}} \right\}$
输出: 低维、代表性特征集合$W=\left\{ {{w}_{1}}\mathrm{,}{{w}_{2}}\mathrm{,}\cdot \cdot \cdot \mathrm{,}{{w}_{k}} \right\}$
(1) 文本内特征选择
①循环计算各文本的各特征权重;
②特征权重排序靠前的
(2) 文本间特征选择
①循环计算各特征在文本集合中的波动程度(方差);
②波动程度排序靠前的
(3) 寻找文本集合的低维、代表性特征集合
①循环计算各文本的各代表性特征新权重, 新权重为旧权重与波动程度之积, 若该特征波动程度没有被选入, 则将其波动程度记为0;
②合并各文本代表性特征集合, 去除重复特征, 重复特征权重由该特征平均权重决定;
③重复特征权重排序靠前的
按照果蝇觅食行为的特点, FOA归纳为以下步骤[18]。
①随机初始化果蝇群体二维位置$Init{{X}_{axis}}Init{{Y}_{axis}}$;
②赋予果蝇个体利用嗅觉搜寻食物的随机方向与距离:
${{X}_{i}}={{X}_{axis}}+Randomvalue$, ${{Y}_{i}}={{Y}_{axis}}+Randomvalue$;
③由于食物位置未知, 因此先估计与原点的距离, 再计算味道浓度判定值(
④将味道浓度判定值(
$Smel{{l}_{i}}=Function({{S}_{i}})$;
⑤找出该果蝇群体中味道浓度最高的果蝇个体(求极大值):
$[bestSmell\ bestIndex]=\max Smell$;
⑥保留最佳味道浓度值和
$\begin{align} & \ \ \ \ \ \ \ Smellbest=bestSmell,\ {{X}_{axis}}=X(bestIndex), \\ & \ \ \ \ \ \ \ {{Y}_{axis}}=Y(bestIndex); \\ \end{align}$
⑦进入迭代寻优, 重复步骤②-步骤⑤, 并判断味道浓度是否优于前一代的味道浓度, 若是, 实行步骤⑥。
(1) 编码方式
将每个果蝇个体作为AFOA寻优问题的一个解, 每个果蝇个体由
${{f}_{ij}}=\left\{ \begin{matrix} 1\ \ \ \ 划分 \\ 0\ \ \ \ 排除 \\\end{matrix} \right.$.
该编码方式不仅便于理解, 还能够大幅度降低向量空间维度、严格控制聚类中心选取范围, 非常适用于AFOA。
(2) 适应度函数
根据初始聚类中心“聚簇内紧密, 聚簇间分散” 的选择目标, 给出AFOA适应度函数如公式(5)所示, 以比较初始聚类中心优劣。类间距离越大、类内距离越小,
$fitness=\frac{类间距离}{类内距离}=\frac{\mathop{\sum }_{i,j=1}^{K}\left| {{D}_{i}}-{{D}_{j}} \right|}{\mathop{\sum }_{i=1}^{K}\mathop{\sum }_{d\in {{D}_{i}}}^{{}}\left| d-{{D}_{i}} \right|}$ (5)
(3) 自适应步长调整策略
FOA果蝇个体位置为二维位置, 由于上述编码方式作用, 果蝇个体位置中的文本与初始聚类中心仅有0、1操作, 使用二维位置初始化果蝇个体无意义且计算复杂度增大, 为此设置AFOA果蝇个体位置为一维位置。FOA果蝇个体搜索步长是一个固定范围[0,1]的随机数, 固定步长一定程度上可能导致算法迭代前期陷入局部最优、迭代后期无法收敛而错过最优解, 为此在AFOA中引入自适应步长调整策略(初始化无步长调整, 直接计算适应度函数)。自适应步长调整策略流程详细描述如下。
输入: 本次迭代所有果蝇个体位置集合$FS=\left\{ {{F}_{1}}\mathrm{,}\cdots \mathrm{,}{{F}_{S}} \right\}$
输出: 下次迭代所有果蝇个体新位置集合$F{{S}_{new}}=\left\{ {{F}_{1new}}\mathrm{,}\cdots \mathrm{,}{{F}_{Snew}} \right\}$
根据各果蝇个体位置计算适应度函数, 寻找最优果蝇个体位置。
根据最优果蝇个体位置循环更新剩余普通果蝇个体位置。
①针对最优果蝇个体位置的各个聚类中心, 寻找普通果蝇个体位置的相同聚类中心作为更新对象。
②循环更新各聚类中心对象。分别根据最优果蝇个体位置、普通果蝇个体位置聚类中心特征向量得到对应聚类文本集合, 将各自聚类文本集合转换为特征词权重向量(权重计算使用归一化TF-IDF), 计算两者相似性, 大于一定阈值则保留该聚类中心, 反之更新该聚类中心。
③更新聚类中心特征权重向量如公式(6)-公式(9)所示。
${{X}_{i,new\_ordinary}}={{X}_{i,best}}+step$ (6)
$step=\frac{1}{Iter}\times [(1-\lambda )\left| {{D}_{ordinary}}-{{D}_{best}} \right|+\lambda \left| {{d}_{ordinary}}-{{d}_{best}} \right|]$ (7)
$D=\frac{\frac{1}{K-1}\mathop{\sum }_{j=1且j\ne i}^{K}\left| {{D}_{i}}-{{D}_{j}} \right|-\underset{j=1,\cdots ,K且j\ne i}{\mathop{\min }}\,\left| {{D}_{i}}-{{D}_{j}} \right|}{\underset{j=1,\cdots ,K且j\ne i}{\mathop{\max }}\,\left| {{D}_{i}}-{{D}_{j}} \right|-\underset{j=1,\cdots ,K且j\ne i}{\mathop{\min }}\,\left| {{D}_{i}}-{{D}_{j}} \right|}$(8)
$d=\frac{\frac{1}{(d\in {{D}_{i}})总数}\mathop{\sum }_{d\in {{D}_{i}}}\left| d-{{D}_{i}} \right|-\underset{d\in {{D}_{i}}}{\mathop{\min }}\,\left| d-{{D}_{i}} \right|}{\underset{d\in {{D}_{i}}}{\mathop{\max }}\,\left| d-{{D}_{i}} \right|-\underset{d\in {{D}_{i}}}{\mathop{\min }}\,\left| d-{{D}_{i}} \right|}$ (9)
其中, ${{X}_{i,new\_ordinary}}{{X}_{i,best}}$分别为更新后的普通果蝇个体位置、最优果蝇个体位置的聚类中心
④循环对更新后的各聚类中心在剩余文本中寻找相似性最大的文本, 将该文本更新为新聚类中心。
(4) 群体适应度方差策略
FOA全局搜索能力较强, 但存在易陷入局部最优的弊端, 为此在AFOA中引入群体适应度方差策略, 以群体适应度方差${{\sigma }^{2}}$判断AFOA搜索状态, 继而执行相应的搜索操作。${{\sigma }^{2}}$计算如公式(10)所示。
${{\sigma }^{2}}=\frac{1}{S}\sum\nolimits_{i=1}^{S}{{{[fitnes{{s}_{i}}-favg]}^{2}}}$ (10)
其中, $fitnes{{s}_{i}}$为第
群体适应度方差${{\sigma }^{2}}$描述
输入: 本次迭代所有果蝇个体位置集合$FS=\left\{ {{F}_{1}}\mathrm{,}\cdots \mathrm{,}{{F}_{S}} \right\}$
输出: 下次迭代所有果蝇个体新位置集合$F{{S}_{new}}=\left\{ {{F}_{1new}}\mathrm{,}\cdots \mathrm{,}{{F}_{Snew}} \right\}$
计算本次迭代果蝇群体适应度方差${{\sigma }^{2}}$, 并将${{\sigma }^{2}}$与阈值
①对果蝇个体位置的各聚类中心特征权重向量, 使用两点交叉更新操作。
②重新计算各聚类中心的特征权重向量。
③循环对更新后的各聚类中心在文本中寻找相似性最大的文本, 将该文本更新为新聚类中心。
输入: 新闻文本集合$D=\left\{ {{d}_{1}}\mathrm{,}{{d}_{2}}\mathrm{,}\cdots \mathrm{,}{{d}_{N}} \right\}$
输出: 全局最优果蝇个体位置${{F}_{best}}$(
①初始化果蝇群体。使用上述编码方式对果蝇个体进行编码, 初始化果蝇个体位置, 循环
②计算初始果蝇个体适应度函数。使用上述适应度函数分别计算
③更新果蝇个体位置。使用上述自适应步长调整策略进行果蝇个体位置更新操作。
④计算迭代果蝇个体适应度函数。使用上述适应度函数分别计算更新后的
⑤判断AFOA搜索状态。使用上述群体适应度方差策略进行相应位置更新操作。
⑥判断迭代次数。若达到最大迭代次数, 输出全局最优果蝇个体位置。反之继续执行步骤③-步骤⑥。
K-means是一种典型的基于距离的迭代式算法, 以距离相近性作为评价标准, 距离贴近的对象能够组成一个聚簇, 多个聚簇实现簇间分散、簇内紧凑的目标。K-means算法文本聚类流程详细描述如下。
输入: 全局最优果蝇个体位置${{F}_{best}}$
输出:
①将AFOA优化K-means得到的
②对剩余的各文本计算其到各聚类中心的距离, 并将其划分给最近的聚类中心;
③重新计算各聚类中心;
④迭代步骤②-步骤③, 直到各聚类中心稳定不变。
聚类划分后的各文本集合, 由于无标签标注而无法识别各文本集合的热点话题特征, 为此笔者调用上述多因素特征选择方法进行各文本集合热点话题识别。热点话题识别流程详细描述如下:
输入: 聚类划分的各文本集合$D=\left\{ {{D}_{1}}\mathrm{,}{{D}_{2}}\mathrm{,}\cdots \mathrm{,}{{D}_{K}} \right\}$
输出: 聚类划分的各文本集合热点话题特征集合$W=\left\{ {{W}_{1}}\mathrm{,}{{W}_{2}}\mathrm{,}\cdots \mathrm{,}{{W}_{K}} \right\}$
循环对各文本集合进行热点话题特征选择。
①对文本集合进行多因素特征权重计算;
②选择排序前
TOPSIS是一种针对多目标、多属性问题的决策评估方法, 该方法将待测对象的评估转化为计算理想最优解、最劣解间的欧氏距离, 并计算各个评估对象的相对贴近度, 根据相对贴近度对评估对象进行优劣排序。
为从获取的
$H=\left[ \begin{matrix} \begin{matrix} {{B}_{1}} \\ {{B}_{2}} \\\end{matrix}\ \ \begin{matrix} {{P}_{1}} \\ {{P}_{2}} \\\end{matrix}\ \ \begin{matrix} {{T}_{1}} \\ {{T}_{2}} \\\end{matrix}\ \ \begin{matrix} {{Y}_{1}} \\ {{Y}_{2}} \\\end{matrix} \\ \begin{matrix} \cdots \\ {{B}_{K}}\ \\\end{matrix}\begin{matrix} \cdots \\ {{P}_{K}}\ \\\end{matrix}\begin{matrix} \cdots \\ {{T}_{K}} \\\end{matrix}\ \begin{matrix} \cdots \\ {{Y}_{K}} \\\end{matrix} \\\end{matrix} \right]$
其中,
输入: 热度排序向量
输出: 各热点话题排序结果$R=\left\{ {{R}_{1}}\mathrm{,}{{R}_{2}}\mathrm{,}\cdots \mathrm{,}{{R}_{K}} \right\}$
①对向量
②寻找向量
③分别计算各评价对象各指标值与最优方案${{A}^{+}}$的欧氏距离$D_{i}^{+}$、最劣方案${{A}^{-}}$的欧氏距离$D_{i}^{-}$;
④计算各评价对象与最优方案的接近程度${{C}_{i}}=\frac{D_{i}^{-}}{D_{i}^{+}+D_{i}^{-}}$;
⑤根据
(1) 实验数据
数据1: 为验证多因素特征选择方法及AFOA/K-means文本聚类方法的有效性, 选择复旦大学李荣陆提供的中文文本分类语料库下文本数量较多的6个类别: 艺术、计算机、经济、环境、政治、体育, 每个类别下200篇新闻文本。
数据2: 为将笔者所提热点话题发现方法应用于实际, 以腾讯新闻网为平台, 采集2018年5月共964篇新闻文本相关数据。
(2) 评价指标
为比较不同特征选择方法、不同文本聚类方法的聚类效果, 以
$P=\frac{A}{A+C}$ (11)
$R=\frac{A}{A+B}$ (12)
${{F}_{1}}=2\times \frac{P\times R}{P+R}$ (13)
其中,
(1) 多因素特征选择
为验证多因素特征选择方法的有效性, 以数据1中的1 200篇新闻文本(特征词总数为57 878个)作为实验数据集, 采用传统特征选择方法(TF-IDF特征选择)与多因素特征选择方法, 分别选择1 200维、2 400维、3 600维、4 800维及6 000维的不同维度特征, 使用K-means算法(聚簇数量
由表1可知, 多因素特征选择在各维度上的
(2) AFOA/K-means算法
为验证AFOA/K-means文本聚类方法的有效性, 以数据1中的1 200篇新闻文本作为实验数据集, 采用多因素特征选择方法实现3 600维度特征选择, 使用K-means、GA/K-means、PSO/K-means、FOA/K-means及AFOA/K-means, 分别进行5次文本聚类操作。各文本聚类方法整体聚类效果如表2所示。
为保证验证结果可靠性, 对相关优化算法共同参数进行统一设置, 包括群体规模大小
由表2可知, 与K-means相比, AFOA/K-means的
(1) 数据采集、清洗及预处理
①数据采集: 根据话题排序相关指标, 以2018年5月的腾讯新闻作为采集对象, 采集每一篇新闻的相关数据, 包括标题、来源、发表时间、评论数、正文、最近评论时间, 各数据单独成行, 每一组数据集合以一篇txt文本形式保存。
②数据清洗: 对采集结果中的相同文本进行去重操作, 仅保留一篇有效文本。清除文本中各项数据存在空值的整篇文本, 及各文本中的未处理HTML标签、噪音符号等。
③数据预处理: 对清洗后的文本集合使用Python的jieba包进行中文分词处理, 并且在已有的停用词表基础上, 进一步加入文本中频繁出现的无意义词汇及符号, 构建适合该实验的停用词表, 对中文分词后的文本集合过滤停用词。此外, 根据笔者所提多因素特征选择方法的相关因素, 对各个特征词进行中文引号、书名号标注, 名词、动词标注, 首尾位置标注和长度标注。
(2) 热点话题发现
选择各文本的标题及正文组合作为文本聚类对象, 采用多因素特征选择方法选择文本特征集合, 使用AFOA/K-means文本聚类方法聚类各话题。由于聚簇数量
(3) 热点话题识别及排序
由于篇幅原因, 笔者采用多因素特征选择方法仅选择各热点话题排名前三的代表性特征词汇, 各热点话题特征词汇选择结果如表4所示。可知, 30个热点话题各自选择的代表性特征词汇语义清晰、易于理解, 表明多因素特征选择方法识别话题具有相对完整的语义信息, 符合用户对热点新闻的理解。此外, 将所提新闻热点发现方法应用于新浪新闻网2018年5月的新闻, 计算得到二者热点话题发现结果的相似性约为86.67%, 验证了基于多因素特征选择与AFOA/K-means的新闻热点发现方法的整体有效性。
为进一步分析网络新闻热点话题, 笔者充分考虑新闻话题热度影响因素, 对于每一个热点话题, 通过文本总数确定文本报道数量
通过研究网络新闻文本特点、分析前人关于文本特征降维方法及文本聚类算法的研究成果, 本文提出一种基于多因素特征选择与AFOA/K-means的新闻热点发现方法。针对传统TF-IDF特征权重计算公式考虑特征影响因素较少的缺陷, 笔者引入4个特征影响因素进行改进。实验结果显示, 多因素特征选择方法(改进TF-IDF)的F1值明显优于传统特征选择方法(TF-IDF), 实现了代表性特征集合的选择, 且使文本特征空间大幅降维, 提高了聚类效率。针对果蝇优化算法(FOA)易陷入局部最优的不足, 通过4方面的改进构造了改进果蝇优化算法(AFOA), 针对K-means初始聚类中心随机选择影响聚类效果的问题, 使用AFOA优化K-means初始聚类中心。实验结果表明,相较于其他4种算法, AFOA显著提升了K-means文本聚类F1值。最后, 为进一步分析网络新闻热点话题, 使用多因素特征选择方法识别各热点话题, 针对网络新闻选取4个代表性热度指标, 使用TOPSIS排序发现网络新闻热点话题排名。实例结果证明, 热点话题识别结果语义准确、易于理解, 腾讯新闻热点话题发现结果与新浪新闻热点话题发现结果较接近, 充分验证了所提方法的整体有效性, 且使用TOPSIS对热点话题排序, 能够更进一步准确、有效地分析新闻热点。由此可见, 基于多因素特征选择与AFOA/K-means的新闻热点发现方法, 能够提升热点话题发现效率及准确率, 一定程度上便于网络用户快速准确获取热点话题。
温廷新: 提出研究思路, 设计研究方案, 修改论文;
李洋子: 数据采集、清洗及预处理, 实现算法程序, 负责实验, 起草论文;
孙静霜: 负责实验, 修改论文。
所有作者声明不存在利益冲突关系。
支撑数据见期刊网络版http://www.infotech.ac.cn。
[1] 温廷新, 李洋子, 孙静霜. 实验1数据集. rar. 李荣陆提供的中文文本分类语料库的一部分训练集和测试集.
[2] 温廷新, 李洋子, 孙静霜. 实验2数据集.rar. 腾讯新闻网964篇新闻文本相关数据.
[3] 温廷新, 李洋子, 孙静霜. 实验相关结果.rar. 实验1的相关实验结果及实验2的聚类结果.
[1] |
[本文引用:1]
|
[2] |
考虑网络事件的时间距离,基于半结构化网页中不同位置特征项重要程度的不同,提出改进的single-pass文本聚类算法single-pass*,优势在于对Web文本不同位置特征项的加权处理,仅需计算新文档与同类别种子文档间的相似度。实验结果表明,相比single-pass,改进算法极大减少了漏检率和错检率,降低了由于新文本流内文档进行相似度计算导致系统性能的下降,平均提高Web文本聚类效率40%。将聚类后的Web文本应用于网络舆情分析,进行主题关注度分析和话题热度特性分析。
|
[3] |
针对海量数据上的话题发现任务,提出了一种均匀快速的数据预切分算法。在保证一定精度情况下,通过该算法可以按照数据的语义关联强度快速有效地将数据集切分成大小均匀的子数据集,以支持后续的话题发现算法的并行执行。实验表明,所提出的方法能够快速切分海量数据,保持块内数据的语义关联,大大提升话题发现的效率与质量。
|
[4] |
[目的 /意义]在大数据时代面对海量的数据用户有时会束手无策。因此,越来越多的学者们开始关注互联网热点话题发现的算法,帮助用户快速获取热点话题。[方法 /过程]基于DBSCAN算法,通过动态调整参数来优化算法,实现热点话题发现。根据句法结构与句间关系分析构建热点话题过滤模型,过滤包含热点词项的一般话题。[结果 /结论]采用主流网站新闻数据集进行实验,利用错检率、漏检率等评价指标对算法的有效性进行检验,实验结果证明改进算法性能有所提升,能够为信息用户提供科学研究网络数据的高效途径。
|
[5] |
<html dir="ltr"><head><title></title></head><body><font style="BACKGROUND-COLOR: #c7edcc">特征降维是文本分类的关键技术之一,包括特征选择与特征抽取两类,其中特征选择按特征子集获取范围、特征子集搜索策略、特征子集评价策略等方式进行不同划分。归纳出当前特征选择与特征抽取所用的常用方法,分析各种方法的原理、指出每种方法的优势与不足,总结出相应改进算法。</font></body></html>
|
[6] |
分析了影响传统CHI统计方法分类精度的因素,去除了特征项与类别负相关的情况。同时将改进后的方法用于特征词的权重调整,使其分类效果有了明显提高;将分散度、集中度、频度等因素引入到改进后的方法中,提高了其在类分布不均匀语料集上的分类精确度。最后通过实验证明了该方法的有效性和可行性。 <BR>
|
[7] |
[本文引用:1]
|
[8] |
在深入研究传统互信息特征选择方法的基础上,详细分析了该算法分类精确度不高的原因。针对传统互信息算法中的负相关现象以及倾向于选择低频特征词的问题,提出一种基于互信息的特征优化选择方法。该方法在综合考虑频度、集中度、分散度等因素的基础上,通过引入三个调整参数,有效地保证了负相关特征在文本分类中不可忽视的作用,并且提高了高频词汇的选择比重。实验表明,改进的方法可以有效地提高文本分类精度,并且具有更好的稳定性。
URL
[本文引用:1]
|
[9] |
文本特征选择是文本分类的核心技术.针对信息增益模型的不足之处,以特征项的频数在文本中不同层面的分布为依据,分别从特征项基于文本的类内分布、基于词频的类内分布以及词频的类间分布等角度对IG模型逐步进行改进,提出了一种基于词频分布信息的优化IG特征选择方法.随后的文本分类实验验证了提出的优化IG模型的有效性.
|
[10] |
文本分类技术是文本数据挖掘的基础和核心,是基于自然语言处理技术和机器学习算法的一个具体应用。特征选择和分类算法是文本分类中两个最关键的技术,该文提出了利用潜在语义索引进行特征提取和降维,并结合支持向量机(SVM)算法进行多类分类,实验结果显示与向量空间模型(VSM)结合SVM方法和LSI结合K近邻(KNN)方法相比,取得了更好的效果,在文本类别数较少、类别划分比较清晰的情况下可以达到实用效果。 <BR><BR>
|
[11] |
<html dir="ltr"><head><title></title></head><body>结合潜性语义索引(latent semantic index,LSI)理论和K-means聚类法,提出一种改进的文本自动聚类方法,即首先利用N-gram统计法抽取文档关键词,并应用潜性语义索引LSI对构建文档的向量空间模型进行降维,然后采用K-means算法进行文本聚类。实验表明,该算法进行文本聚类的准确度最高可达84.7%。</body></html>
|
[12] |
Persian text is usually associated with a wide range of important or useless features. This is the main reason why feature extraction process is one of the difficult tasks in the field of Persian text analysis and understanding. While few research works have focused on this problem, the aim of this paper is to introduce a novel approach for extracting the most relevant features and classification of Persian text. Experimental results show that utilizing the principle component analysis along with recall and precision criteria and employing term frequency and category relevancy factor can result in considerable improvement in running time of the classification process while accuracy and precision criteria are improved a little or are not decreased as much as affecting classification performance.
|
[13] |
[本文引用:1]
|
[14] |
目前多数聚类算法不能很好地适应文本聚类的快速自适应需求。为此,论述DBSCAN算法的基本原理和实现过程,提出一种基于改进DBSCAN算法的文本聚类算法,利用最小二乘法降低文本向量的维度,并创建一种应用于DBSCAN算法的簇关系树结构。实验结果表明,该算法能自适应地进行文本聚类,且与DBSCAN相比,准确率较高。
|
[15] |
针对文本数据维度较高、空间分布稀疏及其聚类效果不佳的问题,提出一种基于增强蜂群优化搜索与K-means的高效文本聚类算法。首先为蜂群算法引入公平操作与克隆操作来提高全局搜索的能力,公平操作提高了样本多样性,并增强了蜂群搜索能力;克隆操作则增强了各代之间的信息交流,提高了求解质量。最终引入K-means进行局部质心的提炼,提高聚类质量。基于文本数据集的实验结果证明,相较于其他聚类算法,本算法具有更高的聚类质量。
URL
[本文引用:1]
|
[16] |
URL
[本文引用:1]
|
[17] |
随着互联网的发展,网络电子文本的数量急剧增加,给人们快速高效地从海量数据中挖掘出所需要的信息带来了巨大挑战。文本聚类是解决这个问题的一种可行方法。文章在文本聚类的过程中,针对K-means算法在聚类时需要事先指定簇的个数k和k个初始中心点这两方面的不足,采用Canopy+K-means的聚类算法进行中文文本聚类。为了提高K-means的聚类效果,先使用Canopy算法对数据进行"粗"聚类,在得到k值和聚类中心后,再使用K-means算法进行"细"聚类。在聚类过程中,为了避免"维灾难"现象,本文基于Word2vec通过获得同义词或近义词来有效减少文本特征向量的维度。实验结果表明,基于Canopy+K-means的聚类效果比传统的K-means算法有较好的纯度、准确率、召回率和F值。
URL
[本文引用:1]
|
[18] |
[本文引用:1]
|
[19] |
针对传统K-Means聚类算法对初始聚类中心的选择敏感,易陷入局部最优解的问题,提出一种基于混合并行遗传算法的文本聚类方法。该方法首先将文档集合表示成向量空间模型,并在文档向量中随机选择初始聚类中心形成染色体,然后结合K-Means算法的高效性和并行遗传算法的全局优化能力,通过种群内的遗传、变异和种群间的并行进化、联姻,有效地避免了局部最优解的出现。实验表明该算法相对于K-Means算法、简单遗传算法等文本聚类方法具有更高的精确度和全局寻优能力。
|
[20] |
传统K—means算法对初始聚类中心选择较敏感,结果有可能收敛于一般次优解,为些提出一种结合双粒子群和K-means的混合文本聚类算法。设计了自调整惯性权值策略,根据最优适应度值的变化率动态调整惯性权值。两子群分别采用基于不同惯性权值策略的粒子群算法进化,子代间及子代与父代信息交流,共享最优粒子,替换最劣粒子,完成进化,该算法命名为双粒子群算法。将能平衡全局与局部搜索能力的双粒子群算法与高效的K—means算法结合,每个粒子是一组聚类中心,类内离散度之和的倒数是适应度函数,用K—means算法优化新生粒子,即为结合双粒子群和K—means的混合文本聚类算法。实验结果表明,该算法相对于K—means、PSO等文本聚类算法具有更强鲁棒性,聚类效果也有明显的改善。
|
版权所有 © 2015 《数据分析与知识发现》编辑部 地址:北京市海淀区中关村北四环西路33号 邮编:100190 电话/传真:(010)82626611-6626,82624938 E-mail:jishu@mail.las.ac.cn |