中文短信文本信息流中多话题的分类抽取<sup>*</sup>

引用本文

张永军, 刘金岭, 马甲林. 中文短信文本信息流中多话题的分类抽取^* . 现代图书情报技术, 2014, 30(7,8): 101-106
Zhang Yongjun, Liu Jinling, Ma Jialin. Classification of Multi Topic Extraction Based on Chinese Short Information Text Message Flow. NEW TECHNOLOGY OF LIBRARY AND INFORMATION SERVICE, 2014, 30(7,8): 101-106 复制到剪切板

Permissions

《现代图书情报技术》编辑部

中文短信文本信息流中多话题的分类抽取^*

张永军, 刘金岭, 马甲林

淮阴工学院中文信息处理研究室淮安 223003

通讯作者: 刘金岭 E-mail:liujinlingg@126.com

作者贡献声明：

张永军: 设计研究方案; 论文起草; 编程并进行实验;

刘金岭: 提出研究思路, 论文最终版本修订;

马甲林: 采集、清洗和分析数据。

基金:本文系国家级星火计划项目“农村民生建设信息反馈平台建设”(项目编号: 2011GA690190)的研究成果之一。

摘要

【目的】为更有效地在中文短信文本信息流(SMS Text Message Flow, SM_F)中进行多话题的分类提取, 提出一种基于SM_F特点的话题分类抽取方法SM_F_HT。【方法】将SM_F分割成多个短信文本子集SM_F_i, 通过层次的狄利克雷过程信息抽取与TF-IDF相结合, 建立短信文本向量集上多个概率分布, 采用吉布斯抽样并结合特征词属于临时话题的概率进行SM_F话题分类抽取。【结果】实验结果表明, SM_F_HT在困惑度和对数似然比方面优越于模型CCLDA和CCMix。【局限】在短信文本预处理和特征词的抽取方面, 还需进一步优化算法和提高数据质量。【结论】提出的SM_F_HT方法对SM_F的多话题分类抽取是有效的。

关键词: 短信文本; 信息流; 话题提取; 狄利克雷; 吉布斯抽样

中图分类号:TP391.1

Classification of Multi Topic Extraction Based on Chinese Short Information Text Message Flow

Zhang Yongjun, Liu Jinling, Ma Jialin

Chinese Information Processing Laboratory, Huaiyin Institute of Technology, Huai’an 223003, China

Abstract

[Objective] A topic classification extraction model named SM_F_HT is proposed to find multiple topics more effectively in Chinese SMS text message Flow (SM_F). [Methods] In this model, SM_F is divided into SMS text subsets TF-IDF combined with the hierarchical Dirichlet processes of information extraction are used to build multiple probability distributions of the SMS text vector set. Finally topic classification on SM_F is extracted using Gibbs sampling in conjunction with the probability of the characteristic words which belong to local topic. [Results] Experimental results show that SM_F_HT is superior to CCLDA and CCMix models in perplexity and log likelihood ratio. [Limitations] In fields of SMS text preprocessing and keyword extraction, this algorithm still needs further optimization. [Conclusions] The SM_F_HT scheme is effective for multiple topics classification extraction of SM_F.

Keyword: Short message text; Message flow; Topic extract; Dirichlet; Gibbs sample

Show Figures

1 引言

手机短信在人们的生活中扮演着越来越重要的角色, 手机短信传播也被冠以“拇指文化”、“拇指文明”和“第五媒体”等美誉, 发展成为一种时代潮流。中文短信文本一般每条字符数都不超过140, 在传递公开信息同时携带了丰富且具有极大价值的信息资源。面对海量中文短信文本动态信息, 利用计算机高速的计算能力, 自动从中文短信文本信息流中识别、锁定和收集突发性新闻话题、识别新话题以及跟踪话题发展趋势等相关任务, 有着重要的社会意义, 可广泛用于信息安全、舆情分析和预警等领域。中文短信文本信息流多话题抽取是根据话题主题, 将中文短信文本信息流中的每一个中文短信文本抽取到话题簇中。中文短信文本信息流具有以下特点^{[ 1]}:

(1) 信息长度短、信息量少, 以词为维度的向量空间模型呈现出高维稀疏的特点。

(2) 手机短信文本夜间发送的较少, 尤其在夜间0:00-3:00点按发送数量呈“谷底”状态。

(3) 对重要话题、突发话题或舆情信息一般收到信息后或修改少量内容或不修改内容(绝大多数都不修改内容)就马上进行传播, 因此表达同一话题的短信文本集中会出现大量重复的特征词。

(4) 当一个新话题或突发话题发生时, 流行词语随着话题不断变化而变化, 并不断有新词出现, 呈现出动态性特点。

(5) 按时间顺序组织的文本信息流更便于内容管理和进一步挖掘, 此时, 在中文短信文本信息流中不同话题的中文短信文本随时间变化而交错出现, 即使相邻的中文短信文本也可能隶属于不同的话题。

2 相关研究

随着TDT (Topic Detection and Tracking)项目^{[ 2]} 研究的不断发展, 国内外关于话题发现的相应研究成果逐渐丰富起来。对于短文本信息流的研究, 蔡淑琴等^{[ 3]}提出从微博文本中抽取热点词汇作为元数据, 将这些元数据作为短文本聚类的中心以降低聚类复杂度, 该方法将微博内容看作短文本的形式进行热点话题发现, 其方法停留在利用和改进文本热点话题发现的方法上, 没有利用到微博自身的时序等特点; 马斌等^{[ 4]}融合了微博时序特点, 并将某一时域的微博整合成一个短文本集合, 利用线索树进行长期话题检测。以上研究只是面对单一文本集的, 不适合多文本集中的话题抽取。本文根据中文短信文本信息流的时序特性, 先将中文短信文本信息流分成若干个子文本集, 在子文本集中既有各自的话题, 又有公共话题。类似的研究有Hoffman^{[ 5]}所提出的概率潜在语义分析方法PLSA (Probabilistic Latent Semantic Analysis), 把文本与词之间的语义关联表示为概率, 这样可以将文本映射到低维的语义空间以揭示文本与词的统计特征, 大大减轻了分析海量文本的负担, 但无法处理训练集中未出现的文本和词, 参数也随文本数量的增多呈线性增长。Zhai等^{[ 6]}和Yin等^{[ 7]}提出一种跨文本的混合模型CCMix(Cross-Collection Mixture Model), 讨论了不同文本集之间的共同话题及共同话题在各文本集中的异同之处, 该模型是基于PLSA方法的, 但要比PLSA方法简单, 也易于实现, 类似于PLSA, 它也具有参数随文本数量的增多呈线性增长的不足。赵华等^{[ 8]}针对新闻报道的特点, 通过内容分析法将话题表示为标识中心向量和内容中心向量, 解决包含相同核心内容的两个话题难以区分的问题, 但是内容分析法需要额外词典的支持, 增加了大量的人工维护工作。Paul等^{[ 9, 10]}提出了跨文本集模型CCLDA(Cross Collection LAD), 该模型是一种基于LDA(Latent Dirichlet Allocation)模型^{[ 11]}的分类方法, 它假设一个话题与公共特征信息和具体子集特征信息分布相关联, 体现了话题在各个文本集上的差异。这些方法在一定程度上解决了多个文本集中话题抽取问题, 但是只能对相似度较高的文本集之间的相同话题进行抽取, 对于各文本集中存在的特有话题无法解决。何建民等^{[ 12]}提出了一种基于类熵距离测量的热点话题识别方法, 该方法对社区网络采取了一种层次建模, 社区网络共分话题、事件及事件成员三层, 以事件成员的数目、事件成员比例和事件与话题的相似度作为话题的特征进行多话题提取, 但该方法不能把所抽取的话题进行分类。本文借助TF-IDF思想, 利用狄利克雷信息检索模型把短文本信息流的话题分为长期话题和临时话题, 通过建立一个概率模型来完成多个短信文本子集的话题分析, 进而达到对短文本信息流话题的分类抽取。

3 短信文本信息流多话题分类抽取

根据短信发送和接收的特点, 一个话题经过夜间(如0:00-3:00点)的短信文本传播量处于谷底状态, 本文将该时间区域定义为子集的边界。一个文本集中传播的话题为临时话题, 多个文本集中传播的话题为长期话题。

3.1 临时话题概率

假设短信文本信息流采用文献[13]的方法进行分词、词义消歧、去除停用词及连词、代词等并经过降维预处理后, 转化的特征向量形式SM_F={(W_i1,t_i1; W_i2,t_i2;…, W_im,t_im)| i=1,2,…,n}。其中W_ij是短信文本的特征词, t_ij是W_ij的权值。

定义1: 将短信文本信息流SM_F分割成若干子向量集:

SM_F={SM_F₁,SM_F₂,…,SM_F_t}

对于话题HT={SM₁,SM₂,…,SM_r} SM_F_i, 给定阈值θ(本文取值0.9), 如果且对所有j≠i都有 , 其中|W(HT)|为话题HT所含特征词的个数, 则称HT是关于SM_F_i的临时话题, 记作L_HT, 否则称HT为长期话题, 记作G_HT。

根据话题发生的规律, 描述话题的特征词可能在某时间段内叙事基本相同的大量短信文本中出现, 而在其他时间段出现的类似短信文本较少。同时也说明当一个特征词在某个SM_F_i中出现的多而在其他SM_F_j(j≠i)很少出现时, 说明这个特征词属于临时话题的概率高, 与TF-IDF的思想相吻合。给出如下定义:

定义2: 设短信文本信息流SM_F和临时话题L_HT, 特征词W∈SM_F, n_W,SM表示特征词W在短信文本SM中出现的次数, m_SM,W表示包含特征词W的短信文本总数, t_SM表示SM_F中所包含的全部短信文本总数, 则特征词W属于L_HT的概率p_W定义为:

(1)

其中, 是Beta分布参数, H(W)表示特征词W在所有特征词上的全概率测度。

定义2的意义在于与n_W,SM成正比, 即当W出现在短文本SM中的次数越多, 而在其他短信文本中出现的次数就少, 属于临时话题的可能性就越大。

定义2只考虑短信文本的特征词属于临时话题的概率, 但没有考虑特征词对短信文本的影响, 也就是说, 当某短信文本中有多个特征词属于临时话题, 则其他词属于该临时话题的概率就比较大。

定义3: 设SM∈SM_F, n_W,SM表示特征词W在短信文本SM中出现的次数, SM_TOP表示文本集中最大的若干个(比如前10个)特征词构成的集合。则特征词W属于临时话题的概率定义为:

(2)

其中, , λ₁, λ₂是加权系数。

定义3中的u_d表示当短信文本中属于SM_TOP的词值越大, 则不属于SM_TOP的词值也比较大, 也就是属于临时话题的概率也比较大, 此处用m_W,SM表示较大(比如前10个)的短信文本集中特征词的个数。

3.2 临时话题和长期话题的抽取

本文短信文本信息流多话题抽取算法的主要思想分为两部分, 先是利用层次的狄利克雷过程和TF-IDF相结合, 生成较为准确的短信文本信息流相关的多项式概率分布模型, 对于短信文本中的一个特征词, 利用吉布斯采样^{[ 14]}和定义3, 抽取出临时话题和长期话题。为了便于叙述, 该算法简记为SM_F_HT, 步骤如下:

(1) 对于短信文本信息流SM_F, 利用前文子集边界确定方法将SM_F分割成若干子向量集:

SM_F={SM_F_i| i=1,2,…,t}

因此有, 存在i, 使得L_HT SM_F_i;

(2) 根据文献[6]和[7], 对每一个话题HT和子向量集SM_F_i, 可以获得HT与SM_F有关的Beta分布 ; 对任意短信文本SM_ij∈SM_F_i, 根据基于“文档语言模型服从于一个多项式分布”^{[ 15]}, 利用狄利克雷过程并结合公式(2)可获得如下各层次分布:

①短信息文本SM_ij属于长期话题分布向量和临时话题分布 ;

②对于每个长期话题G_HT, 可以得到一个与子向量集无关的多项式分布 ;

③对于每个长期话题G_HT, 可以得到一个与子向量集相关的多项式分布 ;

④对于每个临时话题L_HT, 可以得到其多项式分布 ;

(3) 在特征词的狄利克雷分布中任取W_ij∈SM_i SM_F, 利用吉布斯采样可以得到W_ij所涉及话题个数和推导模型的参数, 对于每一个话题, 利用定义3确定其属于临时话题还是长期话题:

①如果HT是长期话题, 并且可以根据获得一个话题G_HT, 对于G_HT中特征词W的抽取有如下操作: 根据分布得到抽样值V_x, 如果V_x=0, 根据抽取W, 否则根据来抽取W;

②如果HT是临时话题, 根据分布获得一个话题L_HT, 对于L_HT中特征词W的抽取有如下操作: 根据分布来抽取W;

(4) 利用文献[15], 将抽取出的各个临时和长期话题特征词集构造成话题输出。

该算法先是在步骤(2)中把按夜间边界区分的各短信文本向量子集合并为一个大文本向量集, 对于临时话题、长期话题、短信文本集利用狄利克雷分布进行各随机测度的分层建模, 再利用大文本向量集的所有词的测度、短信文本向量子集的所有词的离散概率测度和每个短信文本向量的所有词的离散概率测度并结合公式(2)对SM_F建立一个非参数化的信息检索模型, 最后通过吉布斯采样得到特征词所涉及的话题个数, 根据采样的结果, 利用定义3, 就可以确定特征词属于临时话题的概率。

4 实验结果与分析

实验数据是从江苏某短信运营商2012年2月1日0点整到4月30日24点0分时间段中挑选了近10万多条手机短信文本集合进行人工标注, 经过去重、消歧和降维等预处理后得到18 000条手机短信文本。标注了较为热点的如载有化学品的船在江阴段沉船、江苏沿江部分城市出现市民抢购矿泉水、元宵节祝福等100个话题。

4.1 困惑度比较

困惑度(Perplexity)是当前最常用的度量文本模型性能好坏的评测标准, 它是利用当前训练结果来预测未来文本的能力。困惑度越低, 语言模型对上下文的约束能力就越强, 所表示模型对未知的短信息文本预测能力越强。困惑度的计算公式为^{[ 16]}:

(3)

其中, L为测试语料总特征词序列的长度, n是模型的阶数(如n=2时称为Bi-gram)。表示在特征词串出现的情况下w_i出现的概率。

对SM_F_HT模型与CCLDA模型进行了话题抽取的困惑度比较, 实验选取30%的短信文本作为测试文本, 两个模型都进行了2 000次迭代。用X轴表示热点话题的数目, 用Y轴表示困惑度, 则实验结果如图1所示:

	Figure Option View Download New Window
	图1 话题抽取的困惑度比较

从实验结果可以看出, SM_F_HT模型比CCLDA模型进行话题抽取时困惑度小得多, 这是因为SM_F_HT算法更适用于短信文本信息流的话题抽取, 对上下文的约束能力更强。实验中还可以看出困惑度随着话题数量增加而下降, 这是因为话题越多, 降维损失的信息就越少, 而且降维的结果也符合短信文本集的特征。但是如果话题很多, 短信文本信息流的特征词空间维数就越高, 则降维的意义不大, 因此话题的数量不是越多越好, 笔者经过多次实验, 一般在50-80个话题较为合适。

4.2 对数似然比比较

对数似然比(Log-Likelihood Ratio, LLR)是通过独立性假设来检验两个元素出现的相关程度, 它引入Log 似然比统计量, 能够较准确地反映两个元素的相关性, 将其应用到机器学习中, 克服了典型的学习方法对低频词估计不准确的缺点, 保证了计算结果的稳定性。本文利用文献[17]中给出的对数似然比来比较模型SM_F_HT、CCLDA和CCMix的话题抽取性能, 根据短信文本信息流中话题检测的特点, 特征词抽取测试指标包括频度、集中度和分散度等多项统计测试指标。

假设对于话题HT_j, 特征词W_i的多项统计测试指标向量为α_ij, 有:

(4)

其中, LLR是特征词W_i对于话题HT_j的对数似然比, 和分别是α_ij在话题HT_j和补集的联合密度函数:

(5)

M是符合次数, u_m是第m次符合的均值向量, 是第m次符合的协方差矩阵, D是统计指标数目。公式类似。

为了实验简单, 本文α_ij只取频度、集中度和分散度, 而且相应阈值分别取0.9, 0.6和0.6, 取D=3。X轴表示热点事件数目, Y轴表示似然相似度除以100 000, 则实验结果如图2所示:

	Figure Option View Download New Window
	图2 三种模型的对数似然值比较

从图2可以看出, 与CCMix和CCLDA模型相比, SM_F_HT对数似然比值要大得多, 说明它的区分能力较强, 更容易判断特征词的话题特性。这是因为SM_F_HT比其他两个模型更能全面地利用短信文本信息流的特点, 由于考虑到临时话题, 因此SM_F_HT模型更具有灵活性。

5 结语

根据短信文本信息流SM_F表现话题的特点, 本文先利用短信文本夜间流量少的特点确定短文本信息流的子集边界, 将SM_F分割成若干个短信文本子集, 通过层次的狄利克雷过程信息抽取与TF-IDF相结合建立了短信文本集特征词属于临时话题的概率分布, 并采用吉布斯抽样确定话题个数, 再结合定义3把SM_F的话题进行分类, 实验结果证明了对于中文短信文本信息流SM_F_HT可以较好地抽取热点话题, 并能够进行有效的分类。下一步工作的重点是有效地提高抽取事件特征词及特征词之间关系的质量。

参考文献

View Option

[1]	刘金岭, 倪晓红, 王新功. 手机短信文本信息流的自动文摘生成[J]. 现代图书情报技术, 2013(2): 43-49. (Liu Jinling, Ni Xiaohong, Wang Xingong. Automatic Abstracting Generating Based on Mobile Short Message Text Information Flow[J]. New Technology of Library and Information Service, 2013(2): 43-49. ) [本文引用:1] [CJCR: 1.073]
[2]	Allan J, Papka R, Lavrenko V. On-line New Event Detection and Tracking [C]. In: Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’98). New York: ACM, 1998: 37-45. [本文引用:1]
[3]	蔡淑琴, 张静, 王旸, 等. 基于中心化的微博热点发现方法[J]. 管理学报, 2012, 9(6): 874-879. (Cai Shuqin, Zhang Jing, Wang Yang, et al. Micro-blogging Hotspot Discovery Method Based on Centralization[J]. Chinese Journal of Management, 2012, 9(6): 874-879. ) [本文引用:1] [CJCR: 1.1165]
[4]	马斌, 洪宇, 陆剑江, 等. 基于线索树双层聚类的微博话题检测[J]. 中文信息学报, 2012, 26(6): 121-128. (Ma Bin, Hong Yu, Lu Jianjiang, et al. A Thread-based Two-stage Clustering Method of Microblog Topic Detection[J]. Journal of Chinese Information Processing, 2012, 26(6): 121-128. ) [本文引用:1] [CJCR: 1.13]
[5]	Hofmann T. Probabilistic Latent Semantic Indexing [C]. In: Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR’99). New York: ACM, 1999: 50-57. [本文引用:1]
[6]	Zhai C, Velivelli A, Yu B. A Cross-collection Mixture Model for Comparative Text Mining [C]. In: Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’04), Seattle, Washington, USA. New York: ACM, 2004: 743-748. [本文引用:1]
[7]	Yin Z, Cao L, Han J, et al. Geographical Topic Discovery and Comparison[C]. In: Proceedings of the 20th International Conference on World Wide Web (WWW’11). New York: ACM, 2011: 247-256. [本文引用:1]
[8]	赵华, 赵铁军, 张姝, 等. 基于内容分析的话题检测研究[J]. 哈尔滨工业大学学报, 2006, 38(10): 1740-1743. (Zhao Hua, Zhao Tiejun, Zhang Shu, et al. Topic Detection Research Based on Content Analysis[J]. Journal of Harbin Institute of Technology, 2006, 38(10): 1740-1743. ) [本文引用:1] [CJCR: 0.1571]
[9]	Paul M J, Girju R. Cross-cultural Analysis of Blogs and Forums with Mixed-collection Topic Model[C]. In: Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing (EMNLP’09). Stroudsburg: Association for Computational Linguistics, 2009: 1408-1417. [本文引用:1]
[10]	Paul M J, Girju R. Comparative Scientific Research Analysis with a Language-Independent Cross-Collection Model[J]. Procesamiento del Lenguaje Natural, 2010, 45: 153-160. [本文引用:1]
[11]	姚全珠, 宋志理, 彭程. 基于LDA模型的文本分类研究[J]. 计算机工程与应用, 2011, 47(13): 150-153. (Yao Quanzhu, Song Zhili, Peng Cheng. Research on Text Categorization Based on LDA[J]. Computer Engineering and Applications, 2011, 47(13): 150-153. ) [本文引用:1] [CJCR: 0.457]
[12]	何建民, 张义. 基于类熵距离测量的热点话题识别方法研究[J]. 情报科学, 2012, 30(8): 1147-1150, 1166. (He Jianmin, Zhang Yi. Research on Identifying Method for the Hot Topics Based on Class Entropy Distance Measurement[J]. Information Science, 2012, 30(8): 1147-1150, 1166. ) [本文引用:1] [CJCR: 1.112]
[13]	刘金岭. 基于降维的短信文本语义分类及主题提取[J]. 计算机工程与应用, 2010, 46(23): 159-161, 174. ( Liu Jinling. Dimensionality Reduction of Short Message Text Classification and Thematic Extraction of Semantic [J]. Computer Engineering and Applications, 2010, 46(23): 159-161, 174. ) [本文引用:1] [CJCR: 0.457]
[14]	尤芳. Gibbs抽样在正态混合模型中的参数估计[J]. 统计与决策, 2009(15): 150-151. (You Fang. Gibbs Sampling in The Gaussian Mixture Model Parameter Estimation[J]. Statistics and Decision, 2009(15): 150-151. ) [本文引用:1] [CJCR: 0.442]
[15]	赵爱华, 刘培玉, 郑燕. 基于LDA的新闻话题子话题划分方法[J]. 小型微型计算机系统, 2013, 34(4): 732-737. (Zhao Aihua, Liu Peiyu, Zheng Yan. Subtopic Division in News Topic Based on Latent Dirichlet Allocation[J]. Journal of Chinese Computer Systems, 2013, 34(4): 732-737. ) [本文引用:1] [CJCR: 0.46]
[16]	黄永文, 何中市. 基于互信息的统计语言模型平滑技术[J]. 中文信息学报, 2005, 19(4): 46-51. (Huang Yongwen, He Zhongshi. A Smoothing Technique for Statistical Language Model Based on Mutual Information[J]. Journal of Chinese Information Processing, 2005, 19(4): 46-51. ) [本文引用:1] [CJCR: 1.13]
[17]	李国臣. 文本分类中基于对数似然比测试的特征词选择方法[J]. 中文信息学报, 1999, 13(4): 16-21. (Li Guochen. A Log-Likelihood-Ratio-Test-Based Feature Word Selection Approach in Text Categorization[J]. Journal of Chinese Information Processing, 1999, 13(4): 16-21. ) [本文引用:1] [CJCR: 1.13]

0.0

1.073

. , 2013(2):43-49

Automatic Abstracting Generating Based on Mobile Short Message Text Information Flow

1. Computer Engineering Faculty, Huaiyin Institute of Technology, Huaian 223003, China; 2. Department of Computer, Cangzhou Teachers College, Cangzhou 061001, China

Due to the characteristics of mobile short message text information flow in the practical application,an automatic digest generation model is designed. The model uses word co-occurrence to define the semantic similarity. Using the TF-IDF,weights of feature words and abstracts candidate sentence weights are defined in the model. By removing isolated points, the algorithm generates smaller redundancy and more readable short text messages flow digest according to the weight screening abstract and abstract sort. Experiments of the relevant data show that the model has better quality and higher efficiency in abstract generation.

针对手机短信文本信息流的特点,设计一种自动文摘生成模型。该模型利用词共现定义语义相似度,根据TF-IDF定义特征词权值以及文摘候选句权值。算法通过清除孤立点、根据权值筛选文摘句以及文摘句排序,生成冗余度较小且可读性较好的短信文本信息流文摘。相关数据实验证明,文摘句的生成质量和算法效率都比较高。

... 中文短信文本信息流具有以下特点^[1]: ...

1998

0.0

... 2 相关研究随着TDT (Topic Detection and Tracking)项目^[2] 研究的不断发展, 国内外关于话题发现的相应研究成果逐渐丰富起来 ...

2012

0.0

1.1165

. 2012, 9(6):874-879

Micro-blogging Hotspot Discovery Method Based on Centralization

1. Huazhong University of Science and Technology, Wuhan, China; 2. University of Greenwith, London, UK

In order to solve the problem of massive pieces of information on microblogs, this paper studies the centralization theorybased hotspot discovery methods for microblogs, in consideration of the features of microblogging content such as short text, variety of sources and diverse means of dissemination. Through the structured metadata acquired from open APIs, some metadata models for microblogging content are analyzed, and the hotspot discovery process is regarded as a valueadded process of the original materials to clusters of hot products. For initial and deep processing methods during the production process, some data preprocessing techniques as well as short text clusteringbased and disseminating path and users behaviorbased centralizing techniques are proposed. And a complete production and processing model is established. Finally, a series of experiments have verified the theoretical achievement.

以解决微博平台海量信息碎片为切入点，结合微博信息文本短小、来源广泛、传播方式多样等特点，设计基于中心化的微博热点的发现机制。通过微博平台开放API记录的结构化元数据信息，设计微博的元数据模型，将微博热点发现看作是原始语料到热点语料簇的生产加工增值过程，设计以数据预处理技术为核心的语料初加工方法，以及基于短文本聚类、基于传播路径与用户行为的中心化深加工方法，构建完整的生产加工过程模型，并通过实例验证理论研究成果。

... 对于短文本信息流的研究, 蔡淑琴等^[3]提出从微博文本中抽取热点词汇作为元数据, 将这些元数据作为短文本聚类的中心以降低聚类复杂度, 该方法将微博内容看作短文本的形式进行热点话题发现, 其方法停留在利用和改进文本热点话题发现的方法上, 没有利用到微博自身的时序等特点 ...

2012

0.0

1.13

... 马斌等^[4]融合了微博时序特点, 并将某一时域的微博整合成一个短文本集合, 利用线索树进行长期话题检测 ...

1999

0.0

... 类似的研究有Hoffman^[5]所提出的概率潜在语义分析方法PLSA (Probabilistic Latent Semantic Analysis), 把文本与词之间的语义关联表示为概率, 这样可以将文本映射到低维的语义空间以揭示文本与词的统计特征, 大大减轻了分析海量文本的负担, 但无法处理训练集中未出现的文本和词, 参数也随文本数量的增多呈线性增长 ...

2004

0.0

... Zhai等^[6]和Yin等^[7]提出一种跨文本的混合模型CCMix(Cross-Collection Mixture Model), 讨论了不同文本集之间的共同话题及共同话题在各文本集中的异同之处, 该模型是基于PLSA方法的, 但要比PLSA方法简单, 也易于实现, 类似于PLSA, 它也具有参数随文本数量的增多呈线性增长的不足 ...

2011

0.0

2006

0.0

0.1571

. 2006, 38(10):1740-1743

Topic Detection Research Based on Content Analysis

通过分析大量的英文报道的特点,针对目前话题检测研究中存在的难以区分两次不同的火车事故或爆炸事件的问题提出了基于内容分析的话题检测算法.该算法以Single-Pass聚类策略为基础,通过内容分析将话题表示成两个中心向量:标识中心向量及内容中心向量.实验证明基于内容分析的话题检测算法不但简单易行,而且对于解决上述的"难以区分"问题非常有效.

... 赵华等^[8]针对新闻报道的特点, 通过内容分析法将话题表示为标识中心向量和内容中心向量, 解决包含相同核心内容的两个话题难以区分的问题, 但是内容分析法需要额外词典的支持, 增加了大量的人工维护工作 ...

2009

0.0

... Paul等^[9,10]提出了跨文本集模型CCLDA(Cross Collection LAD), 该模型是一种基于LDA(Latent Dirichlet Allocation)模型^[11]的分类方法, 它假设一个话题与公共特征信息和具体子集特征信息分布相关联, 体现了话题在各个文本集上的差异 ...

2010

0.0

2011

0.0

0.457

. 2011, 47(13):150-153

Research on Text Categorization Based on LDA

School of Computer Science & Engineering，Xi’an University of Technology，Xi’an 710048，China

When the text corpuses are high-dimensional and large-scale，the traditional dimension reduction algorithms will expose their limitations.A Chinese text categorization algorithm based on LDA is presented.In the discriminative frame of Support Vector Machine（SVM），Latent Dirichlet Allocation（LDA） is used to give a generative probabilistic model for the text corpus，which reduces each document to fixed valued features——The probabilistic distribution on a set of latent topics.Gibbs sampling is used for parameter estimation.In the process of modeling the corpus，a latent topics-document matrix associated with the corpus has been constructed for training SVM.Standard method of Bayes is used for reference to get the best number of topics.Compared to Vector Space Model（VSM） for text expression combined SVM and the classifier based on Latent Semantic Indexing（LSI） combined SVM，the experimental result shows that the proposed method for text categorization is practicable and effective.

针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性，提出了一种基于LDA模型的文本分类算法，在判别模型SVM框架中，应用LDA概率增长模型，对文档集进行主题建模，在文档集的隐含主题-文本矩阵上训练SVM，构造文本分类器。参数推理采用Gibbs抽样，将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法，确定最优主题数T。在语料库上进行的分类实验表明，与文本表示采用VSM结合SVM，LSI结合SVM相比，具有较好的分类效果。

2012

0.0

1.112

... 何建民等^[12]提出了一种基于类熵距离测量的热点话题识别方法, 该方法对社区网络采取了一种层次建模, 社区网络共分话题、事件及事件成员三层, 以事件成员的数目、事件成员比例和事件与话题的相似度作为话题的特征进行多话题提取, 但该方法不能把所抽取的话题进行分类 ...

2010

0.0

0.457

. 2010, 46(23):159-161, 174 DOI:10.3778/j.issn.1002-8331.2010.23.045

Liu Jinling. Dimensionality Reduction of Short Message Text Classification and Thematic Extraction of Semantic

Huaiyin Institute of Technology，Huai’an，Jiangsu 223003，China

In order to predict Chinese short message opinion quickly，the short message text dimensionality reduction is obtained by using synonymous terms and the upper and lower merge，and then the mass short message classification algorithm for the extraction and classification of the subject is given.Test shows that the method can greatly improve the public opinion of the speed and quality of forecasts.

为了对中文短信文本进行快速的舆情预测，利用对同义关系词汇归并和上下位词汇聚焦以及种子词汇的确定来实现对短信文本空间的降维，而后又给出了海量短信文本分类的算法及分类主题的提取。实验表明该方法可以大大提高舆情预测的速度和质量。

0.0

0.442

... 2 临时话题和长期话题的抽取本文短信文本信息流多话题抽取算法的主要思想分为两部分, 先是利用层次的狄利克雷过程和TF-IDF相结合, 生成较为准确的短信文本信息流相关的多项式概率分布模型, 对于短信文本中的一个特征词, 利用吉布斯采样^[14]和定义3, 抽取出临时话题和长期话题 ...

2013

0.0

0.46

. 2013, 34(4):732-737

Subtopic Division in News Topic Based on Latent Dirichlet Allocation

1(School of Information Science and Engineering, Shandong Normal University, Jinan 250014, China)，2(Shandong Provincial Key Laboratory for Distributed Computer Software Novel Technology,Jinan 250014, China)

Nowadays it is difficult to distinguish the subtopics in a hot news topic on the internet. To solve this problem, in the paper, the method of subtopic division based on Latent Dirichlet Allocation is presented. It describes a news document by Latent Dirichlet Allocation, and uses Bayes standard method to determine the optimal number of topics in order to fit documents best. According to the high similarity of documents between subtopics, the relativity analysis of feature words is introduced. Using the improved Kullback-Leibler distance to calculate the similarity of news stories can distinguish the stories which have similar content but belong to different topics effectively. Finally, it divides a hot news topic to subtopics by clustering the news documents with the single-pass incremental clustering algorithm. Experimental results verify the availability of the improved similarity calculation method, and it shows that this method can improve the performance of subtopic division effectively comparing to the baseline method.

针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象，提出一种基于LDA模型的子话题划分方法.首先应用LDA模型对新闻文档进行建模，采用贝叶斯标准方法确定最优主题个数，使LDA模型拟合文档性能达到最佳；其次针对子话题间文本相似度较高的特点，引入主题特征词相关性分析，采用改进的KL距离公式，计算新闻文档之间相似度，有效区分了文档内容相似但话题重点不同的报道；最后通过single-pass增量聚类算法进行文档聚类，实现子话题划分.实验验证了改进后的相似度计算方法的有效性，实验结果表明该方法能够有效地提高热点新闻话题子话题划分的准确率.

... SM_F_i, 根据基于“文档语言模型服从于一个多项式分布”^[15], 利用狄利克雷过程并结合公式(2)可获得如下各层次分布: ...

2005

0.0

1.13

. 2005, 19(4):46-51

A Smoothing Technique for Statistical Language Model Based on Mutual Information

数据平滑主要是用来解决统计语言模型在实际应用中数据稀疏问题.现有平滑技术虽然已有效地对数据稀疏问题进行了处理,但对已出现事件频率分布的合理性并没有作出有效的分析.本文则针对二元模型,提出了一种基于互信息的平滑技术,其基本思想是根据模型中每个二元对的互信息的高低对其概率进行折扣或补偿,并用极小化困惑度原则体现了模型的合理性.实验结果表明该技术优于目前常用的Katz平滑技术.

... 困惑度的计算公式为^[16]: ...

1999

0.0

1.13