南京航空航天大学经济与管理学院 南京 211106
中图分类号: TP391.1
通讯作者:
收稿日期: 2017-07-18
修回日期: 2017-08-30
网络出版日期: 2017-11-25
版权声明: 2017 《数据分析与知识发现》编辑部 《数据分析与知识发现》编辑部
基金资助:
展开
摘要
【目的】通过一种特征降维方法解决传统词同现导致文本复杂网络处理大规模语料库时的高维性和稀疏性瓶颈问题。【方法】以共现概率表示词语间互信息值, 抽取大于阈值的词语组合, 以此为基础根据句法结构获得三级词条构建初始网络, 通过修正算法完成文本复杂网络的进化, 实现话题语义表达。【结果】以微博热门话题“全球爆发网络勒索病毒”下6 936条微博构建语料库进行实验, 得到具有217个节点, 2 019条边的网络模型, 并用于微博话题特征发现研究, 获得优化效果。【局限】文本复杂网络的网络节点权重赋值存在进一步探索的空间。【结论】该模型能够有效减少网络节点冗余, 同时提高了文本复杂网络对话题的语义表达效果, 为复杂网络理论用于文本挖掘提供一条新途径。
关键词:
Abstract
[Objective] This study aims to solve the high-dimensional and sparse issues facing traditional large-scale corpus analysis methods. [Methods] First, we used the probability of co-occurrence to represent the mutual information between words, and extracted combination of words with values higher than the threshold. Then, we constructed the initial network with the third level entries based on syntactic structure. Finally, we developed the text complex network with the correction algorithm to express topic semantics. [Results] We retrieved 6,936 micro-blog posts from the trending topic of “global outbreak of network ransomware” as experiment corpus, and built a network model with 217 nodes and 2,019 sides. We also explored micro-blogging topics with the new model. [Limitations] More research is needed on the network node weight assignments in text complex networks. [Conclusions] The proposed model could effectively reduce the redundancy of network nodes, and improve the semantic expression of topic complex network.
Keywords:
网络技术与信息技术日新月异, 网络信息量与日俱增, 各种即时通讯工具在日常生活中扮演着非常重要的角色, 往往一个重大事件发生后, 便立刻出现与这一事件关联的热门话题, 话题跟踪成为信息处理领域中的一项重要问题。而话题表示是话题跟踪的基础, 文本处理中广泛采用的向量空间模型(Vector Space Model, VSM)在处理海量信息时会出现高维性和稀疏性问题, 影响后续话题跟踪效果。
语言系统是一个非常复杂的结构体, 从一个句子到一本著作, 通过词语、符号的排列组合, 以语法和语义为限制规则显示出独特的网络结构[1]。近年来, 随着人类语言中复杂网络特征的发现, 国内外学者开始利用复杂网络对文本进行表示。目前国内学者研究基于复杂网络的文本表示方法可以分为三类:
(1) 基于固定窗口词同现。马宏炜等[2]通过构建“词同现语言网络”得到微博语言复杂网络特征, 其具有小世界, 无标度等复杂网络特性; 刘通[3]构建基于词汇共现关系的词汇概念复杂网络, 对文本词汇的重要性指标进行计算分析, 挖掘文本中主题关键词;
(2) 基于类属词典。杨志墨等[4]利用维基百科中所蕴含的概念、链接结构和类别体系信息进行词语间相关度的计算, 提出一种基于复杂网络的中文文本表示算法, 解决基于向量空间文本表示模型中语义信息缺失的问题, 改善了文本分类的效果;
(3) 基于句法关系。詹志平等[5]构建基于句法关系的文本复杂网络模型, 提出一种新的短文本相似度量方法, 在文本聚类实验中优于传统方法。同时, 复杂网络的网络结构能够较好地体现节点间的关联关系, 张志远等[6]利用PL-LDA构建主题文本网络, 反映出主题词分布以及它们之间的复杂关联关系。
在国外, 复杂网络在文本挖掘领域已经有较多行之有效的研究成果。Amancio等[7-8]利用复杂网络分析语言结构的复杂性, 提出命名实体的文本复杂网络构建算法, 解决自然语言处理领域指代消解问题。在构建以书籍为语料库的复杂网络的基础之上, Amancio[9]又提出探索短文本复杂网络特性, 以合理的方式抽取子文本, 构建基于语法的词共现网络, 分析动态短文本的复杂网络问题, 并通过SVM算法的文本分类实验验证了方法的可行性。Amancio[10]还以复杂网络作为人工翻译的分析工具, 改善了机器翻译的效果, 提高了计算机处理文本语义特征的准确度。Kuramochi等[11]利用交叉图理论的思想综合语义分析考虑语言网络社群之间的重叠性, 基于模块进行聚类, 提取话题, 并通过Twitter微博网络评估算法的优越性。Lim等[12]提出Twitter网络主题模型, 利用微博标签等信息以贝叶斯非参数方式建立文本网络模型, 应用于自动生成主题标签。
上述研究虽然都对文本复杂网络模型进行了改进和创新, 但是其对文本挖掘的贡献基本停留在篇章层面, 较少涉及围绕特定话题构建复杂网络辅助语义表达, 如果将其直接应用到话题表示会存在以下问题:
(1) 热门话题下的相关事件报道量是巨大的, 若直接构建“词同现”文本复杂网络模型, 会造成网络节点冗余、网络结构庞杂等问题;
(2) 针对热门话题的讨论通常会存在大量的语气词、助词、表情词等, 导致数据稀疏和模型过拟合问题;
(3) 基于热门事件的话题讨论和新闻报道, 不同于规范的书面文本, 没有明显体现语法规则, 无法基于句法构建文本复杂网络。
因此, 针对热门话题下的海量文本, 亟需一种可以同时实现数据降维和话题语义表达的复杂网络构建模型。为了解决以上问题, 本文提出一种“特征降维”文本复杂网络的话题表示模型。对热门话题下的文本进行特征降维, 抽取能够表达文本语义的特征词条, 构建基于特征词条的文本复杂网络; 基于修正算法实现文本复杂网络的进化; 合并文本复杂网络中相应的点和边, 构建特征降维文本复杂网络的话题表示模型, 网络的相关参数从不同角度反映出话题特征, 该模型能够成为热门话题特征发现较好的研究工具。
具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络称为复杂网络。包括神经网络、互联网、社会关系网络、经济网络等, 通常表现为结构的复杂性、节点的复杂性以及各种复杂性因素的相互影响。
研究复杂系统的复杂网络性质是用复杂网络解决不同领域问题的第一步。通常先将一个具体网络抽象为一个由点集V和边集E组成的图G=(V, E)[13], 计算节点的度, 粗略表征节点所代表的元素在系统中的重要程度。计算平均路径长度和节点对之间的距离, 表示网络的连通性和节点所代表的元素在系统中的紧密关系。计算每个节点的聚类系数和网络的平均聚类系数, 探究系统中元素的聚集性。得到复杂网络的基本参数后, 继续研究网络是否具有小世界、无标度等复杂网络拓扑性质, 可以作为初步判断复杂网络所表征的系统的鲁棒性和脆弱性, 以及用小世界等基本网络模型的特有性质解释系统行为。最后可以通过典型的试探算法[14], 如GN 算法和Kernighan-Lin算法等对网络进行聚类分析, 通过分割社团结构将整个复杂系统划分成若干低耦合高内聚的子系统, 探究各子系统内部结构以及局域世界的动态演化等有助于对整个复杂系统对象的研究。
文本语言在一定的语法规则约束下具有的开放性、动态性和不均衡性使其不是一个简单系统, 而是一种复杂系统。单一文本复杂网络[15]是用复杂网络研究的单一文本结构, 将文本中的语素(字、词)定义为节点, 将字或词间的关系定义为边。目前最常见的文本复杂网络模型为基于“词同现”文本复杂网络模型。具体来说是在一个窗口中, 通常是一个句子, 两个词若同时出现并且两者之间的距离不大于n时, 那么就可以说这两个词语节点之间存在边的关系。每一个句子可以构建一个“词同现”网络模型, 将语料库中的句子逐一按照同样的方法处理, 最后合并每个小网络相同的节点和边, 得到整个语料库的词同现网络, 即基于“词同现”的文本复杂网络模型。
热门话题下的新闻或话题讨论内容, 一方面, 一部分词语可以直接表征话题语义, 与话题有很大的相关关系, 而另一部分词语则与话题语义相关关系较弱, 在构建文本复杂网络的话题表示模型时, 这些与话题语义关系很小的词语的存在会给文本复杂网络对话题的语义表达带来噪声, 也给话题的特征发现研究带来干扰; 另一方面, 用单独的词语说明话题内容的能力是有限的, 但是, 新闻文本中具有特定关系的词语组合能够在很大程度上体现话题语义。基于以上思想, 本文提出特征词条的概念, 在保证不丢失话题语义内容的基础上实现文本降维。
本文将同一篇文档中能够表示话题中关键事件语义的特征词的组合定义为N级特征词条, N为特征词的个数。例如, 在“全球爆发网络勒索病毒”这一话题中, [勒索病毒/n, 篡改/v, 毕业论文/n]为三级特征词条。特征词条的数学符号为c, vi为单独的特征词, 则c=[v1, v2, v3, …]。
二级特征词条的抽取是利用特征词之间的共现关系, 抽取文档中的高频词语对, 认为话题中共现概率较高的词语对能够较好地区别此话题的语义内容。N级特征词条的抽取(N≥3)则利用中文句法, 其特点是反映二级特征词条在固定窗口中的语法规则, 使建立的文本复杂网络模型能够更直接且真实地反映文本语言这个复杂系统的网络拓扑结构。本文构建基于三级特征词条的文本复杂网络模型, 其对话题表达从语义和网络结构两个方面均具有较佳的效果。
抽取三级特征词条步骤如下:
①筛选出经过预处理后的文本语料库中的高频词vi;
②抽取共现概率大于阈值的二级特征词条。特征词vi和vj的共现概率M(vi, vj)计算如公式(1)[16]所示。
$M({{v}_{i}},{{v}_{j}})=\log (1+\frac{fre({{v}_{i}},{{v}_{j}})}{fre({{v}_{i}})+fre({{v}_{j}})-fre({{v}_{i}},{{v}_{j}})})$ (1)
③本文提出“之”字遍历算法抽取三级特征词条。“之”字遍历算法是基于句法的特征词条抽取算法, 其抽取出来的三级特征词条能够反映出二级特征词条在固定窗口中的语法规则。“之”字遍历抽取算法如下:
Input: list(two_dimensional_feaword)
Initialize: For: i=0...list.size
list1=list.entry(i).get(0)
list2=list.entry(i).get(1)
End for
For: i=0...list2.size
For: j=0...list1.size
If list1.get(j).equals(list2.get(i))
ResultList.add(list1.get(i)+list2.get(i)+list2.get(j))
Return ResultList
End If
End for
End for
Output: ResultList(three_dimensional_feaword)
将每个三级特征词条包含的特征词作为特征降维文本复杂网络的节点, 存在于同一特征词条的特征词依序连接成网络中的边, 建立每个特征词条的文本复杂网络, 将所有文档的三级特征词条文本网络进行组合, 合并相同的节点和边, 即得到“特征降维”文本复杂网络的话题表示模型。“特征降维”文本复杂网络的话题模型生成过程如图1所示。
得到“特征降维”文本复杂网络的话题表示模型G后, 计算网络中节点与边的权重。节点的权重表示节点所代表的词语在话题中的重要性, 即对话题语义表征能力的大小; 边的权重表示两个特征词之间的相关关系大小。基于降维文本复杂网络的话题表示模型的节点和边的权重计算步骤如下:
①以三级特征词条频率作为词条的权重, 则三级特征词条在文本语料库中的权重计算如公式(2)所示。
$W({{c}_{i}})=\frac{{{f}_{i}}}{\sum{{{f}_{i}}}}$ (2)
其中, fi是词条ci在词条集中频数, $\sum{{{f}_{i}}}$是所有词条的频数之和。
②计算边的权重。网络边的权重为所有依序包含边两端连接节点表示的特征词的所有词条的权重之和, 并做归一化处理, 本文提出公式(3)如下。
$W(edg{{e}_{ij}})=\frac{\sum{\{W({{c}_{m}}),W({{c}_{n}}),\cdots \}}}{\sum{W(edg{{e}_{ij}})}}$ (3)
其中, $\{{{c}_{m}},{{c}_{n}},\cdots \}$表示依序包含了网络中边两端连接的特征词的所有特征词条的集合。
③以此为基础, 得到网络中节点的权重。节点的权重是所有与该节点相连的边的权重之和节点度之比。本文提出公式(4)如下。
$W({{w}_{i}})=\frac{\sum{\{W(edg{{e}_{mn}}),W(edg{{e}_{lk}})\cdots \}}}{k}$ (4)
$\{edg{{e}_{mn}},edg{{e}_{lk}},\cdots \}$为所有与该节点相连的边的集合。
微博[17], 也被称为微型博客, 作为基于用户关系信息分享、传播以及获取的网络平台, 为大众所推崇, 许多重大新闻事件也首先由微博发布。语言学、计算机、教育学等众多领域学者都相继将其作为科学研究的对象。微博文本具有开放性、精炼性、动态性、独特性等特征, 这给传统的文本挖掘带来严重的数据稀疏问题。针对动态的热门新闻话题, 每条微博都会在双“#”字开头的模式下进行讨论与传播。本文将“特征降维”文本复杂网络的话题表示模型应用于微博文本, 验证模型对话题语义表达的有效性。
根据提出的“特征降维”文本复杂网络的话题表示模型, 依托南京航空航天大学信息管理与电子商务研究所的数据挖掘与语义分析研究平台实验环境, 选择微博热门话题“全球爆发网络勒索病毒”, 构建微博话题文本复杂网络, 分析网络参数, 探究话题文本复杂网络的复杂网络性质, 从而进行热门话题的特征发现研究。使用基于“词同现”的文本复杂网络构建方法作为对比实验, 测评两种文本复杂网络构建方法对话题语义表达的准确性与对话题特征发现研究的有效性。
(1) 微博数据的抓取
实验数据为新浪微博平台“全球爆发网络勒索病毒”话题下的点赞数大于20的微博文本, 使用研究所自行开发的爬虫实验平台, 对2017年5月12日-2017年6月5日共25天的微博进行隔天增量爬取, 爬取内容包括原始ID、用户名称、微博内容、微博链接、发表时间、点赞数等字段, 获取数据后由人工筛选排查去除少量无关微博、重复微博与少字数微博, 最终用于实验的微博总计6 936条。
(2) 微博语料预处理
①使用NLPIR-ICTCLAS 2016系统①(①https://github.com/NLPIR-team/NLPIR/tree/master/NLPIR-ICTCLAS.)分词, 导入“百度汉语分词词库”, 提高分词准确性, 并将“勒索病毒\n”、“比特币\n”等微博话题下的新词加入用户词典, 实现个性分词;
②使用“哈工大停用词表”、“四川大学机器智能实验室停用词库”、“百度停用词列表”去除语气词、助词、介词等没有实际意义的词汇, 同样, 由于微博表情在结构化存储数据库时会转换成表情词, 还需要自定义添加微博常用的表情词将其去除;
③对微博中出现的HTML标签、乱码、转发关系等符号, 使用正则表达进行匹配去除处理。
经过文本预处理全过程, 实现语料库去杂, 最终得到词汇16 332个。
(1) 基于“词同现”文本复杂网络
作为对比实验, 本文首先建立基于“词同现”文本复杂网络。
实验中采用Python-NetworkX作为复杂网络构建与分析工具, 结合Gephi复杂网络处理软件将网络可视化。逐条处理语料库中经过预处理的句子。最终得到话题文本复杂网络的节点数8 005个, 边数45 591条。以两条微博为例:
微博1: 近日有部分高校反映教育网电脑大面积中了比特币勒索病毒, 开发者向受害者勒索比特币。
微博2: 网传欧洲遭受了大规模勒索软件攻击, 黑客要求支付比特币。
得到基于“词同现”话题文本复杂网络如图2所示。
其中, 节点大小、颜色的深浅与节点的度成正比。
(2) 微博话题下的降维文本复杂网络
针对预处理后得到的含有16 332个词汇的训练集语料库, 去除对话题表达贡献较小的低频词, 筛选出词频大于或等于阈值Tw的名词和动词作为特征词, 实验设置阈值Tw为0.01。抽取二级特征词条, 即两个词的共现率大于或等于阈值Tm的词语对, 此处Tm设为0.015。根据“之”字遍历抽取算法获得三级特征词条, 得到初始特征词条ci。部分初始特征词条c如图3所示。
通过对基于语料库的三级特征词条抽取结果分析可以发现, 类似“勒索病毒”、“比特币”、“毕业季”、“全球”等前13个高频词并没有被抽取作为三级特征词条, 通过调试阈值发现, 对于词频排名靠前的话题热词, 经常作为话题标签单独出现, 极少数有与其符合共现概率阈值被抽取到的二级特征词条, 但是作为与话题息息相关的热词, 非常有必要加入到话题文本网络中, 既能够增强网络的连通性, 又能够提高复杂网络对微博话题语义表达的精确度。更重要的是, 如果降低阈值, 虽然13个高频词会被检索到二级特征词关系中, 但同时引入了一些对话题代表性较低的二级特征词条, 增加了网络不必要的复杂性, 会削弱话题网络的语义表达效果。基于以上思想, 实验采用人工干预的方法修正算法, 将未被抽取到二级特征词条中的前13个高频词单独存储, 遍历大于阈值Tw高频词列表, 计算所有与13个高频词有共现关系的二级词条的共现概率并进行降序排序, 分别抽取与13个高频词的共现概率占所有与其有共现关系的前10%的特征词作为二级特征词条添加到二级特征词关系列表中。基于完善后的二级特征词条通过“之”字遍历抽取算法重新生成三级特征词条。
最终得到二级特征词条2 973个, 三级特征词条22 559个。用Python-NetworkX计算得到话题文本复杂网络图G=(V, E), |V|=217, |E|=2 019。“特征降维”文本复杂网络的话题表示模型如图4所示。
为了验证“特征降维”文本复杂网络话题表示模型对微博热门话题特征发现研究的有效性, 以传统“词同现”微博文本复杂网络作为对比实验, 分别对度、聚类系数、最短路径长度等复杂网络参数进行对比分析, 并通过Fast-Unfolding算法对“特征降维”文本复杂网络话题表示模型做社区发现, 研究“全球爆发网络勒索病毒”的话题飘移现象。
(1) 度分布
令基于“词同现”文本复杂网络为G1=(V1, E1), 降维文本复杂网络模型为G2=(V2, E2)。G1的节点数和边数都要远大于G2的节点数和边数。原因是G2是经过特征筛选过的网络, 网络中的节点为与话题相关性比较大的特征词, 而G1的网络节点是经过预处理后的语料库中的全部词语。G1的节点度的最大值是2 631, 最小值是1, 且绝大部分的节点的度相对较低, 存在少量度相对很高的节点, 节点的度分布分散, 为典型的非均匀网络, 度分布服从幂律分布, 在对数坐标系中对应一条直线, 如图5所示。
其中, G2的节点度的最大值是43, 最小值是1, 度分布情况相对比较集中, 可以拟合为Poisson分布, 为均匀网络模型, 如图6所示。
由于G2词节点为特征词, 本身为高频词且满足二级特征词关系抽取条件, 因此网络中词节点度数不会出现极端值, 且度数集中分布在度平均值附近, 这些词与话题有较强的相关关系, 使网络可以作为话题特征发现的工具, 在远离峰值<k>处呈指数下降, 与现实情况相符合。
表1给出了两个网络中度数排名前10的词语。由对比可以明显看出, G2度数排名前10的词语可以很大程度表征话题内容, 而G1由于没有经过特征筛选, 度数排名靠前的词语为汉语中常用动词、名词, 只起到语义结构连接的作用, 没有表征话题语义, 因此不能作为话题特征发现的网络工具。
(2) 其他网络参数
网络的节点数N和边数M表示复杂网络的容量, 两者值越大说明网络越大。<k>表示网络的平均度分布, 可以说明节点的平均邻居节点数目。C表示聚类系数, 说明节点的集聚程度。L表示网络平均最短路径长度, 一定程度上说明网络的连通性。表2给出了三个不同网络的网络参数, 其中GR表示与G2网络规模相同的随机网络。虽然G1比G2的网络容量要大很多, 但是各个网络参数可以说明, G1的网络连通性远不如G2, G2的平均度分布比较大, 说明“特征降维”文本复杂网络话题表示模型中的节点大多数拥有较多的邻居节点, 进一步说明在微博热门话题中, 不同的满足共现概率阈值的二级特征词条在同一条微博中共同出现的概率很大, 多个二级特征词组合在可以表征出一条微博的语义。G2的平均最短路径长度也是三个网络中最小的, 说明特征选择算法所选择出来的特征词彼此之间仍具有较强的连通性, 符合一定的汉语语法结构, 同时证明“特征降维”文本复杂网络话题表示模型可以作为微博话题语义表达的高效能工具。
表2 网络基本参数
网络 | N | M | <k> | C | L |
---|---|---|---|---|---|
G1 | 8 005 | 45 591 | 4.02 | 2.1×10-3 | 3.78 |
G2 | 217 | 2 019 | 18.96 | 0.420 | 2.914 |
GR | 217 | 2 019 | 3.84 | 6.9×10-5 | 3.39 |
另外, 对比G2和GR两个网络, ${{L}_{2}}\approx {{L}_{R}},\ {{C}_{2}}\gg {{C}_{R}}$, 说明微博热门话题下的降维文本复杂网络模型具有复杂网络的小世界特性。小世界网络模型反映了话题文本复杂网络的特性: 网络中大部分特征词关系节点彼此之间有较强的相关关系; 存在一些同样能反映话题语义的特征词关系甚远, 连通性较弱。这恰恰反映了微博话题飘移现象, 微博作为基于用户关系的信息即时分享平台, 热门话题下的微博数量可以说以指数型函数的速度增长, 然而实验爬取的是近一个月的话题微博数据, 话题已经由刚开始的“全球爆发网络勒索病毒”向各个子事件延伸, 进一步的网络社区实验可以更深层次详解此现象。
图7、图8分别展示了“特征降维”文本复杂网络话题表示模型的节点对的最短路径长度分布与节点聚类系数分布。
由图7可以看出, 话题文本复杂网络并不是连通图, 有部分节点对是不可达的。这完全符合汉语语言表达。本文更关注关联节点, 两点的路径长度最大为6, 众数为3, 92.15%的节点对的最短路径长度≤3, 从另一个角度说明话题文本复杂网络具有小世界复杂网络性质, 微博话题中的特征词具有极高的共现性。
由图8可以看出, 节点的聚类系数集中分布在0.4左右, 个别节点的聚类系数为0或接近1。具体挖掘数据得到, “关注”、“天”、“戳”、“保护”等微博常用词语聚类系数最高, “官方”、“转发”、“转”、“报告”等微博标签词语的聚类系数最低, 显示了微博话题特征的同时表明将“特征降维”文本复杂网络作为微博话题文本的研究工具具有极其重要的价值。
(3) 话题文本复杂网络社区发现
复杂网络社区划分的目标是使得划分后的社区内部的连接较为紧密, 社区之间的连接较为稀疏。Newman等[18]提出模块度(Modularity)的概念衡量网络社区划分的好坏。模块度指网络中连接社区结构内部顶点的边所占的比例, 减去在同样的社区结构下任意连接这两个节点的比例的期望值。模块度越大, 则社区划分效果越好。
Fast-Unfolding算法是基于模块度对复杂网络进行社区划分的一种迭代算法。将每个节点划分到不同的社区中, 将每个节点尝试划分到与其相邻接的点所在的社区中, 构造新图。迭代的过程中使划分后的整个网络的模块度不断增大, 直到两次划分前后的模块度之差为负数, 即模块度不再增大为止。本实验应用Fast-Unfolding算法进行网络社区聚类。
“特征降维”文本复杂网络的话题表示模型社区聚类分析结果如表3所示, 网络效果图如图9所示。由此可见, “全球爆发网络勒索病毒”事件在2017年5月12日-2017年6月5日共25天的时间内, 微博话题大致分布在4个方向, 可以划分为三个方面。陈述事件本身造成的负面影响; 基于已有事实专家给出对策和建议; 寻找主要责任方承担事件造成的恶果。
表3 降维文本复杂网络社区聚类结果
社区 | 关键词 |
---|---|
社区1 | 勒索病毒; 爆发; 专家; 更新; 安全补丁; 操作系统 |
社区2 | 黑客; 勒索; 比特币; 人民币; 解锁; 攻击 |
社区3 | 病毒; 遭受; 毕业季; 高校; 论文; 教育网; 放缓 |
社区4 | 美国; 怒斥 |
最后, 基于话题网络社区聚类分析的结果, 以不同的关键词组合重新回到新浪微博平台进行微博检索, 均能以较高的精度检索到与不同子事件相关的微博内容, 进一步观察则可以清晰地了解到大众对于此话题的舆论导向。基于以上分析, 特征降维文本复杂网络模型完全可以作为互联网舆情跟踪的文本处理工具。
本文提出“特征降维”文本复杂网络的话题表示模型, 并应用于微博文本语料库, 分别构建基于“词同现”文本复杂网络和“特征降维”文本复杂网络。对比实验充分证明, “特征降维”文本复杂网络的话题表示模型在复杂网络性质和话题语义表达上明显优于基于“词同现”文本复杂网络。“特征降维”文本复杂网络话题表示模型具有小世界特性, 拥有较小的最短路径长度和较高的聚类系数, 度分布函数符合典型均匀复杂网络模型, 且通过Fast-Unfolding算法可以较优地识别文本复杂网络的社区结构, 分析话题飘移现象。因此, “特征降维”文本复杂网络的话题表示模型可以作为热门话题特征发现的工具, 拓展了复杂网络理论在自然语言处理领域的应用, 为互联网舆情追踪另辟蹊径。
作为互联网舆情的新的研究方法, 本文存在巨大的探索空间: 在文本复杂网络节点和边的权重赋值方面, 将在共现率的基础上作改进, 考虑文本复杂网络基本参数对节点重要性的影响;在“特征降维”文本复杂网络话题表示模型的基础上继续互联网舆情跟踪的研究, 将复杂网络理论真正作为文本挖掘的工具。
刘冰瑶: 提出研究思路, 设计实验方案, 进行实验, 论文起草与修订;
马静: 扩展研究思路, 论文审阅与修订;
李晓峰: 扩展研究思路, 辅助实验。
所有作者声明不存在利益冲突关系。
支撑数据由作者自存储, E-mail: majing5525@126.com。
[1] 刘冰瑶, 马静, 李晓峰. t_weibo_content_seg.xlsx. 微博分词结果.
[2] 刘冰瑶, 马静, 李晓峰. high_frequence_word.xlsx. 微博高频词.
[3] 刘冰瑶, 马静, 李晓峰. t_weibo_edge.xlsx. 网络边信息.
[4] 刘冰瑶, 马静, 李晓峰. t_weibo_entry.xlsx. 特征词条.
[5] 刘冰瑶, 马静, 李晓峰. text-network.zip. 程序源码.
[1] |
还是利器 [J]. ,Linguistic Networks: Metaphor or Tool [J]. , |
[2] |
微博语言的复杂网络特征研究 [J]. ,https://doi.org/10.3778/j.issn.1002-8331.1309-0425 URL Magsci [本文引用: 1] 摘要
基于大规模微博语料库,构建了3个词同现语言网络,并采用复杂网络分析工具对这些语言网络进行分析。主要目的是探索复杂网络分析方法应用于微博文本的可行性,进而研究微博语言网络的个性特征。研究结果表明,复杂网络分析方法在微博文本上是可行的,在复杂网络的相关参数,如度分布、聚类系数、平均最短路径等方面反映了微博语言的语体特征。该研究不仅拓展了复杂网络方法在语言学领域的应用,而且为基于复杂网络的微博内容挖掘提供了可行途径。
Research on Micro Blog Language Characteristics Based on Complex Net-work [J]. ,https://doi.org/10.3778/j.issn.1002-8331.1309-0425 URL Magsci [本文引用: 1] 摘要
基于大规模微博语料库,构建了3个词同现语言网络,并采用复杂网络分析工具对这些语言网络进行分析。主要目的是探索复杂网络分析方法应用于微博文本的可行性,进而研究微博语言网络的个性特征。研究结果表明,复杂网络分析方法在微博文本上是可行的,在复杂网络的相关参数,如度分布、聚类系数、平均最短路径等方面反映了微博语言的语体特征。该研究不仅拓展了复杂网络方法在语言学领域的应用,而且为基于复杂网络的微博内容挖掘提供了可行途径。
|
[3] |
基于复杂网络的文本关键词提取算法研究 [J]. ,https://doi.org/10.3969/j.issn.1001-3695.2016.02.010 URL [本文引用: 1] 摘要
将复杂网络理论应用于文本挖掘技术,构造基于词汇共现性关系的词汇概念复杂网络,对文本词汇的重要性指标进行计算分析,挖掘文本中主题的关键词。在计算词汇重要性指标时,综合考虑目标词汇的频率以及其相邻节点的贡献度。通过实验对比,证实了该网络节点评价指标与基于加权度和加权集聚系数的综合指标相比具有优越性。此外,通过复杂网络社区合并的手段,发现了关键节点之间的网络拓扑关系,即核心网络。通过分析核心网络,可以获得关键词和文本主题的对应关系,为进一步的文本分析提供有效的理论基础。
Algorithm Research of Text Key Work Extraction Based on Complex Networks [J]. ,https://doi.org/10.3969/j.issn.1001-3695.2016.02.010 URL [本文引用: 1] 摘要
将复杂网络理论应用于文本挖掘技术,构造基于词汇共现性关系的词汇概念复杂网络,对文本词汇的重要性指标进行计算分析,挖掘文本中主题的关键词。在计算词汇重要性指标时,综合考虑目标词汇的频率以及其相邻节点的贡献度。通过实验对比,证实了该网络节点评价指标与基于加权度和加权集聚系数的综合指标相比具有优越性。此外,通过复杂网络社区合并的手段,发现了关键节点之间的网络拓扑关系,即核心网络。通过分析核心网络,可以获得关键词和文本主题的对应关系,为进一步的文本分析提供有效的理论基础。
|
[4] |
一种基于复杂网络的中文文本表示算法 [J]. ,An Algorithm of Chinese Text Representation Based on Complex Network [J]. , |
[5] |
一种基于复杂网络的短文本语义相似度计算 [J]. ,
将传统的文本相似度量方法直接移植到短文本时,由于短文本内容简短的特性会导致数据稀疏而造成计算结果出现偏差。该文通过使用复杂网络表征短文本,提出了一种新的短文本相似度量方法。该方法首先对短文本进行预处理,然后对短文本建立复杂网络模型,计算短文本词语的复杂网络特征值,再借助外部工具计算短文本词语之间的语义相似度,然后结合短文本语义相似度定义计算短文本之间的相似度。最后在基准数据集上进行聚类实验,验证本文提出的短文本相似度计算方法在基于F-度量值标准上,优于传统的TF-IDF方法和另一种基于词项语义相似度的计算方法。
Measuring Semantic Similarity in Short Texts Through Complex Network [J]. ,
将传统的文本相似度量方法直接移植到短文本时,由于短文本内容简短的特性会导致数据稀疏而造成计算结果出现偏差。该文通过使用复杂网络表征短文本,提出了一种新的短文本相似度量方法。该方法首先对短文本进行预处理,然后对短文本建立复杂网络模型,计算短文本词语的复杂网络特征值,再借助外部工具计算短文本词语之间的语义相似度,然后结合短文本语义相似度定义计算短文本之间的相似度。最后在基准数据集上进行聚类实验,验证本文提出的短文本相似度计算方法在基于F-度量值标准上,优于传统的TF-IDF方法和另一种基于词项语义相似度的计算方法。
|
[6] |
一种基于PL-LDA模型的主题文本网络构建方法 [J]. ,https://doi.org/10.13306/j.1672-3813.2017.01.008 URL [本文引用: 1] 摘要
Labeled LDA能挖掘出给定主题下的单词概率分布,但却无法分析主题词之间的关联关系.采用PMI虽可计算两个单词的相互关系,但却和给定主题失去联系.受PMI在窗口中统计词对共现频率的启发,提出了一种PL-LDA(Pointwise Labeled LDA)主题模型,可计算给定主题下词对的联合概率分布,在航空安全报告数据集上的实验表明PL-LDA模型所得结果具有很好的解释性.利用PL-LDA构建了主题文本网络,该网络除能反映主题词分布外,还可展现它们之间的复杂关联关系.
A Topic Text Network Construction Method Based on PL-LDA Model [J]. ,https://doi.org/10.13306/j.1672-3813.2017.01.008 URL [本文引用: 1] 摘要
Labeled LDA能挖掘出给定主题下的单词概率分布,但却无法分析主题词之间的关联关系.采用PMI虽可计算两个单词的相互关系,但却和给定主题失去联系.受PMI在窗口中统计词对共现频率的启发,提出了一种PL-LDA(Pointwise Labeled LDA)主题模型,可计算给定主题下词对的联合概率分布,在航空安全报告数据集上的实验表明PL-LDA模型所得结果具有很好的解释性.利用PL-LDA构建了主题文本网络,该网络除能反映主题词分布外,还可展现它们之间的复杂关联关系.
|
[7] |
Complex Networks Analysis of Language Complexity [J]. ,https://doi.org/10.1209/0295-5075/100/58002 URL [本文引用: 1] 摘要
Abstract: Methods from statistical physics, such as those involving complex networks, have been increasingly used in quantitative analysis of linguistic phenomena. In this paper, we represented pieces of text with different levels of simplification in co-occurrence networks and found that topological regularity correlated negatively with textual complexity. Furthermore, in less complex texts the distance between concepts, represented as nodes, tended to decrease. The complex networks metrics were treated with multivariate pattern recognition techniques, which allowed us to distinguish between original texts and their simplified versions. For each original text, two simplified versions were generated manually with increasing number of simplification operations. As expected, distinction was easier for the strongly simplified versions, where the most relevant metrics were node strength, shortest paths and diversity. Also, the discrimination of complex texts was improved with higher hierarchical network metrics, thus pointing to the usefulness of considering wider contexts around the concepts. Though the accuracy rate in the distinction was not as high as in methods using deep linguistic knowledge, the complex network approach is still useful for a rapid screening of texts whenever assessing complexity is essential to guarantee accessibility to readers with limited reading ability
|
[8] |
Network Analysis of Named Entity Interactions in Written Texts [OL]. .
The use of methods borrowed from statistics and physics has allowed for the discovery of unprecedent patterns of human behavior and cognition by establishing links between models features and language structure. While current models have been useful to identify patterns via analysis of syntactical and semantical networks, only a few works have probed the relevance of investigating the structure arising from the relationship between relevant entities such as characters, locations and organizations. In this study, we introduce a model that links entities appearing in the same context in order to capture the complexity of entities organization through a networked representation. Computational simulations in books revealed that the proposed model displays interesting topological features, such as short typical shortest path length, high values of clustering coefficient and modular organization. The effectiveness of the our model was verified in a practical pattern recognition task in real networks. When compared with the traditional word adjacency networks, our model displayed optimized results in identifying unknown references in texts. Because the proposed model plays a complementary role in characterizing unstructured documents via topological analysis of named entities, we believe that it could be useful to improve the characterization written texts when combined with other traditional approaches based on statistical and deeper paradigms.
|
[9] |
Probing the Topological Properties of Complex Networks Modeling Short Written Texts [J]. ,https://doi.org/10.1371/journal.pone.0118394 URL PMID: 25719799 [本文引用: 1] 摘要
Abstract In recent years, graph theory has been widely employed to probe several language properties. More specifically, the so-called word adjacency model has been proven useful for tackling several practical problems, especially those relying on textual stylistic analysis. The most common approach to treat texts as networks has simply considered either large pieces of texts or entire books. This approach has certainly worked well-many informative discoveries have been made this way-but it raises an uncomfortable question: could there be important topological patterns in small pieces of texts? To address this problem, the topological properties of subtexts sampled from entire books was probed. Statistical analyses performed on a dataset comprising 50 novels revealed that most of the traditional topological measurements are stable for short subtexts. When the performance of the authorship recognition task was analyzed, it was found that a proper sampling yields a discriminability similar to the one found with full texts. Surprisingly, the support vector machine classification based on the characterization of short texts outperformed the one performed with entire books. These findings suggest that a local topological analysis of large documents might improve its global characterization. Most importantly, it was verified, as a proof of principle, that short texts can be analyzed with the methods and concepts of complex networks. As a consequence, the techniques described here can be extended in a straightforward fashion to analyze texts as time-varying complex networks.
|
[10] |
Complex Networks Analysis of Manual and Machine Translations [J]. ,https://doi.org/10.1142/S0129183108012285 URL [本文引用: 1] 摘要
Complex networks have been increasingly used in text analysis, including in connection with natural language processing tools, as important text features appear to be captured by the topology and dynamics of the networks. Following previous works that apply complex networks concepts to text quality measurement, summary evaluation, and author characterization, we now focus on machine translation (MT). In this paper we assess the possible representation of texts as complex networks to evaluate cross-linguistic issues inherent in manual and machine translation. We show that different quality translations generated by MT tools can be distinguished from their manual counterparts by means of metrics such as in- (ID) and out-degrees (OD), clustering coefficient (CC), and shortest paths (SP). For instance, we demonstrate that the average OD in networks of automatic translations consistently exceeds the values obtained for manual ones, and that the CC values of source texts are not preserved for manual translations, but are for good automatic translations. This probably reflects the text rearrangements humans perform during manual translation. We envisage that such findings could lead to better MT tools and automatic evaluation metrics.
|
[11] |
Applying to Twitter Networks of a Community Extraction Method Using Intersection Graph and Semantic Analysis [A] // Human-Computer Interaction. Users and Contexts of Use [M]. , |
[12] |
Twitter-Network Topic Model: A Full Bayesian Treatment for Social Network and Text Modeling [OL]. .
Abstract: Twitter data is extremely noisy -- each tweet is short, unstructured and with informal language, a challenge for current topic modeling. On the other hand, tweets are accompanied by extra information such as authorship, hashtags and the user-follower network. Exploiting this additional information, we propose the Twitter-Network (TN) topic model to jointly model the text and the social network in a full Bayesian nonparametric way. The TN topic model employs the hierarchical Poisson-Dirichlet processes (PDP) for text modeling and a Gaussian process random function model for social network modeling. We show that the TN topic model significantly outperforms several existing nonparametric models due to its flexibility. Moreover, the TN topic model enables additional informative inference such as authors' interests, hashtag analysis, as well as leading to further applications such as author recommendation, automatic topic labeling and hashtag suggestion. Note our general inference framework can readily be applied to other topic models with embedded PDP nodes.
|
[13] |
|
[14] |
复杂网络中的社团结构分析算法研究综述 [J]. ,https://doi.org/10.3969/j.issn.1672-3813.2005.03.001 URL [本文引用: 1] 摘要
许多实际网络中都存在着社团结构。为了寻找大规模复杂网络中的社团结构,人们提出了很多算法。本文综述了近几年来比较有代表性的一些算法。首先介绍了计算机科学中最有名的谱平分法和Kernighan-Lin算法,然后介绍了社会学中具有代表性的分裂算法和凝聚算法,并着重分析了最新提出来的一种寻找网络中彼此重叠的社团结构的派系过滤算法。最后指出了进一步的研究方向。
An Overview of Algorithms for Analyzing Community Structure in Complex Networks [J]. ,https://doi.org/10.3969/j.issn.1672-3813.2005.03.001 URL [本文引用: 1] 摘要
许多实际网络中都存在着社团结构。为了寻找大规模复杂网络中的社团结构,人们提出了很多算法。本文综述了近几年来比较有代表性的一些算法。首先介绍了计算机科学中最有名的谱平分法和Kernighan-Lin算法,然后介绍了社会学中具有代表性的分裂算法和凝聚算法,并着重分析了最新提出来的一种寻找网络中彼此重叠的社团结构的派系过滤算法。最后指出了进一步的研究方向。
|
[15] |
汉语词同现网络的小世界效应和无标度特性 [J]. ,
人类语言的某些重要方面可以通过复杂网络来刻画。本文基于不同规模和类型的语料库,建立了汉语词同现网络,并从复杂网络的角度对这些网络进行了系统的实验考察。实验结果表明汉语词同现网络具有复杂网络的两个基本性质: (1)网络的平均最短路径为2.63-2.75,聚合系数远大于相同参数下的随机网络,这揭示了汉语同现网络的小世界效应;(2)网络中词的度大体上呈幂律分布,表明汉语同现网络具有无标度特性。本文还对实验中所得到的汉语核心词典进行了定量分析。
Chinese Word Co-occurrence Network: Its Small World Effect and Scale-free Property [J]. ,
人类语言的某些重要方面可以通过复杂网络来刻画。本文基于不同规模和类型的语料库,建立了汉语词同现网络,并从复杂网络的角度对这些网络进行了系统的实验考察。实验结果表明汉语词同现网络具有复杂网络的两个基本性质: (1)网络的平均最短路径为2.63-2.75,聚合系数远大于相同参数下的随机网络,这揭示了汉语同现网络的小世界效应;(2)网络中词的度大体上呈幂律分布,表明汉语同现网络具有无标度特性。本文还对实验中所得到的汉语核心词典进行了定量分析。
|
[16] |
|
[17] |
中文微博的语体特征研究 [D]. ,The Research of the Chinese Micro-blog’s Linguistic Style [D]. , |
[18] |
Finding and Evaluating Community Structure in Networks [J]. , |
/
〈 | 〉 |