基于语义指纹的中文文本快速去重

引用本文

李纲, 毛进, 陈璟浩. 基于语义指纹的中文文本快速去重. 现代图书情报技术, 2013, 29(9): 41-47
Li Gang, Mao Jin, Chen Jinghao. Fast Duplicate Detection for Chinese Texts Based on Semantic Fingerprint. New Technology of Library and Information Service, 2013, 29(9): 41-47 复制到剪切板

Permissions

基于语义指纹的中文文本快速去重

李纲, 毛进, 陈璟浩

武汉大学信息资源研究中心武汉 430072

修回日期:2013-08-06

基金:本文系国家自然科学基金项目“科研团队动态演化规律研究” (项目编号:71273196) 的研究成果之一。

摘要

针对中文文本, 抽取出文本内容特征, 结合Simhash算法生成中文文本的语义指纹, 通过语义指纹的海明距离判断文本间相似程度。整合Single-Pass快速聚类算法对语义指纹快速聚类, 所得的语义指纹聚类即为文本去重的最终结果, 从而实现面向中文文本的快速去重流程。实验过程中, 通过与Shingle算法对比, 可以体现该方法在算法精确度、鲁棒性等方面的优势, 同时该方法的运行速度优势也能较好地支持大数据量文本的去重操作。

关键词: 语义指纹; Simhash; Single-Pass; 文本去重

Fast Duplicate Detection for Chinese Texts Based on Semantic Fingerprint

Li Gang, Mao Jin, Chen Jinghao

Center for the Studies of Information Resources, Wuhan University, Wuhan 430072, China

Abstract

Oriented to Chinese texts, text features are firstly extracted to generate semantic fingerprints by performing the Simhash algorithm. The Hamming Distances between semantic fingerprints are applied to determine the similarity between texts. Then, as the last step of the entire process of detecting duplicates for Chinese text, the Single-Pass clustering algorithm is integrated to cluster the generated semantic fingerprints, after which the clusters of fingerprints are the final results. By comparing with the Shingle algorithm, the experiment shows that the Simhash approach is superior at both precise and robustness, and the Simhash approach is capable to process large amount of texts due to its rapidness.

Keyword: Semantic fingerprint; Simhash; Single-Pass; Duplicate detection

Show Figures

1 引言

随着各种各样信息的不断增长, 可供用户使用的信息资源不断增多, 同时用户的信息搜寻成本也越来越大, “信息迷航”问题越来越突出。导致这一问题的原因之一是信息复制的边际成本接近于零, 相似或重复内容增多。从信息资源集合中去除重复内容能提升用户使用信息资源的效率, 是信息资源管理中的一个重要工作。目前, 信息内容去重已应用于多种应用场景。在搜索引擎方面, 大量重复网页的存在一方面增加了搜索引擎在系统存储和运行上的负担, 同时也影响到检索算法的性能, 重复网页的检测和去除能在一定程度上减轻系统负担、提升检索效果, 也能增加用户对搜索结果排序的满意度^{[ 1]}。在垃圾信息过滤方面, 垃圾信息往往表现出多次发布现象, 重复内容检测也是识别垃圾信息的手段之一, 例如针对博客评论中广泛存在的广告机器人特点, 采用信息指纹的方法对博客中的垃圾评论进行识别和过滤^{[ 2]}。在文件去重方面, 利用内容去重方法可以识别文件内容的相似性, 用于追踪科技文献中的相似性, 从而识别论文抄袭现象^{[ 3]}。

在目前大数据环境下, 需要快速地处理文本内容, 实现快速文本去重, 以满足对大数据量处理的要求。在此
背景下, 本文针对中文文本, 先提取出文本特征, 运用Simhash算法根据中文文本特征生成语义指纹, 通过判断不同文本语义指纹的比特位差异程度来识别文本间的相似程度, 并在语义指纹基础上应用Single-Pass快速聚类算法, 实现文本语义指纹快速聚类, 达到中文文本快速去重的目的。

2 文本内容去重方法

文本内容去重任务关注的是从文本数据集中找到相同或者高度相似的文本。在搜索引擎领域和目前大数据环境下, 如何快速地识别相同或相似文本是文本内容去重的挑战之一。目前主要的文本内容去重方法有两种:基于相似性的方法和基于摘要技术的方法。

2.1 基于相似性的方法

基于相似性的方法是用文本的内容或结构的相似性来判断文本是否属于重复文本。在内容相似性识别方面, 常见方法是利用多种途径提取出内容的特征信息, 通过匹配两个文本的内容特征, 来判断文本相似性。其中, Shingle算法是一种比较知名的基于相似性的内容去重方法^{[ 4]}。该方法将文本视为词项序列, 将固定长度的相邻词项视为一个Shingle, 从而将文本转化为Shingle集合加以表示, 并通过对比两个文本的Shingle集合匹配程度来识别两者是否在内容上相似。在Shingle算法中, 每一个Shingle实质上是文本的一个特征码, 因此该算法也是一种基于特征码的方法。特征码的提取在具体应用中有多种方法:文献[5]面向短文本提取短文本中的特征码, 并利用关联规则方法判别文本之间的相似性;文献[6]通过将文本进行简单自然分句, 利用分句首尾字符生成文本的特征字符串作为文本的特征码;文献[7]在元搜索引擎的网页去重任务中, 根据用户查询词所在分句生成摘要特征码。另外, 文献[8]利用B-Tree数据结构进行索引, 极大地提升了处理速度, 从而使特征码方法适用于大数据量的文本内容去重场景。

然而, 基于特征码的方法并未考虑语义因素, 只单纯从字符串匹配的角度进行内容识别, 部分研究也尝试在一定程度上理解文本的语义内容, 得到文本的语义表示。文献[9]和文献[10]将文本表示为词向量, 通过余弦相似度计算文本间相似度, 从而将文本内容的相似性上升到语义层次的相似性, 但该方法在相似性阈值设置以及大数据量的处理方面存在缺陷。

内容相似的文本在结构上也可能具有一定的相似性, 例如互联网上近似镜像的网页在内容和结构上有可能高度一致^{[ 11]}。因此, 结构识别也能为相似内容的发现提供一定的依据。文献[11]利用重复网页的结构特点, 利用正文结构树的形式来表达网页正文内容, 并结合指纹计算方法, 实现网页去重。

2.2 基于摘要技术的方法

基于摘要技术的方法是利用摘要算法计算文本的摘要值, 即将文本表示为一个较小的数值或者较短的字符串, 以判断两个文本是否相同。基于摘要技术的方法可以单独使用, 即直接将文本的摘要值进行匹配, 也可以与基于内容相似度的方法结合使用, 在内容特征提取基础上, 进一步计算摘要值。目前该类方法主要有MD5、DSA等摘要算法。若直接用文本摘要值进行匹配, 往往只能判断内容是否完全相同。因为只有完全相同的文本才能产生完全相同的摘要值, 即使原始文本差别很小, 所得到的摘要值也可能差别非常大, 即从文本生成摘要的过程往往是不可逆的。针对文本内容去重任务, 需要一种能够识别出文本近似相同 (只做过少量修改) 的摘要算法, 该类算法在进行摘要计算前, 往往需要对文本内容特征进行一定的预处理。

文献[12]提出一种新的哈希算法, 在文本N-gram基础之上利用常用汉字编码表进行特征映射, 将文本映射为哈希值序列, 通过比较文本的哈希值序列来实现文本内容的重复性检测。文献[13]提出一种I-Match方法, 通过统计语料库词典与从文档中抽取词项的交集, 为每个文档产生一个摘要值, 从而保证每一个文档被映射到单个聚类上, 以聚类来表示相似的文档集。文献[14]在该方法的基础上, 提出采用多个语料库词典, 分别为每篇文章生成多个摘要值, 从而改变摘要值过分依赖于词典的现象, 提升了识别算法的性能。

可以看出, 以上算法都是先提取出文本的内容特征, 再利用摘要技术进行处理, 将变化较小的文本识别为相同文本。然而, 尽管如此, 这些方法也无法通过比较摘要值的差异来判断原始文本的差别程度。目前, Simhash算法是一种实现该目标的较好算法^{[ 15]}。Simhash算法能够在将文本内容特征转化为摘要值的同时, 根据摘要值的差别大小, 判断原始文本内容的差别程度。

3 整合语义指纹和Single-Pass的文本

去重流程

Simhash算法由Charikar^{[ 15]}于2002年提出, 目前被认为是文本内容近似去重最有效的方法^{[ 16]}。Simhash实质上是一种语义指纹技术, 它能将文本内容的语义特征映射到相应的比特 (Bit) 上, 并以这些比特所组成的数值来表示文本内容的指纹 (Fingerprint) 。一般而言, 该指纹的比特位数相对较小, 例如32或64, 故也可将Simhash算法理解为一种降维技术。区别于其他指纹技术, Simhash算法能用于识别相似内容, 而不是像简单的摘要算法那样只能判断内容是否完全一致。相似的文本内容通过该算法生成的指纹值也只在少量的比特位 (Bit Position) 上不同, 因此可以根据语义指纹值的比特位差异来判断文本间的相似程度。

常用的内容去重方法是利用文本聚类技术将相似或相同文本聚集在一起, 从而达到文本去重的目的。本文在Simhash算法的基础上, 整合Single-Pass快速聚类算法实现面向中文文本的文本内容去重, 整体流程如图1所示:

	Figure Option View Download New Window
	图1 基于语义指纹快速聚类的中文文本去重流程

该方法主要分为两大环节:文本的语义指纹值计算;利用Single-Pass聚类算法对语义指纹值进行聚类。

在文本的语义指纹值计算过程中, 根据Simhash算法, 需要先提取文本内容的语义特征, 常规的方法是对中文文本进行分词处理, 利用语词代表文本的语义特征, 然后再根据语义特征利用Simhash算法计算出文本的语义指纹值。该过程可以独立计算, 针对固定文本集, 一次性批量地计算所有文本的语义指纹值, 而针对流式的、动态的文本集, 则可以在文本加入时计算语义指纹值, 以备后续使用。在语义指纹聚类过程中, 根据语义指纹的数值特征应用Single-Pass聚类方法, 以实现对语义指纹的快速聚类, 单个聚类类别代表去重后的一个文本。在后续处理中, 只保留聚类中心, 去除单个聚类类别中其他文本。

3.1 文本特征提取

文本特征提取是从原始文本中抽取出能表征文本语义内容的词项作为文本特征, 将文本表示为词项集合, 并以词频作为特征的权重。文本特征提取过程主要包括如下三个环节:

(1) 中文文本预处理。中文文本语义指纹生成流程中的第一步是对中文文本进行预处理, 得到文本内容字符串。中文文本数据源的常见格式有HTML网页、XML文件、Word文件、Excel文件等各种结构化或半结构化数据, 需要从这些文件中解析出文本内容字符串, 以便后续处理。

(2) 文本分词。在英文文本中, 文本特征往往指从单个单词经过处理后得到的词项, 而针对中文文本, 需要借助文本分词工具得到文本的语词, 作为文本特征项。

(3) 停用词过滤。在中文文本中往往存在一些对语义贡献较小或者出现频率过高的词, 例如“的”、“是”等, 称作“停用词”。因此, 在得到最终特征项前, 需要先将这些停用词去掉, 以减少这些词项对文本内容特征的干扰。

通过以上步骤, 经过文本分词和停用词过滤后所得的词项即为文本的最终特征, 并交由Simhash算法处理, 以生成语义指纹。

3.2 语义指纹生成

将文本特征作为Simhash算法的输入, 通过Simhash算法计算得到文本的语义指纹值, 详细算法过程描述如下^{[ 15]}:

输入:n 维特征向量v={w₁, w₂, …, w_n}, 其中w₁, w₂, …, w_n分别是文本内容特征v₁, v₂, …, v_n 的权重;

输出:一个b位的指纹f={f₁, f₂, …, f_b}, 其中f₁, f₂, …, f_b取值为0或1。

计算过程:

①维持一个b维向量f_c, 每一维度值初始化为0;

②通过运用某种普通字符串哈希函数, 将文本的特征v_i映射为一个具有b个比特的数值h_i;

③根据h_i, 应用如下规则更新f_c:如果h_i的第j位是1, 那么将f_c的第j维值加上该特征v_i的权值w_i;如果h_i的第j位是0, 那么将f_c的第j维值减去该特征v_i的权值w_i;

④针对所有的特征, 重复步骤②和③;

⑤根据f_c得到最终的指纹f:如果f_c中的第i维向量值为正, 则f中第i位的比特值为1, 否则为0。

常用的普通字符串哈希函数有RS、JS、PJW、EFL、SDBM等^{[ 17]}, 本文采用SDBM函数作为普通字符串哈希函数, 其来源于SDBM开源软件项目^{[ 18]}, 并已在多个数据集中广泛应用。通过以上算法, 将一个具有n维特征的文本内容表示为一个b位的语义指纹值, 可转化为一个数值加以表示。由于一般情况下n远大于b, 同时语义指纹中直接采取比特位进行计算, 语义指纹所使用的计算空间远小于对n维特征直接存储所使用的空间。本文沿袭文献[16]的做法, 将b设置为64。

3.3 基于Single-Pass的语义指纹快速聚类

Single-Pass算法是一种面向流式数据的经典增量式聚类算法, 也称作单通道法或单遍法^{[ 19]}。该算法的基本思路是对于流式数据, 一次取出一个文本, 进行增量式动态聚类, 将文本与已有的聚类类别进行相似度匹配。如果与某一类别的相似度大于某阈值, 则将该文本归入这一聚类类别;如果与所有类别的相似度都小于某个阈值, 则新建一个聚类类别。Single-Pass聚类算法的优势在于算法复杂度低, 只需要一次扫描数据集即可完成聚类过程。

结合文本语义指纹的数值特点, 利用Single-Pass实现聚类过程, 详细算法描述如下^{[ 20]}:

输入:中文文本流p₁, p₂, …, p_n;内容相似一致性判断阈值HD;

输出:网页去重后文本集DistSet= (ds1, ds2, …, dsi) , 及对应的相似内容文本集SimSet (S) ;

数据结构:网页去重后文本集DistSet按语义指纹值升序排列。

算法执行过程:

①接收一篇文本d_i, 利用Simhash算法计算该文本的语义指纹值f_i;

②将该文本的Simhash值与已有聚类的聚类中心文本的语义指纹值进行对比, 比较两者比特值的海明距离 (Hamming Distance) h, 找到与f_i 海明距离最小的聚类中心ds_j (其语义指纹值为f_dsj) ;

③判断海明距离最小者h_min是否小于给定阈值HD;

④如果h_min≤HD, 则认为该文本与该聚类类别内容相似, 将该文本加入到该类别相似内容文本集SimSet (ds_j) 中;

⑤如果h_min>HD, 则认为在已有的类别中未找到与该文本相似的类别, 新建一个聚类类别ds_new, 并以该文本作为聚类中心, 更新DistSet。更新方法为:如果f_i<f_dsj, 则将ds_new放置在ds_j前, 否则放置在其后;

⑥本次聚类结束, 等待新的文本到来。

其中, 海明距离是指两个二进制数的对应比特位不同的比特位数, 例如二进制数10101和00110从左往右第1位、第4位和第5位不同, 则两个二进制数的海明距离为3。同时, 在上面计算过程中, 将阈值HD取值设为3。这里沿用文献[16]的取值, 即如果两个文本语义指纹值的海明距离小于等于3, 则认为两者内容相似。

4 实验分析

4.1 实验数据及过程

实验数据来自于笔者所在实验室构建的基于互联网的企业竞争情报系统平台, 从博客、新闻、论坛等多个相关网站中采集关于“手机”领域的网页, 经过网页解析提取出网页正文内容, 并经过文本预处理, 去除采集出错和解析出错的网页, 得到最终语料, 其中新闻7 951条、博客53 865条、论坛9 949条。在实验过程中, 将本文方法 (标示为“Simhash方法”) 与Shingle算法^{[ 4]}进行对比分析。在评价近似文本时, 分别将Simhash方法中海明距离小于3以及Shingle算法中Jaccard相似度值大于0.95的文本对认为是相似文本对。

文本处理过程中, 采用IK Analyzer 2012中文分词工具, 该工具具有160万字/秒的高速处理能力, 同时支持用户词典扩展和英文字母、数字、中文词汇等的分词处理^{[ 21]}, 并在搜狗输入法词库基础上扩展形成用户词典, 共392 755个词。

实验软硬件环境是CPU为Intel (R) i5 3210 2.50GHz, 内存8GB, 操作系统为Windows7 64bit, 采用Java语言实现算法, 并在Eclipse3.3上运行。

4.2 实验结果分析

(1) 算法运行情况分析

首先考察算法在整个流程中的时间和空间复杂度, 以判断算法的适用情况。从整体流程上看, Simhash方法可以分为两个主要步骤:文本集的语义指纹计算和语义指纹快速聚类过程。文本的语义指纹计算只需运行一次, 最终语料进行语义指纹计算共用时1 614 712ms, 平均每条数据用时22.5ms。本文所提方法与Shingle算法对数据集的计算结果及运行用时情况如表1所示:

表1 Simhash方法与Shingle算法的运行情况

从运行情况来看, 在新闻、博客、论坛三种信息类型数据上, Shingle算法用时都长于Simhash方法, 因此Simhash方法在处理速度上具有优势。

在算法运行时对于存储的要求方面, 由于单个语义指纹长度为8字节 (64bit) , 总共数据存储只需16n字节。由此, 仅需要4GB内存即可满足2.5亿数据的存储要求。因而Simhash方法能够支持大数据量的文本内容去重。

(2) 精确度分析

为进一步评价本文方法的精确度, 从数据集中选取1 000个文本, 分别增加或者删减文本内容的约5%, 并使其基本语义保持不变, 即为每个文本构建了两个相似文本, 并分别运用Simhash方法和Shingle算法计算。这里, 精确度指标定义为相似文本对的数量占总文本对数量的比例。Simhash方法与Shingle算法的精确度对比如表2所示:

表2 Simhash方法与Shingle算法的精确度对比

从表2发现, 无论内容增加还是内容删减情况, Simhash方法的精确度都高于Shingle算法, 同时内容增加比内容删减的精确度值更高。

(3) 鲁棒性分析

本文中鲁棒性是指文本内容的改变程度对算法将变化前后文本识别为相似文本的影响, 若文本的小幅度改变仍然能被算法识别为相似性文本, 则算法的鲁棒性较高。在现实环境下, 相似文本主要有如下几种情况^{[ 22]}:文本段落的重新组织, 文本内容几乎没有变, 只是语句或段落的重新排序;文本内容的少量增加和删除;文本内容的少量改写, 而核心段落仍然存在。

因此, 需要考察不同的内容改变程度下, 算法仍将改变前后的文本识别为相似文本的比例, 设计如下实验:

①内容的增加与删除。在原文本的随机位置分别增加或者删除1%-20%的文本, 考察将更改前后的文本识别为相似文本的比例, 即相似性识别率;

②内容的重排序。对原文本随机截取文本内容中的句子, 再重新插入到文本的随机位置中, 考察将更改前后的文本识别为相似文本的比例。

从实验语料中选取1 000个文本作为测试文本, 同时选择50个文本进行分句等处理后作为内容增加语料。文本内容增加或删减后的相似性识别率如图2所示:

	Figure Option View Download New Window
	图2 内容删减与增加下算法结果

从图2中可以看出, 内容删减或者增加越多, 算法识别为相似文本的比例就越低, 即文本内容更改增大时, 算法将慢慢认为改变前后的文本不具有相似性。同时, 从曲线的位置来看, 增加曲线在删除曲线之上, 说明算法对于内容的增加更能识别为相似文本。从数值上来看, 当文本内容更改在5%以内时, 无论是内容删减还是内容增加, Simhash方法都能达到70%以上的识别率。

对比Shingle算法发现, 随着内容变化比例增大, Shingle算法的相似性识别率下降幅度越过Simhash方法的下降幅度。相较于Shingle算法, Simhash方法在文本内容变化幅度上具有更高的容忍度, 因此Simhash方法的鲁棒性更强。

针对内容重排序实验, 将1 000个测试文本分句后, 进行随机次数的语句重排, 比较前后文本的内容相似性。实验结果表明, Simhash方法和Shingle算法分别有86.1%和6.1%的文本被识别为相似文本。由此发现, 在内容重排序情景中, 相较于Shingle算法, Simhash方法的相似性识别率具有极大的提升。其次, 由于本文语料来源于互联网, 网络语料本身存在大量噪音, 同时中文文本分词较为复杂, 所提取出的文本特征发生改变, 从而导致Simhash方法未能完全识别内容重排, 本文方法在该方面有待进一步提升。

5 结语

针对中文文本的特征, 在Simhash算法的基础上改进得到中文文本语义指纹生成方法, 并结合Single-Pass快速聚类算法对语义指纹进行快速聚类, 从而实现了面向中文文本的快速去重流程。同时, 实验过程中, 在算法运行情况、精确度、鲁棒性等方面将该方法与Shingle算法进行对比分析, 证明本方法的优越性。通过实验分析发现, 本文方法运行速度上的优势能够支持大数据量情况下的文本去重任务。本文方法还有待进一步改进, 笔者将在后续的研究中进一步探索在分布式环境中计算文本语义指纹值。此外, 网页等文本存在大量噪音, 需要进一步研究中文文本特征提取方法, 以优化语义指纹计算。

参考文献

View Option

[1]	赵立磊. 基于网页去重的垂直搜索引擎设计与实现[D]. 大连: 大连理工大学, 2012. ( Zhao Lilei. The Design and Implementation of Vertical Search Engine Based on Duplicated Web Pages Elimination[D]. Dalian: Dalian University of Technology, 2012. ) [本文引用:1] [CJCR: 0.501]
[2]	马如林, 蒋华, 张庆霞. 基于贝叶斯方法和信息指纹的博客评论过滤[J]. 计算机工程与应用, 2008, 44 (24) : 159-161. (Ma Rulin, Jiang Hua, Zhang Qingxia. Blog’s Content Filtering Based on Bayes Method and Information Fingerprint[J]. Computer Engineering and Applications, 2008, 44 (24) : 159-161. ) [本文引用:1] [CJCR: 0.457]
[3]	Heintze N. Scalable Document Fingerprinting[C]. In: Proceedings of the 1996 USENIX Workshop on Electronic Commerce. 1996. [本文引用:1]
[4]	Broder A Z, Glassman S C, Manasse M S, et al. Syntactic Clustering of the Web[J]. Computer Networks and ISDN Systems, 1997, 29 (8-13) : 1157-1166. [本文引用:2]
[5]	杨虎. 面向海量短文本去重技术的研究与实现[D]. 长沙: 国防科学技术大学, 2007. (Yang Hu. De-duplication Technology Research and Implementation of Large-scale Short Texts Orient[D]. Changsha: National University of Defense Technology, 2007. ) [本文引用:1]
[6]	吴平博, 陈群秀, 马亮. 基于特征串的大规模中文网页快速去重算法研究[J]. 中文信息学报, 2003, 17 (2) : 28-35. (Wu Pingbo, Chen Qunxiu, Ma Liang. The Study on Large Scale Duplicated Web Pages of Chinese Fast Detection Algorithm Based on String of Feature Code[J]. Journal of Chinese Information Processing, 2003, 17 (2) : 28-35. ) [本文引用:1] [CJCR: 1.13]
[7]	谢蕙, 秦杰, 胡双双. 基于用户查询关键词的网页去重方法研究[J]. 现代图书情报技术, 2008 (7) : 43-46. (Xie Hui, Qin Jie, Hu Shuangshuang. The Study on the Duplicated Web Pages Detection Algorithm Based on the Keyword from User’s Submission[J]. New Technology of Library and Information Service, 2008 (7) : 43-46. ) [本文引用:1] [CJCR: 1.073]
[8]	张刚, 刘挺, 郑实福, 等. 大规模网页快速去重算法[EB/OL]. [2013-05-31]. http://wenku.baidu.com/view/3bf04d35eefdc8d376ee32d0.html. (Zhang Gang, Liu Ting, Zheng Shifu, et al. Fast De-duplicate Algorithm for Large Scale Web Pages[EB/OL]. [2013-05-31]. http://wenku.baidu.com/view/3bf04d35eefdc8d376ee32d0.html. ) [本文引用:1]
[9]	曹玉娟, 牛振东, 彭学平, 等. 一个基于特征向量的近似网页去重算法[J]. 中国索引, 2009, 7 (1) : 11-14. (Cao Yujuan, Niu Zhendong, Peng Xueping, et al. A Near-duplicate Web Page Detection Algorithm Based on Feature Vectors[J]. Journal of the China Society of Indexers, 2009, 7 (1) : 11-14. ) [本文引用:1]
[10]	樊勇, 郑家恒. 基于主题的网页去重[J]. 电脑开发与应用, 2008, 21 (4) : 4-6. (Fan Yong, Zheng Jiaheng. Detection and Elimination of Similar Web Pages Based on Topic[J]. Computer Development & Applications, 2008, 21 (4) : 4-6. ) [本文引用:1] [CJCR: 0.2624]
[11]	黄仁, 冯胜, 杨吉云, 等. 基于正文结构和长句提取的网页去重算法[J]. 计算机应用研究, 2010, 27 (7) : 2489-2491. (Huang Ren, Feng Sheng, Yang Jiyun, et al. Detection and Elimination of Similar Web Pages Based on Text Structure and Extraction of Long Sentences[J]. Application Research of Computers, 2010, 27 (7) : 2489-2491. ) [本文引用:1] [CJCR: 0.601]
[12]	王小华, 卢小康. 基于N-Gram的文本去重方法研究[J]. 杭州电子科技大学学报, 2010, 30 (2) : 61-64. (Wang Xiaohua, Lu Xiaokang. A Study on Removing Duplication Using N-gram Terms for Chinese Text [J]. Journal of Hangzhou Dianzi Univeristy, 2010, 30 (2) : 61-64. ) [本文引用:1]
[13]	Chowdhury A, Frieder O, Grossman D, et al. Collection Statistics for Fast Duplicate Document Detection[J]. ACM Transactions on Information Systems, 2002, 20 (2) : 171-191. [本文引用:1] [JCR: 1.07]
[14]	Kocz A, Chowdhury A, Alspector J. Improved Robustness of Signature-based Near-replica Detection via Lexicon Rand omization[C]. In: Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA: ACM, 2004: 605-610. [本文引用:3]
[15]	Charikar M S. Similarity Estimation Techniques from Rounding Algorithms[C]. In: Proceedings of the 34th Annual ACM Symposium on Theory of Computing. New York, NY, USA: ACM, 2002: 380-388. [本文引用:1]
[16]	Manku G S, Jain A, Das Sarma A. Detecting Near-duplicates for Web Crawling[C]. In: Proceedings of the 16th International Conference on World Wide Web. New York, NY, USA: ACM, 2007: 141-150. [本文引用:1]
[17]	General Purpose Hash Function Algorithms[EB/OL]. [2013-06-06]. http://www.partow.net/programming/hashfunctions/index.html. [本文引用:1]
[18]	Sentential Database Manager[EB/OL]. [2013-06-06]. https://code.google.com/p/sdbm/. [本文引用:1]
[19]	朱恒民, 朱卫未. 基于Single-Pass的网络话题在线聚类方法研究[J]. 现代图书情报技术, 2011 (12) : 52-57. (Zhu Hengmin, Zhu Weiwei. Study on Web Topic Online Clustering Approach Based on Single-Pass Algorithm[J]. New Technology of Library and Information Service, 2011 (12) : 52-57. ) [本文引用:1] [CJCR: 1.073]
[20]	殷风景, 肖卫东, 葛斌, 等. 一种面向网络话题发现的增量文本聚类算法[J]. 计算机应用研究, 2011, 28 (1) : 54-57. (Yin Fengjing, Xiao Weidong, Ge Bin, et al. Incremental Algorithm for Clustering Texts in Internet-oriented Topic Detection[J]. Application Research of Computers, 2011, 28 (1) : 54-57. ) [本文引用:1] [CJCR: 0.601]
[21]	IK-Analyzer[OL]. [2012-10-13]. https://code.google.com/p/ik-analyzer/. [本文引用:1]
[22]	Yang H, Callan J. N ear-duplicate Detection by Instance-level Constrained Clustering[C]. In: Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, NY, USA: ACM, 2006: 421-428. [本文引用:1]

2012

0.0

0.501

J Dalian Univ Technol. 2012, (1):- DOI:10.7511/dllgxb20121011

Analyses of failure modes-based seismic fragility of gravity dams

基于破坏形态的重力坝地震易损性研究

<name MTML-type="CN">(赵立磊)</e>. <article-title MTML-type="CN">(基于网页去重的垂直搜索引擎设计与实现)</e>[D]. <source MTML-type="CN">(大连:大连理工大学)</e>, <year>2012</year>. (<article-title>Zhao Lilei.The Design and Implementation of Vertical Search Engine Based on Duplicated Web Pages Elimination</article-title>[D].<source>Dalian: Dalian University of Technology</source>, <year>2012</year>.)

钟红,李晓燕,林皋

Seismic risk analysis is an effective method to evaluate and improve the seismic safety of dams. Seismic fragility analyses can describe the conditional probabilities of structural damage caused by different levels of earthquakes. It is one of three issues (seismic hazard analysis, seismic fragility analysis and seismic loss assessment) of seismic risk analyses. By considering meso-level influence of concrete heterogeneity, large amount of nonlinear time-history analyses of rolled compacted concrete gravity dam under strong earthquake are performed. Typical failure modes of gravity dam are concluded and a five-level standard for seismic damage of gravity dam is put forward. Combined with non-exceedance probabililty of design earthquake for the dam, the seismic fragility curve for retaining dam section of Jin′anqiao dam is obtained. This research is helpful to optimize seismic design, reinforcement and maintenance measures and improve aseismic capability of the dam.

大坝的地震风险分析是评价和改进大坝抗震安全度的有效工具．大坝的地震易损性是指大坝在给定地震荷载作用下发生各级损伤的条件概率,是地震风险研究(地震危险性分析、地震易损性分析、地震灾害损失评估)的3个主要组成部分之一．在考虑混凝土材料细观层次非均匀性影响的基础上,通过对碾压混凝土重力坝强震损伤破坏形态和过程的大量数值模拟,总结提炼了重力坝的典型震害形态,并据此提出了重力坝的五级震害等级划分标准．结合大坝设计地震超越概率,提出了大坝易损性分析方法,给出了金安桥重力坝挡水坝段的地震易损性曲线．研究结果可为混凝土重力坝的抗震设计和加固决策等提供参考．

... 在搜索引擎方面, 大量重复网页的存在一方面增加了搜索引擎在系统存储和运行上的负担, 同时也影响到检索算法的性能, 重复网页的检测和去除能在一定程度上减轻系统负担、提升检索效果, 也能增加用户对搜索结果排序的满意度[<xref ref-type="bibr" rid="R1">1</xref>] ...

2008

0.0

0.457

Comput Eng Appl. 2008, 44(24):159 - 161 DOI:10.3778/j.issn.1002-8331.2008.24.048

Blog’s content filtering based on Bayes method and information fingerprint

基于贝叶斯方法和信息指纹的博客评论过滤

MA Ru-lin,JIANG Hua,ZHANG Qing-xia

马如林,蒋华,张庆霞

School of Computer and Control，Guilin University of Electronic Technology，Guilin，Guangxi 541004，China

The appearance of blog enriches and changes the network’s connotation，and influences the ways of information-delivering.Blog criticism，as an exchanging way，has been widely used in blog and thus brings new problems to information warding.This paper on one hand，applies Bayes of text filtering in blog criticism by analysis of blog filtering system in hand；On the other hand，because of the specific features of robot widely existing in blog criticism，this paper recognizes and filters the criticism combining the information fingerprint.Moreover，this paper analyzes and discusses the fingerprint functions that influence blog-filtering’s effect and carrying-out speed.The result of this experiment shows that this blog-filtering is effective，based on Bayes and information fingerprint，and is more advanced than the only Bayes in improving system running efficiency and finding out the phenomenon of advertisement robot.

博客的出现丰富和改变了网络的内涵，影响了人们的信息传递方式，同时博客评论作为一种交互方式在博客中广泛存在，给信息监管带来了新的问题。通过分析现有的博客过滤系统，将广泛应用于文本过滤的贝叶斯方法应用到博客评论中，针对博客评论中广泛存在的广告机器人特点，结合信息指纹对其进行识别和过滤。同时对影响博客评论过滤效果和执行速度的指纹函数进行了分析讨论和实验对比，实验结果表明基于贝叶斯方法和信息指纹相结合的博客评论过滤是行之有效的，而且相对于单独的贝叶斯方法更有利于提高系统运行效率和发现广告机器人现象。

... 在垃圾信息过滤方面, 垃圾信息往往表现出多次发布现象, 重复内容检测也是识别垃圾信息的手段之一, 例如针对博客评论中广泛存在的广告机器人特点, 采用信息指纹的方法对博客中的垃圾评论进行识别和过滤[<xref ref-type="bibr" rid="R2">2</xref>] ...

1996

0.0

... 在文件去重方面, 利用内容去重方法可以识别文件内容的相似性, 用于追踪科技文献中的相似性, 从而识别论文抄袭现象[<xref ref-type="bibr" rid="R3">3</xref>] ...

1997

0.0

... 其中, Shingle算法是一种比较知名的基于相似性的内容去重方法[<xref ref-type="bibr" rid="R4">4</xref>] ...

... 在实验过程中, 将本文方法 (标示为“Simhash方法”) 与Shingle算法[<xref ref-type="bibr" rid="R4">4</xref>]进行对比分析 ...

2007

0.0

2003

0.0

1.13

J Chin Inf Proc. 2003, (2):28 - 35

The Study on Large Scale Duplicated Web Pages of Chinese Fast Deletion Algorithm Based on String of Feature Code

基于特征串的大规模中文网页快速去重算法研究

<name MTML-type="CN">(吴平博)</e>, <name MTML-type="CN">(陈群秀)</e>, <name MTML-type="CN">(马亮)</e>.<article-title MTML-type="CN">(基于特征串的大规模中文网页快速去重算法研究)</e>[J]. <source MTML-type="CN">(中文信息学报)</e>, <year>2003</year>, <volumn>17</volumn> (<issue>2</issue>) : <fpage>28</fpage>-<lpage>35</lpage>. (<name>Wu Pingbo</name>, <name>Chen Qunxiu</name>, <name>Ma Liang</name>. <article-title>The Study on Large Scale Duplicated Web Pages of Chinese Fast Detection Algorithm Based on String of Feature Code</article-title>[J].<source>Journal of Chinese Information Processing</source>, <year>2003</year>, <volumn>17</volumn> (<issue>2</issue>) : <fpage>28</fpage>-<lpage>35</lpage>.)

吴平博;陈群秀;马亮

网页检索结果中,用户经常会得到内容相同的冗余页面,其中大量是由于网站之间的转载造成.它们不但浪费了存储资源,并给用户的检索带来诸多不便.本文依据冗余网页的特点引入模糊匹配的思想,利用网页文本的内容、结构信息,提出了基于特征串的中文网页的快速去重算法,同时对算法进行了优化处理.实验结果表明该算法是有效的,大规模开放测试的重复网页召回率达97.3%,去重正确率达99.5%.

2008

0.0

1.073

New Technol Lib Inf Ser. 2008, 24(7):43 - 46

The Study on the Duplicated Web Pages Detection Algorithm Based on the Keyword from User’s Submission

基于用户查询关键词的网页去重方法研究

Xie Hui Qin Jie Hu Shuangshuang

谢蕙秦杰胡双双

(College of Information Science and Engineering，Henan University of Technology，Zhengzhou 450001，China)

Based on the study of the duplicated Web pages detection algorithm with feature code, the paper proposes a duplicated detection algorithm based on the keyword from user’s submission for meta search engine. The main steps of algorithm are introduced. And this algorithm is tested and verified its validity in an experiment.

在研究传统的基于特征码去重算法的基础上，针对元搜索引擎中网页重复现象，提出一种基于用户查询关键词的网页去重方法，提高元搜索引擎检索质量，并且介绍算法的实现过程，通过实验验证算法的有效性。

2013

0.0

2009

0.0

2008

0.0

0.2624

... 内容相似的文本在结构上也可能具有一定的相似性, 例如互联网上近似镜像的网页在内容和结构上有可能高度一致[<xref ref-type="bibr" rid="R10">11</xref>] ...

2010

0.0

0.601

Appl Res Comput. 2010, (7):2489 - 2491

Detection and elimination of similar Web pages based on text structure and extraction of long sentences

基于正文结构和长句提取的网页去重算法

HUANGRen;FENGSheng;YANGJi-yun;LIUYu;AOMin

黄仁;冯胜;杨吉云;刘宇;敖民

针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法.该方法通过将网页正文表示成正文结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法.特征提取利用长句提取算法保证了强鲁棒性.实验证明,该方法对镜像网页和近似镜像网页都能进行准确的检测.

2010

0.0

2002

1.07

0.0

2004

0.0

... 目前, Simhash算法是一种实现该目标的较好算法[<xref ref-type="bibr" rid="R14">15</xref>] ...

... Simhash算法由Charikar[<xref ref-type="bibr" rid="R14">15</xref>]于2002年提出, 目前被认为是文本内容近似去重最有效的方法[<xref ref-type="bibr" rid="R15">16</xref>] ...

... 2 语义指纹生成将文本特征作为Simhash算法的输入, 通过Simhash算法计算得到文本的语义指纹值, 详细算法过程描述如下[<xref ref-type="bibr" rid="R14">15</xref>]: ...

2002

0.0

2007

0.0

... 常用的普通字符串哈希函数有RS、JS、PJW、EFL、SDBM等[<xref ref-type="bibr" rid="R16">17</xref>], 本文采用SDBM函数作为普通字符串哈希函数, 其来源于SDBM开源软件项目[<xref ref-type="bibr" rid="R17">18</xref>], 并已在多个数据集中广泛应用 ...

2013

0.0

2013

0.0

... 3 基于Single-Pass的语义指纹快速聚类Single-Pass算法是一种面向流式数据的经典增量式聚类算法, 也称作单通道法或单遍法[<xref ref-type="bibr" rid="R18">19</xref>] ...

2011

0.0

1.073

New Technol Lib Inf Ser. 2011, 27(12):52 - 57

Study on Web Topic Online Clustering Approach Based on Single-Pass Algorithm

基于Single-Pass的网络话题在线聚类方法研究

Zhu Hengmin1,2, Zhu Weiwei2

朱恒民1,2, 朱卫未2

1. Department of Information Management, Nanjing University, Nanjing 210093, China; 2. College of Economics & Management, Nanjing University of Posts & Telecommunications, Nanjing 210046, China

In order to get dynamics of Web information timely, an online Web topic clustering approach based on Single-Pass algorithm is researched. The clustering process of this approach is analyzed firstly,and the key problems including extracting and weight calculating of features as well as representation and modification of topic cluster are deliberated. Experiment is designed to compare the effects of different weight factor of features in title, weight calculating and normalizing methods of features and the vector dimension of topic cluster on cluster quality and time efficiency.

基于Single-Pass算法思想,研究网络话题的在线聚类方法,以期及时捕捉网络信息的动态变化。在分析该方法聚类流程的基础上,重点研究网络动态信息流的文本特征抽取和权重计算方法,以及话题类表示和更新等关键问题,设计实验对比分析不同的标题中特征加权系数、特征权重计算和标准化方法以及话题类向量维度对话题聚类质量和时间效率的影响。

... 结合文本语义指纹的数值特点, 利用Single-Pass实现聚类过程, 详细算法描述如下[<xref ref-type="bibr" rid="R19">20</xref>]: ...

2011

0.0

0.601

Appl Res Comput. 2011, (1):54 - 57

Incremental algorithm for clustering texts in internet-oriented topic detection

一种面向网络话题发现的增量文本聚类算法

YINFeng-jing;XIAOWei-dong;GEBin;LIFang-fang

殷风景;肖卫东;葛斌;李芳芳

为满足网络舆情监控系统中话题发现的需要,并克服经典single-pass算法处理网络文本聚类中受输入顺序影响和精度较低的主要不足,提出了ICIT算法,继承了single-pass算法的简单原理,保证了网络文本聚类的实时性;通过正文分词时标注词性选择名词动词进行正文向量化、建立文本标题向量来与文本正文向量共同表征文本、采用average-link策略、引入"代"的概念分批进行文本的聚类,以及在每批次聚类后添加报道重新选择调整所属的步骤来提高聚类的质量.实验证明了ICIT算法在提高话题发现准确度上的有效性和实用性.

... 文本处理过程中, 采用IK Analyzer 2012中文分词工具, 该工具具有160万字/秒的高速处理能力, 同时支持用户词典扩展和英文字母、数字、中文词汇等的分词处理[<xref ref-type="bibr" rid="R20">21</xref>], 并在搜狗输入法词库基础上扩展形成用户词典, 共392 755个词 ...

2012

0.0

... 在现实环境下, 相似文本主要有如下几种情况[<xref ref-type="bibr" rid="R21">22</xref>]:文本段落的重新组织, 文本内容几乎没有变, 只是语句或段落的重新排序 ...

2006

0.0