根据文件指纹的Web文本发掘（web指纹信息）-网络安全-知优网

本文在分析了向量表示法的弊端之后，提出了利用文件指纹对Web文本进行分类的方法，然后再利用k-means算法对所分类文本进行聚类分析，得到所需结果。通过文本挖掘模型，建立起可操作性的挖掘方法。

在迅猛添加的海量异构的Web信息资源中，蕴含着巨大潜在价值的数据。怎么从汗牛充栋的Web资源中发现潜在有价值的常识成为火烧眉毛的问题。人们迫切需求能从Web上快速、有效地发现资源和数据的东西，以进步在Web上检索信息、运用信息的功率。

现在Web文本发掘大部分研讨都是建立在词汇袋(bag of words)或称向量标明法(Vector Representation)的基础上，这种办法将单个的词汇当作文档调集中的特点，只从核算的视点将词汇孤登时看待而疏忽该词汇呈现的方位和上下文环境。词汇袋办法的一个坏处是自在文本中的数据丰厚，词汇量非常大，处理起来很困难，为处理这个问题人们做了相应的研讨，采取了不同技能，如信息增益，穿插熵、差异比等，其意图都是为了削减特点。一个比较有意义的办法是潜在语义索引(Latent Semantic Indexing)，它经过剖析不同文档中相同主题的同享词汇，找到它们一起的根，用这个公共的根替代一切词汇，以此来削减维空间。其它的特点标明法还有词汇在文档中的呈现方位、层次联系、运用短语、运用术语、命名实体等，现在还没有研讨标明一种标明法显着优于另一种。

图1 文本聚类模型

本文所提出的发掘技能，不是依据词汇特点，而是文本块。在运用网页的标签树结构的基础上，提取标题和文本块生成SHA-1指纹序列，假如两个页面具有的相同的指纹块在咱们所设定的规模内，那么就把这两个页面归为一类，类值便是所要聚类的精确数目k，接下来用k-means进行文本聚类，到达文本发掘的意图[2][3]。图1是文本聚类模型。

文本预处理

◆网页净化

由于Web文本上存在很多的广告、html标签、相关链接等无用信息，所以首要要对所收集到的网页进行净化处理，也称为网页去噪，以进步聚类效果。咱们把网页设计者为了辅佐网站安排而添加的文字界说为“噪声”，把本来要表达的文字资料称为“主题内容”。这些噪音是与页面主题无关(即阅读者不关心)的区域及项，包含广告栏、导航条、润饰成分等。

这样，咱们对HTML源码进行剖析，依据起分隔效果的符号去掉噪音部分，提取出网页正文[4]。

◆生成SHA-1指纹

SHA的全称是Secure Hash Algorithm，即安全哈希算法。它是由美国国家规范和技能协会(NIST)开发，于1993年作为联邦信息处理规范(FIPS PUB 180)发布。1995年又发布了一个修订版FIPS PUB 180-1，一般称之为SHA-1。现在已成为公认的最安全的散列算法之一，并被广泛运用。该算法的思维是接纳一段明文，然后以一种不行逆的办法将它转换成一段(一般更小)密文，也可以简略的理解为取一串输入码(称为预映射或信息)，并把它们转化为长度较短、位数固定的输出序列即散列值(也称为信息摘要或信息认证代码)的进程[5]。

由于sha-1算法的雪崩效应，对文本块作信息摘要时，要消除文本块中的不行见字符，而文本块排序是为了下降算法的复杂度。关于净化后的文本块，经过格局剖析生成M个文本块B1，B2，…BM(文本块按重要性排序)，取前m(≤ M)个文本块生成sha-1指纹sha-11，sha-12，…sha-1m。关于网页对(pi，pj)，界说STm (pi，pj)= m0/m，其间m0为pi，pj的相同sha-1指纹的个数。易得，给定规模t，假如STm (pi，pj)∈t，则把两个页面归为某一类。

文本聚类

现在，有多种文本聚类算法，常见的聚类办法有层次凝集类办法和以k-means为代表的平面划分法。

层次聚类办法可以生成层次化的嵌套簇，且精确度较高。但是在每次兼并时需求全局地比较一切簇之间的类似度，并挑选出最佳的两个簇，因而运转速度较慢，不适合于很多文档的调集。

近年来各种研讨显现，平面划分法比层次凝集法更适合对大规模文档进行聚类，这是由于平面划分法的核算量相对较小。如：层次凝集法中的Single-link和group-average办法的时刻复杂度为O(n2)，complete-link法的时刻复杂度为(n3)，n为文档数。而平面划分法中的k-means法的时刻复杂度为O(nKT)，single-pass法的时刻复杂度为O(nK)，其间n为文档数，k是终究聚类数目，T是迭代次数。

所以本文选取k-means算法进行文本聚类，k-means 算法承受输入量 k;然后将n个数据目标划分为 k个聚类以便使所取得的聚类满意，同一聚类中的目标类似度较高;而不同聚类中的目标类似度较小。聚类类似度是运用各聚类中目标的均值所取得一个“中心目标”(引力中心)来进行核算的。

k-means 算法的作业进程阐明如下：首要从n个数据目标恣意挑选 k 个目标作为初始聚类中心;而关于所剩余其它目标，则依据它们与这些聚类中心的类似度(间隔)，别离将它们分配给与其最类似的(聚类中心所代表的)聚类;然后再核算每个所获新聚类的聚类中心(该聚类中一切目标的均值);不断重复这一进程直到规范测度函数开端收敛停止。一般都选用均方差作为规范测度函数。

尽管k-means算法对初始聚类中心选取较灵敏，但在本文中，文本分成了多少个类，就有多少个k目标。以两个文本块相同的指纹数作为它们的类似度做聚类得到终究聚类成果。

总结

本文放弃了常用的提取特征值，核算文本类似度的办法，而是对净化的文本块作分块的信息摘要(即文件指纹)，在比较相同指纹的基础上对文本进行分类，以类值为k-means算法的初始聚类值，以两文本的相同指纹数作为文本的类似度做文本聚类。

【修改引荐】