微信号:18680393646
搜索引擎为什么要进行去重操作?
不管是那种搜索引擎,百度也好、搜狗也罢希望的都是呈现给用户新颖且优质的内容,而不是“换汤不换药”凑数量的,有句话说得好:“群众的眼睛是雪亮的”。如果一个搜索引擎都是后面这种类型的文章,久而久之自然不会再有人使用。
我们在做搜索引擎优化的过程中,离不开内容的编辑,而搜索引擎的知识点说开了就那么点,说来说去很多人都在用,这就导致了互联网中搜索相关的信息很多都是重复的。
其实这都还好,如果只是个别地方雷同没什么大问题。如果一个网站存在大量复制他人内容、恶劣采集内容且不加以修改的话,不仅会影响用户体验甚至还会让搜索引擎认为该网站是个劣质网站,从而屏蔽拉黑,且日后不在抓取网站上的任何内容。
搜索引擎抓取网站是很重要的过程,网站收录、关键词排名都要依靠抓取,不能轻视,至于为什么这么重要,了解下面的搜索引擎工作原理后就清楚了。
1、搜索引擎工作原理
官方话术:搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
其过程主要分为四个步骤:
第一步:爬取
可以将搜索引擎理解为一种通过特定规律的软件或者追踪页面链接的工具,,从一个链接爬到另外一个链接,涉及的范围很广跟蜘蛛编制的网一样,所以搜索引擎抓取网站的时候又被称为“蜘蛛爬取”,还有一种叫法是“机器人”。
“蜘蛛”爬取网站后将所识别的内容传回到搜索引擎中,由搜索引擎进行后续的一系列评分、判断优劣等等,如果没有搜索引擎派出的“蜘蛛”爬取网站,那么搜索引擎可能连你的网站存不存在都不知道。
第二步:抓取存储
蜘蛛跟踪链接爬行到网页,并将爬行之后的数据存入原始页面数据库(也就是搜索引擎)。
蜘蛛在爬取页面时,会进行比较简单的查重处理,像那些存在大量抄袭、采集内容的网站,“蜘蛛”会降低爬取的次数,直至不在爬取任何内容。
过了“蜘蛛”这关的内容数据,则会由“蜘蛛”传到搜索引擎中,由他们进行下一步的处理。
第三步:预处理
搜索引擎将蜘蛛抓取回来的页面、文件等各种信息,进行各种步骤的预处理,如:html页面文件、pdf、word、wps、xls、ppt、txt文件等。这些文件在搜索结果中都是可以看见的。
不过“蜘蛛”也有不能识别的内容,如:图片、视频、Flash等这些非文字类脚本或程序(html代码是可以识别的)。无法识别不代表不会抓取,同样的这些识别不出来的内容还是会传到搜索引擎中,如果连搜索引擎也无法识别那么就有制造低质量内容的嫌疑。
第四步:排名
在“蜘蛛”将内容传到搜索引擎之后,经过预处理得出最后的评分,这评分关系着网站的排名情况,当用户在搜索框输入关键词后排名程序调用索引库数据,将排名显示给用户。
关键词排名每日都会有小的更新,有时就能看到上午还在前几位,下午有时就排在首页末尾处了,不过这种影响不是很大。一般情况下搜索引擎的排名规则是根据日、周、月三个阶段进行不同程度的调整。所以有时候关键词排名下降了,有可能是搜索引擎调整的问题。
2、网页去重的代表性方法
搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等(是不是没想到搜索引擎还可为分为这么多种类吧?)。
而搜索引擎的去重工作一般在“分词”之后“索引”之前,搜索引擎会在页面已经分出的关键词中,提取部分具有代表性的关键词进行计算,从而得出这个网站中关键词的特征,目前搜索引擎去重的方法主要有3种:
1)聚类。
这种方式是以网站页面内容中每6763个汉字作为定量,在这6763个汉字中出现的某组或者某个汉字频率的高低去计算相似度,以此确定网站是否有相同的页面。
2)排除相同链接。
元搜索引擎去重主要采用此方法。通过“蜘蛛”从不同的地方收集网页链接进行判断, 链接相同,则被认为是相同的网页。
3)特征码的方法。
这种方法是利用内容中出现的每个标点符号,进行判断重复率。如以句号两边各5 个汉字作为特征码来进行查验内容的重复度。
这3种去重方法中,第1种和第2种大多数还是基于内容来进行判断的,这两种类型的去重有很明显的漏洞,所以很多人在做搜索引擎优化时往往会利用到这点而进行伪原创,这样做也不是不可以,但是要保证伪原创的内容质量要高,才能利于排名、收录。
微信号:18680393646