抓取网站的搜索引擎蜘蛛是不是越多越好

前一篇文章我们说到了搜索引擎蜘蛛基本原理,本篇仍旧是关于蜘蛛的问题。

搜索引擎蜘蛛,又被称为网页爬虫,网络机器人等等名号。另外还有一些不常使用的名字,如:蚂蚁,自动索引,模拟程序或者蠕虫。(信息来源:百度百科)那么,对于一个网站来说,是不是来网站爬行的蜘蛛越多越好呢?这是一个非常值得思考的问题。

搜索引擎蜘蛛

搜索引擎蜘蛛是不是越多越好?

不论哪个搜索引擎的爬虫,来抓取你网站的页面的时候,肯定在消耗你的网站资源,例如网站的连接数、网络带宽资源(空间流量)、服务器的负载、甚至还有盗链等,那是不是所有的搜索引擎蜘蛛都是有用呢?

另外,搜索引擎的爬虫来抓取你的页面数据后,它也不一定收用数据,只代表它“到此一游”留下痕迹而已,据小邓了解有些搜索引擎只是过来找下它想要的资源,甚至还有很多是开发人员的蜘蛛测试。

蜘蛛抓取页面原理

对于一个原创内容丰富,URL结构合理易于爬取的网站来说,简直就是各种爬虫的盘中大餐,很多网站的访问流量构成当中,爬虫带来的流量要远远超过真实用户访问流量,甚至爬虫流量要高出真实流量一个数量级。

对于那些想提高网站有效利用率的网站,虽然设置了相当严格的反爬虫策略,但是网站处理的动态请求数量仍然是真实用户访问流量的2倍。

可以肯定的说,当今互联网的网络流量有很大一部分的流量是爬虫带来的,因此反搜索引擎爬虫是一个值得SEO长期探索和解决的问题。

所以,从SEO的角度来说,搜索引擎蜘蛛来网站访问并非越多越好,并且还要合理的屏蔽无效的搜索引擎蜘蛛的抓取。

搜索引擎蜘蛛访问相关性问题答疑

下面是关于搜索引擎蜘蛛访问的一些相关性问题答疑:

过多的搜索引擎爬虫对网站有何影响?

既然对于网站来说,搜索引擎蜘蛛并非是越多越好,那么,这具体是因为什么原因导致的呢?

1、浪费带宽资源

如果你的网站带宽资源有限,而爬虫的量过多,导致正常用户访问缓慢,原本虚拟主机的主机连接数受限,带宽资源也是有限,这种情况搜索引擎爬虫受影响呈现更明显。

2、过于频繁的抓取会导致服务器报错

如果搜索引擎爬虫过于频繁,会抓取扫描很多无效页面,甚至抓页面抓到服务器报502、500 、504等服务器内部错误了(具体可查看《IIS日志中搜索引擎蜘蛛名称代码及爬寻返回代码》相关介绍),蜘蛛爬虫还在不停使劲抓取。

3、与网站主题不相关的搜索引擎爬虫消耗资源

比如一淘网的抓取工具是一淘网蜘蛛(EtaoSpider),目前是被各大电子商务购物网站屏蔽的,拒绝一淘网抓取其商品信息及用户产生的点评内容。

被禁止的原因首先应该是它们之间没有合作互利的关系,还有就是EtaoSpider爬虫是一个抓取最疯狂的蜘蛛,据小邓对一些电商网站的测试发现:一淘网蜘蛛(EtaoSpider)的一天爬行量比“百度蜘蛛(Baiduspider)”“360蜘蛛(360Spider)”等主流蜘蛛爬虫多几倍,并且是远远的多。

重点是EtaoSpider被抓取只会消耗你的网站资源,它不会给你带来访问量,或者其它对你有利用的。

4、无效的测试抓取

一些搜索引擎开发程序员,它们写的爬虫程序在测试爬行。

5、robots.txt文件也并非是万能

肯定有很多人认为,在robots.txt设置屏蔽搜索引擎爬虫即可,或者允许某些特定的搜索引擎爬虫,能达到你预想效果。

正规搜索引擎会遵守规则,不过不会及时生效,但是据我对博客的测试发现:实际上某些蜘蛛往往不是这样的,先扫描抓取你的页面,无视你的robots.txt,也可能它抓取后不一定留用,或者它只是统计信息,收集互联网行业趋势分析统计。

6、不是搜索引擎蜘蛛,但具有蜘蛛的特性

例如采集软件,采集程序,网络扫描e-mail地址的工具,各式各样的SEO分析统计工具,千奇百怪的网站漏洞扫描工具等等,这些抓取对网站没有任何好处!

如何解决无效搜索引擎蜘蛛取的问题?

如何解决无效搜索引擎蜘蛛取的问题?

各种搜索引擎的蜘蛛爬虫会不断地访问抓取我们站点的内容,也会消耗站点的一定流量,有时候就需要屏蔽某些蜘蛛访问我们的站点。那么接下来,小邓就根据自己的经验跟大家分享4种解决无效搜索引擎蜘蛛抓取的方法:

1、只运行常用的搜索引擎蜘蛛抓取

依据空间流量实际情况,就保留几个常用的,屏蔽掉其它蜘蛛以节省流量。

2、通过服务器防火墙来屏蔽ip

从服务器防火墙iptable直接屏蔽蜘蛛IP段、详细的IP,这是最直接、有效的屏蔽方法。

3、WWW服务器层面做限制

例如Nginx,Squid,Lighttpd,直接通过“http_user_agent”屏蔽搜索引擎爬虫。

4、最后robots.txt文件做限制

搜索引擎国际规则还是要遵循规则的。

总结:

对于搜索引擎来说,使用搜索引擎蜘蛛不断的收集最新数据,主要用于提供它访问过页面的一个副本,然后,搜索引擎就可以对得到的页面进行索引,以提供快速的访问。蜘蛛也可以在web上用来自动执行一些任务,例如检查链接,确认html代码;也可以用来抓取网页上某种特定类型信息,例如抓取电子邮件地址(通常用于垃圾邮件)。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: