百度是如何判断网站抓取和收录价值的

最近为了是一些被误伤的网站能更快的恢复排名,我也时常到百度站长工具论坛了解一下百度最新的政策动态。其实在百度站长平台资料区里的一些资料是值得我们仔细阅读和学习的,这也是百度自推出搜索引擎优化指南以来,在站长平台上给出的一些建站指南,也让站长更好的对百度搜索引擎的一些机制和规则有了更好的了解,下面小邓给大家分享一下里面的一篇关于网页收录的文章,虽然理论性较强但仍旧值得好好理解。

百度蜘蛛抓取

百度是如何判断网站抓取和收录价值呢?小邓从下面几个方面简单介绍,鉴于技术保密以及网站运营的差异等其他原因,以下内容仅供站长参考,具体的收录策略包括但不仅限于所述内容。

第一方面:网站创造高品质的内容,能为用户提供独特的价值

百度作为搜索引擎,最终的目的是满足用户的搜索需求,所以要求网站内容首先能满足用户的需求,现今互联网上充斥了大量同质的内容,在同样能满足用户需求的前提下,如果您网站提供的内容是独一无二的或者是具有一定独特价值的,那么百度会更希望收录您的网站。

温馨提示:百度希望收录这样的网站:

1、网站能满足一定用户的需求

2、网站信息丰富,网页文字能清晰、准确地表述要传达的内容。

3、有一定原创性或独特价值。

4、目前网络上稀缺的内容。

相反的,很多网站内容是“一般或低质”的,甚至某些网站利用欺骗手段来获取更好的收录或排名,下面列举一些常见的情况,虽然无法对各种情况一一列举。但请不要抱有侥幸心理百度有完善的技术支持发现并处理这些行为。

请不要为搜索引擎创造内容

某些网站在设计时不是从用户角度出发考虑的,而是为了从搜索引擎骗取更多的流量。比如提交给搜索引擎一种内容而显示给用户另一种。这些行为包括但不仅限于:在网页中加入隐藏文字或隐藏链接;在网页中加入与网页内容不相关的关键词;具有欺骗性跳转或重定向;专门针对搜索引擎制作桥页;针对搜索引擎利用程序生成的内容。

请不要创建多个包含大量重复内容的网页、子域名

百度会尽量收录提供不同信息的网页,如果您的网站包含了大量重复的内容,那么搜索引擎会减少相同内容的收录,同时认为该网站提供的内容价值偏低。

当然如果网站上相同的内容是通过不同形式展现(如论坛的简版页面、打印页),可以使用robots.txt禁止spider抓取网站不想向用户展现的形式,这也有助于节省带宽。(关于robots文件如何书写才能屏蔽蜘蛛抓取,可以看看《robots协议文件的写法和语法说明》的相关内容介绍。)

请不要制作欺诈性或安装有病毒、特洛伊木马或其他有害软件的网页

谨慎加入频道共建、内容联盟等不能产生或很少产生原创内容的计划,除非网站能为内容联盟创造原创的内容。

百度关键词搜索原理

百度关键词搜索原理

第二方面:网站提供的内容得到了用户、站长的认可和支持

一个网站上的内容如果得到了用户和站长的认可,那么对百度来说也是非常值得收录的。百度会通过分析真实用户的搜索行为、访问行为、网站之间的关系等综合,给一个网站的认可度的评价。但是值得说明的是,这种认可必须是建立在网站为用户提供了优质内容的基础上,是真实、有效的。

下面仅以网站之间的关系为例,来说明百度是如何看待其他站长对您网站的认可的:通常网站之间的链接可帮助百度的抓取工具找到您的网站,并提高您的网站的认可度。百度将从网页A至网页B的链接解释为网页A向网页B的投票。通过网页投票表决可以体现网页本身的“认可度”更具分量,并且有助于提高其他网页的“认可度”。链接的数量、质量以及相关性都会影响到“认可度”的计算。

但请注意,不是所有的链接都能参与认可度的计算,只有那些自然的链接才是有效的。(自然链接是指当其他网站发现您的内容具有价值并认为其可能对访问者有所帮助时,在网络的动态生成过程中形成的。)

要使其他网站创建与您网站相关的链接,最好的方式是创建可在互联网内赢得人气的独特且相关的内容。您的内容越实用,其他站长越容易发现您的内容对其用户有价值,因而也就越容易链接到您的网站。在做出是否要增加链接的决定之前,您应当先考虑:这样做对我网站的访问者是否真的有益?

然而,某些网站站长时常不顾链接质量和链接来源而进行链接交换,并单纯地为了认可度而人为的建立链接关系,这些都会对其网站产生长期影响。

温馨提示:会对网站产生不良影响的链接包括但不仅限于:

1、企图操纵“认可度”计算的链接

2、指向网络中违禁网站、垃圾站点或恶性链接的链接

3、互惠链接或链接交换(如“链接到我,我也会链接到您”)过多

4、购买或销售用于提升网站“认可度”的链接

网站有良好的浏览体验

第三方面:网站有良好的浏览体验

一个网站有良好的浏览体验,那么对用户来说是非常有益的,百度也会认为这样的网站是有更好的收录价值的。良好的浏览体验是指:

(1)网站具有清晰的层次结构

为用户提供包含指向网站重要部分的链接的站点地图和导航。使用户能够清晰、简单的浏览网站,快速的找到其所要的信息。

(2)网站有良好的性能:包括浏览速度和兼容性

网站速度快可以提高用户满意度,还可改善网页的整体质量(尤其对于互联网连接速度慢的用户)。

确保网站的内容在不同的浏览器中均能正确显示,防止某些用户不能正常访问。

(3)网站的广告不干扰用户的正常访问

广告是网站的重要收入来源,网站包含广告是非常合理的现象,但是如果广告过多会影响了用户的浏览;或者网站有太多不相关的弹窗、飘窗广告都可能会使用户反感。

百度的目标是向用户提供相关度最高的搜索结果以及最佳用户体验,如果广告对用户体验造成伤害,那么这样的站点是百度抓取是需要减少的。

(4)合理设置网站的权限

网站的注册访问等权限可以增加网站的注册用户、保证网站的内容质量,但过多的权限设置可能会使新用户失去耐性,给用户带来不好的体验。从百度来说希望减少提供对用户来说信息获取成本太高的网页。

总结:

百度一直在模仿谷歌,不仅模仿了谷歌的搜索引擎特点,也模仿了谷歌对用户体验的看重。随着百度算法的持续更新,目前百度对用户体验方面的管理越来越严格,很多站长开始钻搜索引擎空子,采用全篇抄袭或者是伪原创来搪塞。伪原创程度高的网站收录也还不错,但这也是极少数。相比之下,被惩罚的网站更多,被搜索引擎认为,整站文章内容低下。对于伪原创文章收录问题(可以看看《采集的文章怎么修改容易被收录》),小邓之所以写这篇文章,主要是为了帮助已经或即将被搜索引擎误伤的站长去避免这样的问题。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: