广东SEO团队为汕尾,河源,潮州,阳江,揭阳,湛江,肇庆等地提供SEO培训和网站优化培训

广东SEO团队欧阳淳

让搜索引擎更好的抓取你的网站

本文关键词: 搜索引擎  Google  Googlebot  Google爬虫  

      Google本身的资源是有限的,当面对几近无穷无尽的网络内容的时候,Googlebot只能找到和抓取其中一定比例的内容。然后,在我们已经抓取到的内容中,我们也只能索引其中的一部分。

       URLs 就像网站和搜索引擎抓取工具之间的桥梁: 为了能够抓取到您网站的内容,抓取工具需要能够找到并跨越这些桥梁(也就是找到并抓取您的URLs)。如果您的URLs很复杂或冗长,抓取工具不得不需要 反复花时间去跟踪这些网址;如果您的URLs很规整并且直接指向您的独特内容,抓取工具就可以把精力放在了解您的内容上,而不是白白花在抓取空网页或被不 同的URLs指引却最终只是抓取到了相同的重复内容。

       在上面的幻灯片上,您可以看到一些我们应当避免的反例--这些都是现实中存在的URL例子(尽管他们的名称由于保护隐私的原因已经被替换了),这些 例子包括被黑的URL和编码,冗余的参数伪装成URL路径的一部分,无限的抓取空间,等等。您还可以找到帮助您理顺这些网址迷宫和帮助抓取工具更快更好地 找到您的内容的一些建议,主要包括:

       1)去除URL中的用户相关参数

       那些不会对网页内容产生影响的URL中的参数——例如session ID或者排序参数——是可以从URL中去除的,并被cookie记录的。通过将这些信息加入cookie,然后301重定向至一个“干净”的URL,你可 以保持原有的内容,并减少多个URL指向同一内容的情况。

        控制无限空间

        你的网站上是否有一个日历表,上面的链接指向无数个过去和将来的日期(每一个链接地址都独一无二)?你的网页地址是否在加入一 个&page=3563的参数之后,仍然可以返回200代码,哪怕根本没有这么多页?如果是这样的话,你的网站上就出现了所谓的“无限空间”,这 种情况会浪费抓取机器人和你的网站的带宽。如何控制好“无限空间”,参考这里的一些技巧吧。

        2)阻止Google爬虫抓取他们不能处理的页面

        通过使用你的robots.txt 文件,你可以阻止你的登录页面,联系方式,购物车以及其他一些爬虫不能处理的页面被抓取。(爬虫是以他的吝啬和害羞而著名,所以一般他们不会自己 “往购物车里添加货物” 或者 “联系我们”)。通过这种方式,你可以让爬虫花费更多的时间抓取你的网站上他们能够处理的内容。

        一人一票。 一个 URL, 一段内容

        在理想的世界里,URL和内容之间有着一对一的对应:每一个URL会对应一段独特的内容,而每一段内容只能通过唯一的一个URL访问。越接近这样的 理想状况,你的网站会越容易被抓取和收录。如果你的内容管理系统或者目前的网站建立让它实现起来比较困难,你可以尝试使用rel=canonical元素 去设定你想用的URL去指示某个特定的内容。


你浏览的文章是 - 《让搜索引擎更好的抓取你的网站》!
文章出处:http://www.jimi.org.cn/seo-youhua/122/
培训声明:广东SEO团队提供专业SEO培训网站优化培训,咨询专线0754-88695900!
« 网站的互动性不可小瞧谈谈SEO单页面优化操作 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

SEO培训套餐

    战略型SEO培训 标准型SEO培训 全能型SEO培训

SEO培训报名方式

  • 金戈铁马旗下SEO培训机构
  • 报名电话:0754-88695900
  • QQ:9955465、859006660
  • 从网站开发至网站优化一步到位!
  • 快速实现网络赚钱计划,学不会退学费!

Categories

Comments

Previous

Zblog © 2006-2009 广东SEO团队 ICP备:粤ICP备08012840号