CSS3教程

网站优化利器:robots协议规范书写

字号+ 作者:建站教程网 来源:建站教程网 2012-04-29 15:44 我要评论( )

Robots文件是网站和蜘蛛程序之间的“君子协议”——robots文件不仅仅可以节省网站的资源,还可以帮助蜘蛛更加有效的抓取网,从而提高排名。

Robots文件是网站和蜘蛛程序之间的“君子协议”——robots文件不仅仅可以节省网站的资源,还可以帮助蜘蛛更加有效的抓取网,从而提高排名。

1:只允许谷歌bot

如果要拦截除谷歌bot之外的所有爬虫:

User-agent:*

disallow:/

Uer-agent:允许的蜘蛛名

Disallow:

2:“/folder/”和“/folder”的区别

举个例子:

User-agent:*

Disallow:/folder/

Disallow:/folder

“Disallow:folder/”表示拦截的是一个目录,该目录文件下的所有文件不允许被抓取,但是允许抓取folder.hlml。

“Disallow:/folder”:对/folder/下的所有文件和folder.html都不能被抓取。

3:“*”匹配任意字符

User-agent:*

表示屏蔽所有的蜘蛛。当我们做了伪静态处理之后,会同时又动态网页和静态网页,网页内容一模一样,视为镜态页面,所以我们要屏蔽掉动态的网页,可以用*号来屏蔽动态的网页

User-agent:*

Disallow:/?*?/

4:$匹配网址结束

如果要拦截以某个字符串结束的网址,就可以使用$,例如,要拦截以.asp结束的网址:

User-agent:*

Disallow:/*.asp$

也可以打开比较优秀的网站,看他们的robots文件是如何书写的,然后根据自己的需求进行相应的修改。Robots文件可以让蜘蛛把更多的时间花在要抓取的内容上,所以优化robots文件是很有必要的。

本文来自东阳高复:,转载请注明链接

感谢 米多 的投稿

(责任编辑:sunsun)

 

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • 内容除了原创与相关性 我们还要注意什么?

    内容除了原创与相关性 我们还要注意什么?

    2014-11-14 17:36

  • 该如何在论坛发布外链?

    该如何在论坛发布外链?

    2014-11-14 17:30

  • 浅谈传统企业网站一些关于SEO方面的问题

    浅谈传统企业网站一些关于SEO方面的问题

    2014-11-14 17:29

  • 社区网站存在的问题有哪些?

    社区网站存在的问题有哪些?

    2014-11-14 17:29

网友点评