f2CBVx

ppt.cc/fKlBax ppt.cc/fwlgFx ppt.cc/fVjECx ppt.cc/fEnHsx ppt.cc/fRZTnx ppt.cc/fSZ3cx ppt.cc/fLOuCx ppt.cc/fE9Nux ppt.cc/fL5Kyx ppt.cc/f71Yqx tecmint.com linuxcool.com linux.die.net linux.it.net.cn ostechnix.com unix.com ubuntugeek.com runoob.com man.linuxde.net ppt.cc/fwpCex ppt.cc/fxcLIx ppt.cc/foX6Ux linuxprobe.com linuxtechi.com howtoforge.com linuxstory.org systutorials.com ghacks.net linuxopsys.com ppt.cc/ffAGfx ppt.cc/fJbezx ppt.cc/fNIQDx ppt.cc/fCSllx ppt.cc/fybDVx ppt.cc/fIMQxx

Tuesday, 18 December 2012

给搜索引擎正确的设置你网站的robots.txt

1.什么是 robots.txt

搜索引擎使用蜘蛛程序自动访问互联网上的网页并获取网页信息。蜘蛛在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件，这个文件用于指定蜘蛛在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt，在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
简单的说就是搜索引擎的蜘蛛看你网站的时候会先去robots.txt，所以 robots.txt 就成了路标.

   请注意，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。

但是巧妙的使用robots.txt是很利于SEO的。

2. robots.txt文件放在哪里?

robots.txt文件应该放置在网站根目录下。举例来说，当蜘蛛访问一个网站（比如 http://urdomain.com）时，首先会检查该网站中是否存在http://urdomain.com/robots.txt这个文件，如果蜘蛛找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

检验是否防止正确其实很简单打开你的网址后面加上/robots.txt 例如：http://urdomain.com/robots.txt
3. robots.txt文件的格式及用法

在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow和Allow行,详细情况如下：

User-agent:
   该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中，如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则对任何robot均有效，在"robots.txt"文件中，"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中，加入"User- agent:SomeBot"和若干Disallow、Allow行，那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。
指定收录引擎

Disallow:
   该项的值用于描述不希望被访问的一组URL，这个值可以是一条完整的路径，也可以是路径的非空前缀，以Disallow项的值开头的URL不会被 robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help /index.html，而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html，不能访问 /help/index.html。"Disallow:"说明允许robot访问该网站的所有url，在"/robots.txt"文件中，至少要有一条Disallow记录。如果"/robots.txt"不存在或者为空文件，则对于所有的搜索引擎robot，该网站都是开放的。
禁止命令禁止访问目录、文件格式

Allow:
   该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL 是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页同时禁止访问其它所有URL的功能。
运行命令允许访问目录、文件链接格式

使用"*"and"$"：
Baiduspider支持使用通配符"*"和"$"来模糊匹配url。
"$" 匹配行结束符。
"*" 匹配0或多个任意字符。

4. robots.txt文件用法举例

就是User-agent: Allow: Disallow:三个命令加在一起的组合

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: * #注释：指定*即任何蜘蛛
Disallow: / # / 代表任何

例2. 仅禁止Baiduspider访问您的网站

User-agent: Baiduspider #指定百度蜘蛛
Disallow: / #任何目录

例3. 仅允许Baiduspider访问您的网站

User-agent: Baiduspider #指定百度蜘蛛
Allow: / #允许任何

User-agent: * #指定任何
Disallow: / #全部不允许

例4. 禁止spider访问特定目录

在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明，而不能写成 "Disallow: /cgi-bin/ /tmp/"。

User-agent: * #任何蜘蛛
Disallow: /aaa/ #禁止爬行aaa文件夹
Disallow: /bbb/ #禁止爬行bbb文件夹
Disallow: /ccc/ #禁止爬行ccc文件夹

例5. 允许访问特定目录中的部分url

User-agent: * #任何蜘蛛
Allow: /aaa/see #允许爬行/aaa/see目录
Allow: /bbb/hi #允许爬行/bbb/hi目录
Allow: /~ccc/look #允许爬行/~ccc/look目录
Disallow: /111/ #禁止爬行/111/目录
Disallow: /222/#禁止爬行/222/目录
Disallow: /~333/#禁止爬行/~333/目录

例6. 使用"*"限制访问url

User-agent: * #所有蜘蛛
Disallow: /111/*.htm #禁止爬行禁止访问/111/目录下的所有以".htm"为后缀的URL(包含子目录)。

例7. 使用"$"限制访问url

User-agent: * #所有蜘蛛
Allow: /*.htm$ #仅允许访问以".htm"为后缀的URL。
Disallow: / #可以理解成其他的全部允许

例8. 禁止访问网站中所有的动态页面

User-agent: * #所有蜘蛛
Disallow: /*?* #动态的一般都有带 ? 号排除带 ? 号的链接

例9. 禁止Baiduspider抓取网站上所有图片

User-agent: * #任何蜘蛛
Disallow: /*.jpg$ #禁止所有.jpg字样
Disallow: /*.jpeg$ #禁止所有.jpeg字样
Disallow: /*.gif$ #禁止所有.gif字样
Disallow: /*.png$ #禁止所有.png字样
Disallow: /*.bmp$ #禁止所有.bmp字样连在一起就是禁止所有图片的意思只允许抓取网页

例10. wordpress 伪静态以后允许访问某些链接，拒绝访问某些链接

User-agent: * #所有蜘蛛
Allow: /*-on$ # 允许带任何前缀-on字样的爬行
Allow: /bua #允许bua字样的
Disallow: / #其他都不允许

例11. wordpress使用实例

User-agent: * #所有蜘蛛
Disallow: /wp-* #一般都是配置文件
Disallow: /wp-admin/ #不允许爬行管理员目录
Disallow: /wp-includes/ #不允许爬行includes/以下任意文件、链接
Disallow: /wp-content/ #不允许爬行content/以下任意文件、链接
Disallow: /feed #不允许爬行/feed/以下任意文件、链接一般是订阅类
Disallow: /*/feed
Disallow: /*/*/feed
Disallow: /*?*
Disallow: /?r=*
Disallow: /?s=* #不允许爬行站内搜索结果的链接
Disallow: /?s=
Disallow: /?p=
Disallow: /*?replytocom= #不允许爬行replytocom字样的文件、链接
Disallow: /*/comment #不允许爬行comment字样的文件、链接一般在留言分页出现
Disallow: /*/comment-page-*
Disallow: /comment-page-*
Sitemap: http://urdomain.com/sitemap.html #告诉蜘蛛我的站点地图位置
sitemap: http://urdomain.com/sitemap_baidu.xml #告诉蜘蛛我的百度地图位置
sitemap: http://urdomain.com/sitemap.xml #告诉蜘蛛我的谷歌地图位置
----------------------------------------------------------------------------------------

robots.txt对于WordPress的作用、书写格式及写法

在切入正题之前，我们有必要先了解一下什么是robots.txt。简单说来，robots.txt是用来设置搜索引擎对网站的抓取范围的一个纯文本文件，可以告诉搜索引擎哪些网页可以收录，哪些不允许收录。当搜索引擎蜘蛛（spider）来访问一个站点时，首先会查看站点根目录下是否有robots.txt文件，如果有则按照里面设置的规则权限对你网站页面进行抓取和索引，反之则搜索蜘蛛将能够访问并有可能收录网站上所有没有被口令保护的页面。robots.txt原则上需要站长手动建立，但对于WordPress而言，只要你在建立站点时选择了允许搜索引擎抓取，就会自动生成一个基于最简单开放写法的虚拟的robots.txt页面，你可以通过yourdomain.com/robots.txt的形式来访问它。

一、robots.txt的作用：

1、robots.txt可以禁止搜索引擎访问无须被收录的网站页面，如cgi-bin、管理后台、程序脚本、附件、数据库文件、模板文件等等。从而大大减少因spider抓取页面所占用的网站带宽，这一点对于大型网站尤其明显。

2、robots.txt可以避免动态网页被蜘蛛索引。很多WordPress博客都已通过url重写将动态网址静态化为永久固定链接，通过robots.txt就可以阻止搜索引擎索引那些动态网址，从而大大减少了网站重复页面，这对于SEO优化将起到很明显的作用。

3、robots.txt可以填写网站的sitemap文件链接（如Sitemap: http://yourdomin.com/sitemap.xml）。这样站长就不必到每个搜索引擎那里提交自己的sitemap文件了，搜索引擎的蜘蛛会自己读取其中的sitemap路径，然后抓取其中相链接的网页。

二、robots.txt的格式：

1、robots.txt必须放置在网站根目录下，而且文件名必须全部小写。

2、robots.txt记录通常以一行或多行User-agent开始，后面加上若干Disallow和Allow行。其中User-Agent用于描述搜索引擎spider的名字，其值设为*，则对任何robot均有效。Disallow用于描述不希望被访问的一组URL，在robots.txt文件中，至少要有一条Disallow记录。如果都允许收录，则写“Disallow: ”，如果都不允许收录，则写“Disallow: / ”。Allow则用于描述希望被访问的一组URL，写法同Disallow。

3、User-agent，Disallow等后面的冒号必须是英文状态下的，冒号后面可以空一格，也可以不空格。

4、需要特别注意的是Disallow与Allow行的顺序是有意义的，robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。

5、关于使用”*”和”$”：Baiduspider支持使用通配符”*”和”$”来模糊匹配url。”$” 匹配行结束符。”*” 匹配0或多个任意字符。

三、robots.txt的写法：

1、最简单的开放写法。

这种写法允许所有搜索引擎蜘蛛访问，允许访问站点所有内容。对于多数Wordpress博客而言，只要站内链接结构比较合理，没有需要限制的特殊内容，推荐使用这种写法。本站采用的也是这种写法，代码如下：

    User-agent: *
    Disallow:

2、比较严格的写法：

这种写法允许所有蜘蛛访问，限制以“wp-”开头的目录及文件，限制抓取.php文件、.inc文件、.js文件、.css文件，限制抓取搜索结果。要注意的是，Disallow: /wp-* 会连同附件目录一起限制抓取，如果想让搜索引擎抓取附件中的内容，将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。代码如下：

    User-agent: *
    Disallow: /wp-*
    #Allow: /wp-content/uploads/
    Disallow: /*.php$
    Disallow: /*.inc$
    Disallow: /*.js$
    Disallow: /*.css$
    Disallow: /?s=

3、较为常见的写法：

这种写法允许所有搜索引擎抓取，要逐一列举需要限制的目录，限制抓取搜索结果，并包含sitemap.xml地址。代码如下：

    User-agent: *
    Disallow: /wp-admin
    Disallow: /wp-content/plugins
    Disallow: /wp-content/themes
    Disallow: /wp-includes
    Disallow: /?s=
    Sitemap: http://urdomain.com/sitemap.xml

4、其他写法参考：

为避免在搜索引擎中出现重复页面，Wordpress玩家自创了很多robots写法，列举一些常用的，作为参考（适用于伪静态方式的永久链接）：

    Disallow: /page/ 说明：限制抓取Wordpress分页

    Disallow: /category/*/page/* 说明：限制抓取分类的分页

    Disallow: /tag/ 说明：限制抓取标签页面

    Disallow: */trackback/ 说明：限制抓取Trackback内容

    Disallow: /category/* 说明：限制抓取所有分类列表

5、使用Google管理员工具-https://www.google.com/webmasters/tools/ 检查文件有效性。登录后访问“工具 -> 分析 robots.txt”。

关于robots.txt，最后说的是，robots.txt协议并非一个规范协议，而是很多搜索引擎约定俗成的。所以每个搜索引擎遵守robots.txt的方式也不一样，而且有些搜索引擎是不怎么遵循robots.txt的，例如百度。robots.txt也没有固定格式，大家根据自己的需要设定就是了。如果还是不会写，你也可以通过yourdomain.com/robots.txt的形式访问一些知名博客的robots.txt，参考他们的写法。还有一点就是，有人说robots.txt可以防止自己的隐私被搜索引擎抓取。但如果在robots.txt设置了隐私目录，固然可以屏蔽搜索引擎的抓取，但相应的任何人都可以通过访问你的robots.txt而查看到隐私目录的所在。

Total Pageviews

Tuesday, 18 December 2012

给搜索引擎正确的设置你网站的robots.txt

robots.txt对于WordPress的作用、书写格式及写法