wordpress robots.txt写法示例

2010-07-06 at 10:00 下午 kk

  上次有谈到zen-cart的robots.txt如何来写,近期有优化自己的wordpress站群,也需要考虑wordpress的robots.txt如何来写,虽然网上有很多相关文章,但是根据个人对站点公开程度及权重控制,并没有很标准的范本,以下是wordpress robots.txt的几个示例,仅供参考:

1、宽松的写法 - 完全公开

User-agent: *
Disallow:

允许爬虫访问所有的页面内容。

2、严格的写法 - 部分公开

User-agent: *
Disallow: /wp-*
#Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=
Disallow: /comment-page/*
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$

控制爬虫不抓取除页面以外的其它内容。

3、我的blog的写法 - 暂时不需要禁用爬虫:

User-agent: *
Disallow:Sitemap: http://www.kuankuan.net/sitemap.xml.gz

4、现在站群使用的写法如下:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-
Disallow: /feed/
Disallow: /comments/feed
Disallow: /trackback
Disallow: /comments
Sitemap: http://www.kuankuan.net/sitemap.xml.gz

其实中http://www.kuankuan.net换成相应的站点域名。

附:以下对上述robots.txt做个注释:

Disallow: /wp-*

#禁止爬虫访问cgi-bin文件夹以及wp开头的文件

Disallow: /page/

#限制抓取WordPress分页

Disallow: /category/*/page/*

#限制抓取分类的分页

Disallow: /tag/

#限制抓取标签页面

Disallow: */trackback/

#限制抓取Trackback内容

Disallow: /category/*

#限制抓取所有分类列表

  如何检查robots.txt的有效性,可登录google管理员工具,分析robots.txt,相关说明可查看 google帮助文件了解使用 robots.txt 文件拦截或删除网页

------------------------------------------------------------------------------------------
作者:
宽宽@网站策划运营
本站所有文章均为宽宽原创。
版权所有。转载时必须以链接形式注明作者和原始出处及本声明。

Leave a Reply