wordpress robots.txt写法示例
2010-07-06 at 10:00 下午 宽宽上次有谈到zen-cart的robots.txt如何来写,近期有优化自己的wordpress站群,也需要考虑wordpress的robots.txt如何来写,虽然网上有很多相关文章,但是根据个人对站点公开程度及权重控制,并没有很标准的范本,以下是wordpress robots.txt的几个示例,仅供参考:
1、宽松的写法 - 完全公开
User-agent: *
Disallow:
允许爬虫访问所有的页面内容。
2、严格的写法 - 部分公开
User-agent: *
Disallow: /wp-*
#Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=
Disallow: /comment-page/*
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
控制爬虫不抓取除页面以外的其它内容。
3、我的blog的写法 - 暂时不需要禁用爬虫:
User-agent: *
Disallow:Sitemap: http://www.kuankuan.net/sitemap.xml.gz
4、现在站群使用的写法如下:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-
Disallow: /feed/
Disallow: /comments/feed
Disallow: /trackback
Disallow: /comments
Sitemap: http://www.kuankuan.net/sitemap.xml.gz
其实中http://www.kuankuan.net换成相应的站点域名。
附:以下对上述robots.txt做个注释:
Disallow: /wp-*
#禁止爬虫访问cgi-bin文件夹以及wp开头的文件
Disallow: /page/
#限制抓取WordPress分页
Disallow: /category/*/page/*
#限制抓取分类的分页
Disallow: /tag/
#限制抓取标签页面
Disallow: */trackback/
#限制抓取Trackback内容
Disallow: /category/*
#限制抓取所有分类列表
如何检查robots.txt的有效性,可登录google管理员工具,分析robots.txt,相关说明可查看 google帮助文件了解使用 robots.txt 文件拦截或删除网页 。