WordPress博客论如何编写robots.txt更利于优化
robots.txt是每个站点不可缺少的一个文件,它的作用是告诉蜘蛛文件,服务器上什么文件是可以被查看的,一个好的robots.txt更有利于站点的优化。
先来简单的介绍下robots协议的写法:
User-agent:*
User-agent这里定义针对的搜索引擎种类,*是一个通配符,代表全部。
Disallow:/admin/
Disallow定义的是禁止爬寻的目录,/admin/表示根目录下的admin文件夹。
Allow: /cgi-bin/
Allow定义的是允许爬寻的目录。/cgi-bin/表示根目录下的cgi-bin文件夹。
Sitemap:网站地图,这里顾名思义就是填写站点地图的路径。
基本上rotots.txt文件就是由上面四个语句组成。
理论上,如果你的站点文件全部都需要抓取的话,直接Allow:/就可以了,但是现在类似CMS之类系统的发展,不同的站点或后台程序都需要不同的robots.txt,好的robots.txt有利于优化。
一般wordpress站点的robots.txt一般情况下是这样编写就可以了:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap:网站地图
但是要是深入点优化,就不只是那么简单了,而且也并不一定能面面俱到,下面是我从网上各大网站上总结的,大家可以按自己理解来选择禁用哪些部分。
注:有些文件夹没有是很正常的,只有开启功能的时候才会创建一些文件夹。
Disallow: /feed
Disallow: */feed
这个是网站的订阅文件,一般有RSS订阅功能优惠出现这个文件。
Disallow: /trackback
Disallow: */trackback
禁止收录trackback,这是网络日志应用工具,只要有人引用了你的文章链接后wordpress会通过此项功能互相通告,此项会导致网页出现重复页面的问题。如果关闭了此功能可以不禁用。
Disallow: /comments
Disallow: */comments
Disallow: /*?replytocom*
这里是禁止评论页面。
Disallow: /wp-content/plugins
禁止收录插件目录
Disallow: /wp-content/themes
禁止收录模板目录
Disallow: /wp-content/uploads
看个人喜好,如果希望网站的图片被收录,则可以去掉这条
Disallow: /wp-content/plugins/ 限制插件文件
Disallow: /wp-content/themes/ 限制模板文件
Disallow:/?s=*
Disallow:/*/?s=*
这个是禁止抓取站内搜索结果。
暂且收集到的在某些情况下有必要禁止抓取的位置就这些了,如果有朋友发现缺少什么,期望能够联系我改进,谢谢
- 黑客常用破解网络密码的方式,论如何安全的设置网络密码