首页 > 资讯列表 > 网站运营 >> 经验技巧

robots.txt文件介绍

经验技巧 2011-04-07 00:00:00 转载来源: www.chinaxkj.com

关于robots.txt文件使用的一些简单介绍

robots.txt是网站主建立与搜索引擎之间沟通的一座桥梁。其文件常见问题很多,下面列举一些我们经常犯的一些错误:
  1、robots.txt的位置应该放在那里?
  robots.txt文件应该放置在网站根目录下。当搜索引擎的蜘蛛程序访问一个网站(比如http://www.chinaxkj.com)时,首先会检查该网站中是否存在http://www.seoqu.com/robots.txt这个文件,如果找到这个文件,它就会根据这个文件的内容,来确定它即将要访问的范围。
  2、我建立了robots.txt文件屏蔽了网页,为什么还会出现在搜索结果中呢?
  如果在robots.txt中屏蔽了该url路径,按常理来将是不会出现的搜索结果中的,但是很多情况下并不是这样,原因如下:
  1.蜘蛛程序通过其他链接直接进入网站的内页,导致被爬取并收录;
  2.robots.txt文件是后期修改,搜索结果还未进行更新;
  3.…
  以上经过一段时间的更新就会逐渐消失,如果被抓取的网页涉及到一些隐私,可以直接想相关搜索引擎反映。
  3、robots.txt中的一些细节问题
  文件中头字母大小写;
  注意空格和“/”
  4、robots.txt的一些操作事例
  a、禁止搜索搜索引擎访问网站的任何部分
  User-agent:*
  Disallow:/
  b、允许访问所有的内容
  User-agent:*
  Disallow:
  或者
  User-agent:*
  Allow:/
  也可以建立一个空的robots.txt文件
  c、仅仅允许google访问我的网站
  User-agent:Googlebot
  Disallow:/
  User-agent:*
  Disallow:/
  d、禁止访问指定目录
  User-agent:*
  Disallow:/abc/
  Disallow:/def/
  Disallow:/ghp/
  e、允许访问特定目录
  User-agent:*
  Allow:/abc/abc
  Allow:/def/ef
  Allow:/ghp/look
  Disallow:/abc/
  Disallow:/def/
  Disallow:/ghp/
  f、禁止访问/abc/目录下的所有以”.html”为后缀的URL(包含子目录)
  User-agent:*
  Disallow:/abc/*.html
  g、仅允许访问以”.html”为后缀的URL
  User-agent:*
  Allow:.html$
  Disallow:/
  h、禁止访问网站中所有的动态页面
  User-agent:*
  Disallow:/*?*
  i、禁止抓取网站上所有图片
  User-agent:*
  Disallow:.jpg$
  Disallow:.jpeg$
  Disallow:.gif$
  Disallow:.png$
  Disallow:.bmp$
  注意:如果还有其他格式,可以再进行添加Disallow:如果允许抓取某一类型的图片,将“Disallow”修改为“Allow”即可。
  注意以上格式中空格和“/”的使用
  j、允许所有搜索引擎抓取,将自己的网站地图放进robots.txt文件
  User-agent:*
  Disallow:
  Sitemap:http://www.chinaxkj.com/index.html  
robots.txt存在的问题比较多,大家有什么疑问也可以直接留言,方便进一步完善robots.txt常见问题。

标签: robots.txt 文件 介绍


声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!

站长搜索

http://www.adminso.com

Copyright @ 2007~2024 All Rights Reserved.

Powered By 站长搜索

打开手机扫描上面的二维码打开手机版


使用手机软件扫描微信二维码

关注我们可获取更多热点资讯

站长搜索目录系统技术支持