robots.txt文件规则

- 马慧SEO - 阅 5,749

robots.txt文件协议是什么?搜索引擎的蜘蛛在访问网站时,会首先去访问网站根目录下的robots.txt文件,会按照这个文件中指定的robots协议不去抓取网站中的部分内容。robots文件规则就是控制搜索引擎的蜘蛛抓取网站内容的规则。

robots.txt

1、robots.txt文件位置

网站根目录,也就是域名的下一级,名称就是robots.txt,如:

https://www.xxkt.org/ robots.txt

2、robots.txt文件不可不存在

某些SEO人员可能会说,网站内容让蜘蛛随便抓取,无需在服务器端放置robots.txt文件。这种说法是错误的。因为有的服务器设置有问题,如果robots.txt文件不存在,服务器会返回200状态码及一些错误信息,而不是404状态码,这很有可能让搜索引擎的蜘蛛误读robots.txt文件内容。

故,就算允许搜索引擎蜘蛛随意抓取,也应该创建一个空的robots.txt文件。

3、robots.txt文件的基本格式

robots文件由记录组成,记录之间以空行分开。记录格式如下:

<域>:<可选空格><域值><可选空格>

空格可以在域值两边可加可不加,可以简单记为:

<域>:<域值>

robots.txt文件最简单样式为:

User-agent: *

Disallow: /

不过此robots.txt文件不建议使用,因为这个是禁止所有搜索引擎抓取任何内容。

允许所有搜索引擎抓取任何内容的robots.txt为:

User-agent: *

Disallow:

4、robots.txt文件的写法

1)User-agent

指定下面的规则适用于哪个蜘蛛,通配符星号*代表所有搜索引擎。

以下规则适用于所有搜索引擎:

User-agent: *

只适用于百度:

User-agent: Baiduspider

只适用于Google蜘蛛:

User-agent: Googlebot

2)Disallow

告诉蜘蛛不要去抓取某些文件或目录。

写法:每禁止一个抓取一个文件或目录,都必须另起一行,同一行不能禁止抓取两个文件或两个目录或一个文件一个目录。

如禁止抓取temp和a目录,禁止抓取w目录下的33.html和11.html。

Disallow: /temp/

Disallow: /a/

Disallow: /w/33.html

Disallow: /w/11.html

切勿写为Disallow: /temp/ /a/

3)Allow

告诉蜘蛛应该抓取某些文件或目录。由于不指定则是允许抓取,故Allow必须和Disallow一起用。

如禁止抓取目录a下的文件,在允许抓取b目录下的文件,而b目录在目录a下。

Disallow: /a/

Allow: /a/b/

4)$

通配符$,匹配URL结果的字符。

如禁止抓取.jpg格式的图片:

Disallow: .jpg$

如允许抓取所有.htm文件:

Allow: .htm$

5)*

通配符*,匹配任意字符。

6)Sitemap

告诉搜索引擎网站sitemaps的位置,是对搜索引擎蜘蛛的友好。当然一般情况下sitemaps也是放在网站根目录(如小小课堂的sitemap位置,https://www.xxkt.org/  sitemap.xml)。

Sitemap: https://www.xxkt.org/  sitemap.xml

robots是禁止抓取的,还有一种方式为禁止索引,noindex meta robots标签。

6、禁止索引

noindex meta robots标签是页面<head></head>中间的meta标签的一种,用于告诉搜索引擎禁止索引本页内容,因而也就不会出现在搜索引擎的结果页面中了。

格式如下:

<meta name=”robots” content=”noindex”,nofollow>

意思为禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接。

百度仅支持nofollow和noarchive。Google、必应都支持下面标签。

noindex:不要索引本页面。

nofollow:不要跟踪本页面上的链接。

nosnippet:不要在搜索结果中显示摘要文字。

noarchive:告诉搜索引擎不要显示快照。

noodp:不要使用开放目录中的标题和描述。

最后一个要介绍的就是<a>标签上的rel=”nofollow”,最初这个标签的创造是为了告诉搜索引擎,这个链接非站长自主编辑,不要传递权重。后来,慢慢就变成了控制网站权重流动的一种方式。

有人说,nofollow有欺骗搜索引擎的嫌疑,不如直接优化网站内链来达到掌控网站权重的分配。

Google对nofollow很可能起到反作用,对加nofollow的链接不传递权重,但同时会使网站权重白白流失,故做英文网站需要注意这一点。百度对于nofollow的处理不同,加了nofollow的链接不传递权重,也不浪费权重,做中文网站可以在需要的地方使用nofollow。

以上就是小小课堂带给大家的robots协议是什么和robots.txt文件规则的相关内容。感谢您的观看。小小课堂SEO教程自学网。SEO咨询服务认准小小课堂!

非特殊说明,本文为小小课堂SEO自学网原创,欢迎转载并保留版权 https://www.xxkt.org/

本站提供SEO培训、咨询、诊断,微信(电话):13722793092 微信公众号:xxktorg

ad              网站目录

2条回应:“robots.txt文件规则”

 1. 360官方的教程 转载过来了。

  【Robots简介】
  robots.txt是一个协议,是搜索引擎访问网站时第一个要查看的文件,它存在的目的是告诉搜索引擎哪些页面能被抓取,哪些页面不能被抓取。
  当spider访问一个站点时,会首先检查该站点根目录下是否存在robots.txt,如果存在,spider会按照文件中的内容来确定访问的范围;如果该文件不存在,所有的spider将能够访问网站上所有没有被口令保护的页面。
  【具体介绍】
  1、User-agent用于描述搜索引擎robot的名字。在\robots.txt\文件中,如果有多条User-agent记录说明有多个robot会受到\robots.txt\的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在\robots.txt\文件中,\User-agent:*\这样的记录只能有一条。
  360搜索支持user-agent命令,包括使用通配符的user-agent命令。
  2、Disallow命令指定不建议收录的文件、目录。
  Disallow值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。
  3、Allow命令指定建议收录的文件、目录。
  Allow值用于描述希望被访问的一组URL,它的值也可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。
  User-agent: * 这里的*代表所有的搜索引擎种类,*是一个通配符,*也可以替换成其他的蜘蛛名称,例如:Googlebot、yisouspider,表示屏蔽特定搜索引擎的蜘蛛
  Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
  Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
  Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
  Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以\.htm\为后缀的URL(包含子目录)。
  Disallow: /*?* 禁止访问网站中所有包含问号(?) 的网址
  Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
  Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
  Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
  Allow: /tmp 这里定义是允许爬寻tmp的整个目录
  Allow: .htm$ 仅允许访问以\.htm\为后缀的URL。
  Allow: .gif$ 允许抓取网页和gif格式图片
  Sitemap: 网站地图,告诉爬虫这个页面是网站地图
  【注意事项】
  1、robots文件往往放置于根目录下;
  2、当您的网站包含有不希望被搜索引擎收录的内容时,才需要使用robots.txt文件;
  3、360搜索会对这样形式的robots进行全匹配url处理,所以在写robots的时候一定要小心,最好写尽量精确的url通配,不建议做泛匹配
  User-agent: *
  Disallow: *#*
  或者
  User-agent: *
  Disallow: #
  360搜索会把#认为是全部匹配,从而不抓取全部的url
  类似的,如写成:Disallow: #.html,则会不抓取所有以html为后缀的url

 2. 马慧SEO说道:

  小小课堂SEO自学网(https://www.xxkt.org/ ),SEO教程自学网,提供seo实战培训,石家庄马慧专业研究搜索引擎优化,致力网站SEO优化教程学习以及seo技术教程培训,提供自学seo视频教程免费观看。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章!
 • 游戏网站专题 优秀的游戏网站专题页面赏析
  - 阅 240

  很多大型游戏网站优秀的结构值得我们去研究与学习。 今天,小小课堂SEO自学网带来的是《优秀的游戏网站专题页面赏 […]

 • 百度robots协议 百度robots协议
  - 阅 306

  Robots是站点与spider沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎收录的部分或 […]

 • priority是什么意思 priority是什么意思?XML网站地图与priority标签
  - 阅 673

  在搜索引擎爬虫进行信息采集的过程中,我们的页面应尽可能主动提交友好的页面的链接。 今天,小小课堂SEO自学网带 […]