robots.txt有什么作用(robots.txt文件规则)

SEO免费培训教程 • 2018年3月5日下午1:26 • SEO技术培训, SEO教程自学网, 中山SEO培训 • 阅读 6518

robots.txt有什么作用？robots.txt文件协议是什么？搜索引擎的蜘蛛在访问网站时，会首先去访问网站根目录下的robots.txt文件，会按照这个文件中指定的robots协议不去抓取网站中的部分内容。robots文件规则就是控制搜索引擎的蜘蛛抓取网站内容的规则。小小课堂网（ www.xxkt.org ）分享的内容为《robots.txt有什么作用(robots.txt文件规则)》。希望对大家有所帮助。

1、robots.txt文件位置

网站根目录，也就是域名的下一级，名称就是robots.txt，如：

https://www.xxkt.org/ robots.txt

2、robots.txt文件不可不存在

某些SEO人员可能会说，网站内容让蜘蛛随便抓取，无需在服务器端放置robots.txt文件。这种说法是错误的。因为有的服务器设置有问题，如果robots.txt文件不存在，服务器会返回200状态码及一些错误信息，而不是404状态码，这很有可能让搜索引擎的蜘蛛误读robots.txt文件内容。

故，就算允许搜索引擎蜘蛛随意抓取，也应该创建一个空的robots.txt文件。

3、robots.txt文件的基本格式

robots文件由记录组成，记录之间以空行分开。记录格式如下：

<域>:<可选空格><域值><可选空格>

空格可以在域值两边可加可不加，可以简单记为：

<域>:<域值>

robots.txt文件最简单样式为：

User-agent: *

Disallow: /

不过此robots.txt文件不建议使用，因为这个是禁止所有搜索引擎抓取任何内容。

允许所有搜索引擎抓取任何内容的robots.txt为：

User-agent: *

Disallow:

4、robots.txt文件的写法

1）User-agent

指定下面的规则适用于哪个蜘蛛，通配符星号*代表所有搜索引擎。

以下规则适用于所有搜索引擎：

User-agent: *

只适用于百度：

User-agent: Baiduspider

只适用于Google蜘蛛：

User-agent: Googlebot

2）Disallow

告诉蜘蛛不要去抓取某些文件或目录。

写法：每禁止一个抓取一个文件或目录，都必须另起一行，同一行不能禁止抓取两个文件或两个目录或一个文件一个目录。

如禁止抓取temp和a目录，禁止抓取w目录下的33.html和11.html。

Disallow: /temp/

Disallow: /a/

Disallow: /w/33.html

Disallow: /w/11.html

切勿写为Disallow: /temp/ /a/

3）Allow

告诉蜘蛛应该抓取某些文件或目录。由于不指定则是允许抓取，故Allow必须和Disallow一起用。

如禁止抓取目录a下的文件，在允许抓取b目录下的文件，而b目录在目录a下。

Disallow: /a/

Allow: /a/b/

4）$

通配符$，匹配URL结果的字符。

如禁止抓取.jpg格式的图片：

Disallow: .jpg$

如允许抓取所有.htm文件：

Allow: .htm$

5）*

通配符*，匹配任意字符。

6）Sitemap

告诉搜索引擎网站sitemaps的位置，是对搜索引擎蜘蛛的友好。当然一般情况下sitemaps也是放在网站根目录（如小小课堂的sitemap位置，https://www.xxkt.org/ sitemap.xml）。

Sitemap: https://www.xxkt.org/ sitemap.xml

robots是禁止抓取的，还有一种方式为禁止索引，noindex meta robots标签。

6、禁止索引

noindex meta robots标签是页面<head></head>中间的meta标签的一种，用于告诉搜索引擎禁止索引本页内容，因而也就不会出现在搜索引擎的结果页面中了。

格式如下：

意思为禁止所有搜索引擎索引本页面，禁止跟踪本页面上的链接。

百度仅支持nofollow和noarchive。Google、必应都支持下面标签。

noindex：不要索引本页面。

nofollow：不要跟踪本页面上的链接。

nosnippet：不要在搜索结果中显示摘要文字。

noarchive：告诉搜索引擎不要显示快照。

noodp：不要使用开放目录中的标题和描述。

最后一个要介绍的就是<a>标签上的rel=”nofollow”，最初这个标签的创造是为了告诉搜索引擎，这个链接非站长自主编辑，不要传递权重。后来，慢慢就变成了控制网站权重流动的一种方式。

有人说，nofollow有欺骗搜索引擎的嫌疑，不如直接优化网站内链来达到掌控网站权重的分配。

Google对nofollow很可能起到反作用，对加nofollow的链接不传递权重，但同时会使网站权重白白流失，故做英文网站需要注意这一点。百度对于nofollow的处理不同，加了nofollow的链接不传递权重，也不浪费权重，做中文网站可以在需要的地方使用nofollow。

以上就是小小课堂网（ www.xxkt.org ）分享的内容为《robots.txt有什么作用(robots.txt文件规则)》。感谢您的阅读。小小课堂SEO教程自学网。SEO咨询服务认准小小课堂！

所有文章均为小小课堂网原创。发布者：SEO免费培训教程，转转请注明出处：https://www.xxkt.org/2475

robots.txt robots.txt文件 robots.txt文件规则 robots.txt有什么作用 robots.txt的作用 robots.txt规则

SEO免费培训教程

0 2

如何提升网页打开速度(GZIP压缩教程提升网站打开速度)

上一篇 2018年3月4日下午3:44

石家庄SEO培训课程(WordPress网站添加畅言代码)

下一篇 2018年3月5日下午9:00

SEO排名培训

网站HTTP升级HTTPS教程(WordPress博客HTTPS改造全过程)

25.9K

SEO免费培训教程
2018年3月13日
SEO教程自学网

卖网站犯法吗怎么卖(冯耀宗长城号据说卖了77万)

0725

SEO免费培训教程
2022年3月13日
SEO咨询服务

学习seo和java哪个更好(如何进行seo怎么赚钱)

11.8K

SEO免费培训教程
2018年7月20日
SEO教程自学网

小小课堂SEO培训(石家庄优化顾问服务)

12.0K

SEO免费培训教程
2018年5月20日
SEO教程自学网

速贝seo实战培训(百度搜狗热点词采集)

0926

SEO免费培训教程
2022年2月26日
SEO教程自学网

盐城seo培训（谷歌管理网页在搜索结果中显示效果）

11.5K

SEO免费培训教程
2018年6月5日

发表评论

评论列表（2条）

石家庄seo优化 2018年5月25日上午10:55

360官方的教程转载过来了。

【Robots简介】
robots.txt是一个协议，是搜索引擎访问网站时第一个要查看的文件，它存在的目的是告诉搜索引擎哪些页面能被抓取，哪些页面不能被抓取。
当spider访问一个站点时，会首先检查该站点根目录下是否存在robots.txt，如果存在，spider会按照文件中的内容来确定访问的范围；如果该文件不存在，所有的spider将能够访问网站上所有没有被口令保护的页面。
【具体介绍】
1、User-agent用于描述搜索引擎robot的名字。在\robots.txt\文件中，如果有多条User-agent记录说明有多个robot会受到\robots.txt\的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则对任何robot均有效，在\robots.txt\文件中，\User-agent:*\这样的记录只能有一条。
360搜索支持user-agent命令，包括使用通配符的user-agent命令。
2、Disallow命令指定不建议收录的文件、目录。
Disallow值可以是一条完整的路径，也可以是路径的非空前缀，以Disallow项的值开头的URL不会被 robot访问。
3、Allow命令指定建议收录的文件、目录。
Allow值用于描述希望被访问的一组URL，它的值也可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL 是允许robot访问的。
User-agent: * 这里的*代表所有的搜索引擎种类，*是一个通配符，*也可以替换成其他的蜘蛛名称，例如：Googlebot、yisouspider，表示屏蔽特定搜索引擎的蜘蛛
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以\.htm\为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号(?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以\.htm\为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图，告诉爬虫这个页面是网站地图
【注意事项】
1、robots文件往往放置于根目录下；
2、当您的网站包含有不希望被搜索引擎收录的内容时，才需要使用robots.txt文件；
3、360搜索会对这样形式的robots进行全匹配url处理，所以在写robots的时候一定要小心，最好写尽量精确的url通配，不建议做泛匹配
User-agent: *
Disallow: *#*
或者
User-agent: *
Disallow: #
360搜索会把#认为是全部匹配，从而不抓取全部的url
类似的，如写成：Disallow: #.html，则会不抓取所有以html为后缀的url

回复
SEO免费培训教程 2018年10月31日下午4:03

小小课堂SEO自学网（https://www.xxkt.org/ ）,SEO教程自学网,提供seo实战培训,石家庄马慧专业研究搜索引擎优化,致力网站SEO优化教程学习以及seo技术教程培训,提供自学seo视频教程免费观看。

回复

robots.txt有什么作用(robots.txt文件规则)

相关推荐

网站HTTP升级HTTPS教程(WordPress博客HTTPS改造全过程)

卖网站犯法吗怎么卖(冯耀宗长城号据说卖了77万)

学习seo和java哪个更好(如何进行seo怎么赚钱)

小小课堂SEO培训(石家庄优化顾问服务)

速贝seo实战培训(百度搜狗热点词采集)

盐城seo培训（谷歌管理网页在搜索结果中显示效果）

发表评论

评论列表（2条）