如何写一个合理的robots.txt文件

作者：创始人　日期：2020-06-28　人气：2672

robots.txt文件的写法
User-agent: * 　　这里的*代表的所有的搜索引擎种类，*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 　这里定义是禁止爬寻require目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC 这里定义是禁止爬寻ABC整个目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html所有文件
User-agent: * 　　这里的*代表的所有的搜索引擎种类，*是一个通配符
Allow: /cgi-bin/　　这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片

在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即搜索引擎不会访问这三个目录。
需要注意的是对每一个目录必须分开声明，而不要写成 “Disallow: /cgi-bin/ /tmp/”。
User-agent:后的*具有特殊的含义，代表“any robot”，所以在该文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”这样的记录出现。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
Robot特殊参数：
允许 Googlebot：
如果您要拦截除 Googlebot 以外的所有漫游器访问您的网页，可以使用下列语法：
User-agent:
Disallow:/
User-agent:Googlebot
Disallow:
Googlebot 跟随指向它自己的行，而不是指向所有漫游器的行。

你觉得这篇文章怎么样？

0 0

知网
公司简介
企业文化
荣誉资质

产品展示
app开发
网站建设
网络推广

客户案例
分销系统
直销软件开发
网络营销推广

联系我们

联系方式
客服电话：0371-56683330 工作时间：9:00-18:00 (工作日) 意见建议：shunzi885@126.com

豫公网安备 41010402002388号　网站地图 http://www.ur10.com/　

Processed in 1.266072 s , Memory 7.98 M , 18 queries

如何写一个合理的robots.txt文件

快捷导航