郑州知网文化传播有限公司欢迎您!

如何写一个合理的robots.txt文件

作者:创始人 日期:2020-06-28 人气:2640
robots.txt文件的写法
User-agent: *    这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/   这里定义是禁止爬寻require目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC 这里定义是禁止爬寻ABC整个目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html所有文件
User-agent: *   这里的*代表的所有的搜索引擎种类,*是一个通配符
Allow: /cgi-bin/  这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
需要注意的是对每一个目录必须分开声明,而不要写成 “Disallow: /cgi-bin/ /tmp/”。
User-agent:后的*具有特殊的含义,代表“any robot”,所以在该文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”这样的记录出现。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
Robot特殊参数:
允许 Googlebot:
如果您要拦截除 Googlebot 以外的所有漫游器访问您的网页,可以使用下列语法:
User-agent:
Disallow:/
User-agent:Googlebot
Disallow:
Googlebot 跟随指向它自己的行,而不是指向所有漫游器的行。

你觉得这篇文章怎么样?

00

快捷导航

郑州网站建设公司 网络营销平台有哪些 开发直销奖金管理软件 直销会员软件开发 市场营销策划 直销系统直销软件 直销软件系统 分销商城小程序 网络营销分析案例 定制化软件开发公司 软件开发交易 软件项目开发管理软件 网络营销哪个网站好 商城分销系统搭建 直销软件平台 怎样做分销商城 郑州网站建设多少钱 软件研发管理平台 郑州建网站多少钱 商城分销怎么样 安卓软件开发报价 网络推广公司怎样 网络推广那个平台好 微分销商城哪个好 网络直销推广 微分销商城哪家好 双轨制度直销软件 网络营销外包方案 网络付费推广平台 做网络推广好的公司