一、简介

罗布ots
协议(也称之为爬虫协议、机器人协议等)的完备是“互联网爬虫排除标准”(罗布ots
Exclusion Protocol),网址经过 罗布ots
协议告诉搜索引擎哪些页面能够抓取,哪些页面不能够抓取。robots.txt
是寻觅引擎访问网址的时候要查阅的第一个公文。

当一个爬虫访问多少个站点时,它会率先检查该站点根目录下是还是不是留存
robots.txt,假如存在,爬虫就能够服从该文件中的内容来明确访问的界定;要是该公文不存在,爬虫将能够访问网址上有着没有被口令体贴的页面。百度官方提议,仅当你的网址包罗不指望被搜寻引擎收音和录音的原委时,才需求使用
robots.txt 文件。借令你希望物色引擎收音和录音网址上保有剧情,请勿建立robots.txt 文件。但 robots.txt
是贰个研讨而不是命令,也不是防火墙,不能阻止恶意闯入者。

外部来看,那一个功效意义甚微。从找寻引擎优化的角度来看,能够经过屏蔽页面,达到集中权重的成效,那也是优化人士最为依赖的地方。别的屏蔽部分网址中相当的大的公文,如:图片,音乐,录制等,节省服务器带宽。设置网址地图连日来,方便引导蜘蛛爬取页面。

二、写法

robots.txt
文件放置在网址的根目录,文件名必须为小写字母。全部的下令第二个字母需大写,其他的小写。且命令之后要有二个英文字符空格。

先来看下Tmall的robots.txt的例证,

User-agent:  Baiduspider

Allow:  /article

Allow:  /oshtml

Disallow:  /product/

Disallow:  /

 

User-Agent:  Googlebot

Allow:  /article

Allow:  /oshtml

Allow:  /product

Allow:  /spu

Allow:  /dianpu

Allow:  /oversea

Allow:  /list

Disallow:  /

 

User-agent:  Bingbot

Allow:  /article

Allow:  /oshtml

Allow:  /product

Allow:  /spu

Allow:  /dianpu

Allow:  /oversea

Allow:  /list

Disallow:  /

 

User-Agent:  360Spider

Allow:  /article

Allow:  /oshtml

Disallow:  /

 

User-Agent:  Yisouspider

Allow:  /article

Allow:  /oshtml

Disallow:  /

 

User-Agent:  Sogouspider

Allow:  /article

Allow:  /oshtml

Allow:  /product

Disallow:  /

 

User-Agent:  Yahoo!  Slurp

Allow:  /product

Allow:  /spu

Allow:  /dianpu

Allow:  /oversea

Allow:  /list

Disallow:  /

 

User-Agent:  *

Disallow:  /

User-agent:代表定义哪个寻找引擎。User-agent 记录至少要有一条。

User-agent: Baiduspider,定义百度蜘蛛。

User-agent: * 定义全数所搜引擎。

Disallow:和谐告诉寻觅引擎哪些页面能够抓取。意味着禁止访问。

Disallow:  /product/ 表示禁止爬取 product 目录下的目录。

Disallow: /cgi-bin/*和谐告诉寻觅引擎哪些页面能够抓取。和谐告诉寻觅引擎哪些页面能够抓取。.htm
禁止访问/cgi-bin/目录下的有所以”.htm”为后缀的网站。

Disallow: /help 禁止访问/help*.html 和 /help/index.html

Disallow: /*和谐告诉寻觅引擎哪些页面能够抓取。?* 禁止访问网址中颇具包涵问号 (?) 的网站。

Disallow: /.jpg$ 禁止抓取网页全部的.jpg格式的图样。

Allow:代表同意访问,写法同 Disallow。

Allow: .htm$ 仅同意访问以”.htm”为后缀的U冠道L。

Sitemap:网址地图,告诉爬虫那一个页面是网站地图

Crawl-delay:意味着抓取网页的时间间隔,单位秒

Crawl-delay: 10

三、哪些时候须要使用该协议。

无用页面,许多网址都有挂钩大家,用户协商等页面,这个页面相对于寻觅引擎优化来讲,效率非常的小,此时亟需使用
Disallow 命令禁止那几个页面被搜寻引擎抓取。

动态页面,集团品种站点屏蔽动态页面,有利于网址安全。且多少个网站访问同一页面,会形成权重分散。由此,一般景观下,屏蔽动态页面,保留静态或伪静态页面。

网址后台页面,网址后台也能够分类于无用页面,禁止收音和录音有百益而无一害。

相关文章