主要作用是告诉蜘蛛爬虫该网站下哪些内容能抓取,哪些内容不能抓取。虽然可以没有robots.txt这个文件,默认就抓取该网站的所有文件,对搜索引擎爬虫没有任何的影响,但是如果你想控制蜘蛛的检索间隔,你就必须用robots.txt来控制。

robots.txt不是一种规范,是约定俗成的,主流的搜索引擎都是遵循robots.txt的规则来索引页面,但是一些spam爬虫不会遵循,所以说robots.txt只能防君子,不能防小人,如果目录下有隐私的文件夹,建议设置密码或者登陆用户才能访问。

robots.txt基本用法

User-agent

User-agent是用来匹配爬虫的,每个爬虫都会有一个名字,如果你有安装awstats统计工具,你就能查看到爬虫的名字,比如百度的爬虫叫BaiDuSpider,Google的爬虫叫Googlebot,*表示所有爬虫。

 

Disallow

Disallow表示禁止爬虫访问的目录。Disallow: / 表示拦截整站。

Allow

Allow表示允许爬虫访问的目录。Allow: / 表示允许整站。

Sitemap

Sitemap用来指定sitemap的位置。

Crawl-delay

Crawl-delay用来告诉爬虫两次访问的间隔,单位是秒。爬虫如果爬得很勤,对动态网站来说,压力有点大,可能会导致服务器负载增高,用户访问变慢。

在计算Crawl-delay时间的时候,要稍微计算一下,ysearchblog上有篇日志,介绍得很清楚。

通配符|wildcard match

*:匹配任意多个字符

$:表示URL的结尾

注意|notice

  • URL区分大小写,所以 /abc/ 和 /Abc/ 表示不同的目录。
  • 后面有没有斜杠也是不一样的,/private 和 /private/也表示两个不同的地址。

例子|examples

不管是Disallow,Allow还是Sitemap,每行只能写一条规则。Google本身就有一个robots.txt,值得大家参考。

拦截部分文件或目录

User-agent: * 
Disallow: /cgi-bin/ 
Disallow: /aaa.html

允许爬虫访问所有的目录,有两种写法

User-agent: * 
Disallow:

User-agent: * 
Allow: /

通配符的使用,拦截.gif文件

User-agent: * 
Disallow: /*.gif$

拦截带有?的文件

User-agent: * 
Disallow: /*?

Sitemap例子

Sitemap: http://www.ezloo.com/sitemap.xml

最新文章

  1. 【Debian】非法关机后无法联网 connect: network is unreachable
  2. 运用DebugDiag诊断ASP.Net异常
  3. Django进阶篇(一)
  4. MATLAB的使用总结
  5. 分享零基础学习Hadoop方法
  6. Swift中的dispatch_once 单例模式
  7. 宏中"#"和"##"的用法
  8. Xcode export/upload error: Your session has expired. Please log in-b
  9. i&1、负数二进制
  10. VS2015 新Web项目(C#6)出现CS1617异常的解决
  11. LeetCode之“动态规划”:Edit Distance
  12. vue---条件与循环语句
  13. TypeScript基础类型,类实例和函数类型声明
  14. C# 本进程执行完毕后再执行下一线程
  15. React-redux-saga
  16. CentOS修改编码方式为zh_CN.UTF-8
  17. Nginx软件优化
  18. python3与python2的区别(目前遇到的)
  19. [Java初探实例篇02]__流程控制语句知识相关的实例练习
  20. Docker学习链接

热门文章

  1. 1.4.2 solr字段类型--(1.4.2.5)使用枚举字段
  2. [Javascript] 面向对象编程思想
  3. Android(java)学习笔记67:多线程程序练习
  4. 【阿里云产品公测】阿里云ACE配置全程图解,详细到不行!
  5. 【Python千问 1】Python核心编程(第二版)导读
  6. IOS开发UI篇之自动滚动图片
  7. 如何解决sql server 2008附加数据库失败
  8. rpm build error: invalid predicate
  9. Python之随机数
  10. Cookie和Session简介与区别