robots.txt用法
主要作用是告诉蜘蛛爬虫该网站下哪些内容能抓取,哪些内容不能抓取。虽然可以没有robots.txt这个文件,默认就抓取该网站的所有文件,对搜索引擎爬虫没有任何的影响,但是如果你想控制蜘蛛的检索间隔,你就必须用robots.txt来控制。
robots.txt不是一种规范,是约定俗成的,主流的搜索引擎都是遵循robots.txt的规则来索引页面,但是一些spam爬虫不会遵循,所以说robots.txt只能防君子,不能防小人,如果目录下有隐私的文件夹,建议设置密码或者登陆用户才能访问。
robots.txt基本用法
User-agent
User-agent是用来匹配爬虫的,每个爬虫都会有一个名字,如果你有安装awstats统计工具,你就能查看到爬虫的名字,比如百度的爬虫叫BaiDuSpider,Google的爬虫叫Googlebot,*表示所有爬虫。
Disallow
Disallow表示禁止爬虫访问的目录。Disallow: / 表示拦截整站。
Allow
Allow表示允许爬虫访问的目录。Allow: / 表示允许整站。
Sitemap
Sitemap用来指定sitemap的位置。
Crawl-delay
Crawl-delay用来告诉爬虫两次访问的间隔,单位是秒。爬虫如果爬得很勤,对动态网站来说,压力有点大,可能会导致服务器负载增高,用户访问变慢。
在计算Crawl-delay时间的时候,要稍微计算一下,ysearchblog上有篇日志,介绍得很清楚。
通配符|wildcard match
*:匹配任意多个字符
$:表示URL的结尾
注意|notice
- URL区分大小写,所以 /abc/ 和 /Abc/ 表示不同的目录。
- 后面有没有斜杠也是不一样的,/private 和 /private/也表示两个不同的地址。
例子|examples
不管是Disallow,Allow还是Sitemap,每行只能写一条规则。Google本身就有一个robots.txt,值得大家参考。
拦截部分文件或目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /aaa.html
允许爬虫访问所有的目录,有两种写法
User-agent: *
Disallow:
User-agent: *
Allow: /
通配符的使用,拦截.gif文件
User-agent: *
Disallow: /*.gif$
拦截带有?的文件
User-agent: *
Disallow: /*?
Sitemap例子
Sitemap: http://www.ezloo.com/sitemap.xml
最新文章
- 【Debian】非法关机后无法联网 connect: network is unreachable
- 运用DebugDiag诊断ASP.Net异常
- Django进阶篇(一)
- MATLAB的使用总结
- 分享零基础学习Hadoop方法
- Swift中的dispatch_once 单例模式
- 宏中";#";和";##";的用法
- Xcode export/upload error: Your session has expired. Please log in-b
- i&;1、负数二进制
- VS2015 新Web项目(C#6)出现CS1617异常的解决
- LeetCode之“动态规划”:Edit Distance
- vue---条件与循环语句
- TypeScript基础类型,类实例和函数类型声明
- C# 本进程执行完毕后再执行下一线程
- React-redux-saga
- CentOS修改编码方式为zh_CN.UTF-8
- Nginx软件优化
- python3与python2的区别(目前遇到的)
- [Java初探实例篇02]__流程控制语句知识相关的实例练习
- Docker学习链接
热门文章
- 1.4.2 solr字段类型--(1.4.2.5)使用枚举字段
- [Javascript] 面向对象编程思想
- Android(java)学习笔记67:多线程程序练习
- 【阿里云产品公测】阿里云ACE配置全程图解,详细到不行!
- 【Python千问 1】Python核心编程(第二版)导读
- IOS开发UI篇之自动滚动图片
- 如何解决sql server 2008附加数据库失败
- rpm build error: invalid predicate
- Python之随机数
- Cookie和Session简介与区别