爬虫是目前最常见的网络程序,曾经有过统计,说是目前的网络流量有一半以上是爬虫使用的。虽然爬虫程序随处可见,但是并不代表这种做法就是合理合法的。

在抓取网页时,我们要让自己的爬虫遵守Robot.txt协议。一般网站有两种方式声明不想被爬虫爬取按:第一种是在站点的根目录下增加一个纯文本文件,例如http://www.aaa.com/robots.txt。第二种是直接在页面中使用robots的meta标签。

接下来,详细介绍一下robots的meta标签。标签有四类:index、noindex、follow、nofollow。使用时以逗号分隔。

index指令:表示Robot可以索引本页;
follow指令:表示Robot可以跟踪本页链接;
noindex指令:表示拒绝Robot索引本页,但可跟踪该页上的链接;
nofollow指令:表示拒绝Robot跟踪本页链接,但可索引本页

根据以上的命令,我们就有了一下的四种组合:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">:可以抓取本页,而且可以顺着本页继续索引别的链接
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">:不许抓取本页,但是可以顺着本页抓取索引别的链接
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">:可以抓取本页,但是不许顺着本页抓取索引别的链接
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">:不许抓取本页,也不许顺着本页抓取索引别的链接。

这里需要注意的是,不要把两个对立的反义词写到一起,例如

<META NAME="ROBOTS" CONTENT="INDEX,NOINDEX">

还有一点,禁止搜索引擎建立快照。

<meta name="robots" content="noarchive">

以上的一段代码限制了所有的搜索引擎建立你的网页快照。如果我们需要仅仅限制一个搜索引擎建立快照的话,就可以像如下这样去写

<meta name="Googlebot" content="noarchive">

这样的标记是禁止搜索引擎为你的网站建立快照。

最新文章

  1. Java中的多态
  2. iOS 保存、读取与应用状态
  3. linux基础知识与技能3
  4. 【转】mysql的cardinality异常,导致索引不可用
  5. gitlab 配置
  6. [UML]转:浅谈UML的概念和模型之UML九种图
  7. VS中的路径宏 vc++中OutDir、ProjectDir、SolutionDir各种路径 转
  8. [leetcode]352. Data Stream as Disjoint Intervals
  9. iscc2016 pwn部分writeup
  10. struts2在result中使用el表达式碰到的问题
  11. c#中反射
  12. DotNetCore跨平台~发布脚本PowerShell的设计
  13. centos6 内核优化
  14. 使用邮件监控Mxnet训练
  15. bzoj 5495
  16. Puppet部署Nginx返代示例
  17. mysql 如何优化left join
  18. Docker简介以及操作
  19. Java语法基础学习DayTwelve(泛型)
  20. json 不能 dumps datetime 解决办法

热门文章

  1. 20145307第二次JAVA学习实验报告
  2. MySQL 删除重复记录
  3. 使用Nginx搭建图片服务器(windows)
  4. Java虚拟机组成详解
  5. ADC和RTC的寄存器的读取
  6. jQuery 获取Select选择的Text和 Value
  7. gem doorkeeper(4000✨) ,Go-rails视频
  8. LeetCode 380. Insert Delete GetRandom O(1)
  9. 5.彻底理解volatile
  10. js判断回车,判断焦点控件