爬虫的规定

Robots协议

网站开发者对于网络爬虫的规范的公告,你可以不遵守可能存在法律风险,但尽量去遵守

Robots协议:在网页的根目录+robots.txt

Robots协议的基本语法:

#注释,*代表所有,/代表根目录
User-agent:* #user-agent代表来源
Allow:/ #代表运行爬取的内容
Disallow:/ #代表不可爬取的目录,如果是/后面没有写内容,便是其对应的访问者不可爬取所有内容

并不是所有网站都有Robots协议

如果一个网站不提供Robots协议,是说明这个网站对应所有爬虫没有限制

类人行为可以不参考robots协议,比如我们写的小程序访问量很少,内容也少但是内容不能用于商业用途

总的来说请准守Robots协议

最新文章

  1. 《FaceBook效应》——读后总结
  2. Redis学习-基础环境介绍(二)
  3. Brocade博科光纤交换机zone配置
  4. js为空的几种情况
  5. mybatis中表与表之间的关联
  6. ‘Cordova/CDVPlugin.h’ file not found
  7. BestCoder8 1001.Summary(hdu 4989) 解题报告
  8. ciancd开源
  9. ASP.NET发布WebService
  10. SCALA编程实例
  11. java异常处理练习
  12. (转载)Excel文档保存的时候,提示“文档未保存”
  13. Twisted介绍
  14. Linux下的getline函数
  15. 使用cacti监控服务器
  16. Entity Framework查询注意
  17. nginx php上传配置
  18. CCF CSP 201312-1 出现次数最多的数
  19. Ubuntu 16.04 卸载Postgresql
  20. js+正则+单双引号问题

热门文章

  1. Perl Scripts / 脚本
  2. isHiden和isVisible的区别(可是有nativeEvent进行设置)
  3. T4随记
  4. mysql数据库同步系统otter部署实践(中国与欧洲同步)
  5. Ionic 4 核心概念
  6. shell多线程之进程间通信
  7. 对shell脚本进行加密
  8. CTF练习资源大全集
  9. Google浏览器插件之闪存过滤器
  10. Python 爬虫从入门到进阶之路(十二)