Robots协议

指定一个robots.txt文件,告诉爬虫引擎怎么爬取

https://www.taobao.com/robots.txt

User-agent:  Baiduspider
Allow: /article
Allow: /oshtml
Allow: /ershou
Allow: /$
Disallow: /product/
Disallow: / User-Agent: Googlebot
Allow: /article
Allow: /oshtml
Allow: /product
Allow: /spu
Allow: /dianpu
Allow: /oversea
Allow: /list
Allow: /ershou
Allow: /$
Disallow: / User-agent: Bingbot
Allow: /article
Allow: /oshtml
Allow: /product
Allow: /spu
Allow: /dianpu
Allow: /oversea
Allow: /list
Allow: /ershou
Allow: /$
Disallow: / User-Agent: 360Spider
Allow: /article
Allow: /oshtml
Allow: /ershou
Disallow: / User-Agent: Yisouspider
Allow: /article
Allow: /oshtml
Allow: /ershou
Disallow: / User-Agent: Sogouspider
Allow: /article
Allow: /oshtml
Allow: /product
Allow: /ershou
Disallow: / User-Agent: Yahoo! Slurp
Allow: /product
Allow: /spu
Allow: /dianpu
Allow: /oversea
Allow: /list
Allow: /ershou
Allow: /$
Disallow: / User-Agent: *
Disallow: /

其他爬虫,不允许爬取

User-Agent: *

DisalloW: /

这是一个君子协定,'爬亦有道'

这个协议为了让搜索引擎更有效搜索自己的内容

最新文章

  1. 认识http协议
  2. 9.12 其他样式;JS
  3. C# Bridge Pattern(Handle/Body)
  4. Backbone学习笔记一Backbone中的MVC
  5. Linux下文件的权限
  6. 通过移位与或非运算获取整形最大值,最小值,以及获取输入的int类型整数的二进制表示
  7. ok6410驱动usb摄像头
  8. poj1751最小生成树
  9. npm install 时报错 Unexpected end of input at 1:15930
  10. DS4700电池更换步骤
  11. Poi2010 Monotonicity 2
  12. RBAC权限管理系统
  13. 你所误解的微信公众号开发、以及微信公众号网页授权、接收url跳转参数等问题
  14. docker 系列 - 基础镜像环境和Docker常用命令整理
  15. NOIP2017提高组Day1T3 逛公园 洛谷P3953 Tarjan 强连通缩点 SPFA 动态规划 最短路 拓扑序
  16. squid代理允许FTP访问设置
  17. winform,WPF 释放内存垃圾,减少资源占用方法
  18. 【mybatis源码学习】利用maven插件自动生成mybatis代码
  19. MySQL基础之 视图
  20. yield, async

热门文章

  1. HttpClient三种不同的服务器认证客户端方案
  2. htaccess文件中RewriteRule 规则参数介绍
  3. doDBA 监控用法
  4. mysql中,如何查看数据库元数据(metadata)的字符集?
  5. mysql的引擎myisam和innodb的区别
  6. linux下安装pip以及导入第三方包
  7. Python 入门(十)列表生成式
  8. redis安装之zmalloc.h:55:2: error: #error "Newer version of jemalloc required"错误
  9. Python 使用正则表达式匹配电话号码
  10. React的setState如何实现同步处理数据