爬虫基础 - Robots协议
2024-10-21 13:13:41
Robots协议
指定一个robots.txt文件,告诉爬虫引擎怎么爬取
https://www.taobao.com/robots.txt
User-agent: Baiduspider
Allow: /article
Allow: /oshtml
Allow: /ershou
Allow: /$
Disallow: /product/
Disallow: / User-Agent: Googlebot
Allow: /article
Allow: /oshtml
Allow: /product
Allow: /spu
Allow: /dianpu
Allow: /oversea
Allow: /list
Allow: /ershou
Allow: /$
Disallow: / User-agent: Bingbot
Allow: /article
Allow: /oshtml
Allow: /product
Allow: /spu
Allow: /dianpu
Allow: /oversea
Allow: /list
Allow: /ershou
Allow: /$
Disallow: / User-Agent: 360Spider
Allow: /article
Allow: /oshtml
Allow: /ershou
Disallow: / User-Agent: Yisouspider
Allow: /article
Allow: /oshtml
Allow: /ershou
Disallow: / User-Agent: Sogouspider
Allow: /article
Allow: /oshtml
Allow: /product
Allow: /ershou
Disallow: / User-Agent: Yahoo! Slurp
Allow: /product
Allow: /spu
Allow: /dianpu
Allow: /oversea
Allow: /list
Allow: /ershou
Allow: /$
Disallow: / User-Agent: *
Disallow: /
其他爬虫,不允许爬取
User-Agent: *
DisalloW: /
这是一个君子协定,'爬亦有道'
这个协议为了让搜索引擎更有效搜索自己的内容
最新文章
- 认识http协议
- 9.12 其他样式;JS
- C# Bridge Pattern(Handle/Body)
- Backbone学习笔记一Backbone中的MVC
- Linux下文件的权限
- 通过移位与或非运算获取整形最大值,最小值,以及获取输入的int类型整数的二进制表示
- ok6410驱动usb摄像头
- poj1751最小生成树
- npm install 时报错 Unexpected end of input at 1:15930
- DS4700电池更换步骤
- Poi2010 Monotonicity 2
- RBAC权限管理系统
- 你所误解的微信公众号开发、以及微信公众号网页授权、接收url跳转参数等问题
- docker 系列 - 基础镜像环境和Docker常用命令整理
- NOIP2017提高组Day1T3 逛公园 洛谷P3953 Tarjan 强连通缩点 SPFA 动态规划 最短路 拓扑序
- squid代理允许FTP访问设置
- winform,WPF 释放内存垃圾,减少资源占用方法
- 【mybatis源码学习】利用maven插件自动生成mybatis代码
- MySQL基础之 视图
- yield, async
热门文章
- HttpClient三种不同的服务器认证客户端方案
- htaccess文件中RewriteRule 规则参数介绍
- doDBA 监控用法
- mysql中,如何查看数据库元数据(metadata)的字符集?
- mysql的引擎myisam和innodb的区别
- linux下安装pip以及导入第三方包
- Python 入门(十)列表生成式
- redis安装之zmalloc.h:55:2: error: #error ";Newer version of jemalloc required";错误
- Python 使用正则表达式匹配电话号码
- React的setState如何实现同步处理数据