爬虫的盗亦有道Robots协议
2024-08-27 23:39:47
爬虫的规定
Robots协议
网站开发者对于网络爬虫的规范的公告,你可以不遵守可能存在法律风险
,但尽量去遵守
Robots协议:在网页的根目录+robots.txt
Robots协议的基本语法:
#注释,*代表所有,/代表根目录
User-agent:* #user-agent代表来源
Allow:/ #代表运行爬取的内容
Disallow:/ #代表不可爬取的目录,如果是/后面没有写内容,便是其对应的访问者不可爬取所有内容
并不是所有网站都有Robots协议
如果一个网站不提供Robots协议,是说明这个网站对应所有爬虫没有限制
类人行为
可以不参考robots协议,比如我们写的小程序访问量很少,内容也少但是内容不能用于商业用途
总的来说请准守Robots协议
最新文章
- 《FaceBook效应》——读后总结
- Redis学习-基础环境介绍(二)
- Brocade博科光纤交换机zone配置
- js为空的几种情况
- mybatis中表与表之间的关联
- ‘Cordova/CDVPlugin.h’ file not found
- BestCoder8 1001.Summary(hdu 4989) 解题报告
- ciancd开源
- ASP.NET发布WebService
- SCALA编程实例
- java异常处理练习
- (转载)Excel文档保存的时候,提示“文档未保存”
- Twisted介绍
- Linux下的getline函数
- 使用cacti监控服务器
- Entity Framework查询注意
- nginx php上传配置
- CCF CSP 201312-1 出现次数最多的数
- Ubuntu 16.04 卸载Postgresql
- js+正则+单双引号问题