大多数网站都会定义robots.txt文件来限制爬虫爬去信息,我们在爬去网站之前可以使用robots.txt来查看的相关限制信息

例如:

我们以【CSDN博客】的限制信息为例子

在浏览器输入:https://blog.csdn.net/robots.txt

获取到信息如下:

从上图我们可以看出:

①该网站无论用户使用哪种代理都允许爬取

②但是当爬取/css,/images…等链接的时候是禁止的

③我们可以看到还存在一个网址Sitemap,j具体解析如下:

网站提供的Sitemap文件(即网站地图)可以帮助网站定位最新的内容,则无须爬取每一个网页,虽然Sitemap文件提供了一种爬取网站的有效方式,但是我们仍然需要对其谨慎处理,因为该文件经常存在缺失,过期和不完整。

最新文章

  1. Mono+Jexus部署C# MVC的各种坑
  2. Python的数据类型
  3. Wakez计算与压缩的思考
  4. [转]Design Pattern Interview Questions - Part 4
  5. 2种方式解决nginx负载下的Web API站点里swagger无法使用
  6. Eclipse启动时选择workspace设置
  7. 使用yum来安装或卸载CentOS图形界面包
  8. 前端里神奇的BFC 原理剖析
  9. WebView注入Java对象注意事项
  10. 使用 IntraWeb (42) - 测试读取 SqLite (一)
  11. Google Developers中国网站
  12. MVC View基础(转)
  13. js获取手机重力感应api
  14. iScroll的简单使用
  15. Java学习笔记(5)
  16. SpringBoot之整合Mybatis范例
  17. 【Cocos2d-html5】运动中速度效果
  18. Uva 12124 Uva Live 3971 - Assemble 二分, 判断器, g++不用map.size() 难度:0
  19. redis 简介,安装与部署
  20. linux操作系统基础讲解

热门文章

  1. 吊销openvpn证书
  2. Windows和Ubuntu平台Android +JAVA 环境搭建
  3. opencv图像的旋转
  4. POJ 1321 棋盘问题 (DFS + 回溯)
  5. 51nod 更难的矩阵取数问题(动态规划)
  6. HDOJ 4903 The only survival
  7. POJ 1180 Batch Scheduling(斜率优化DP)
  8. python3开发进阶-Django框架的中间件的五种用法和逻辑过程
  9. NHibernate官方文档中文版——持久化类(Persistent Classes)
  10. 推荐一些不错的开源免费易上手的web前端框架