Spider在抓取您的网站之前,会访问您的robots.txt 文件,以确定您的网站是否会阻止 蜘蛛抓取任何网页或网址。如果您的 robots.txt 文件存在但无法访问(也就是说,如果它没有返回 200 或 404 HTTP 状态代码),我们就会推迟抓取,以免抓取到禁止网址。在上述情况下,蜘蛛会在成功访问您的 robots.txt 文件后立即返回您的网站并进行抓取。

只有当您的网站包含您不想让搜索引擎编入索引的内容时,才需要使用 robots.txt 文件。如果您希望搜索引擎将网站上的所有内容都编入索引,就无需要使用 robots.txt 文件,甚至连空的 robots.txt 文件也不需要。如果您没有 robots.txt 文件,那么您的服务器会在 蜘蛛 请求该文件时返回 404,我们就会继续抓取您的网站。这不会出现任何问题。

最新文章

  1. DotNet Run 命令介绍
  2. [收集]MVC3 HTML辅助方法集录
  3. iOS开发_数据存储方式
  4. jsp和servlet中文乱码
  5. Python 2.7下载地址
  6. request的各种方法大全
  7. 生成短链(网址) ShortUrlLink
  8. dl dt dd定义
  9. jenkins创建job不能用中文问题
  10. Aisen仿新浪微博客户端项目源码
  11. iOS 深复制&浅复制
  12. Dynamics CRM 2016 使用Plug-in Trace Log调试插件
  13. H264格式具体说明
  14. CentOS7 install vsftpd
  15. 简单的字符串比较题 POJ 1936
  16. 全面认识golang string
  17. FortiGate高校图书馆SSLvpn配置案例
  18. Django中条件过滤:按时间筛选
  19. mysql数据库导出CSV乱码问题
  20. 查看Linux 、Nginx、 MySQL 、 PHP 版本的方法

热门文章

  1. 用枚举来处理java自定义异常
  2. HTML:Event [转]
  3. 基于apache httpclient 调用Face++ API
  4. 【转】Android开发之数据库SQL
  5. 前端MVC Vue2学习总结(三)——模板语法、过滤器、计算属性、观察者、Class 与 Style 绑定
  6. 安装卸载selenium
  7. java8 新特性入门 stream/lambda
  8. OC学习11——循环引用与@class
  9. 前端开发必备之MDN文档
  10. TensorFlow文档翻译-01-TensorFlow入门