robots其实就是指Robots协议,Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取
搜索引擎蜘蛛来到我们的网站时,第一个访问的文件就是robots.txt文件,如果网站没有robots.txt,就默认搜索引擎可以抓取网站里所有的内容。

文件包含内容:

User-agent: 搜索引擎蜘蛛的名称
Disallow: 既要拦截的部分
Allow : 允许搜索的部分
Sitemap: 网站地图

作用:

1 设置禁止搜索引擎访问的页面,如后台页面,搜索结果页面,静态页面,重复的页面。低质量 或者不希望被收录的网页。
2 告诉搜索引擎网站地图在哪
3 如果不设置,,会使用搜索引擎匹配到很多无用的信息,会降低该网站的权重,影响该网站的排行等

示例

    一、
  User-agent: *(定义所有搜索引擎)
  User-agent: Googlebot (定义谷歌,只允许谷歌蜘蛛爬取)
  User-agent: Baiduspider (定义百度,只允许百度蜘蛛爬取)   不同的搜索引擎的搜索机器人有不同的名称,谷歌:Googlebot、百度:Baiduspider、MSN:MSNbot、Yahoo:Slurp。   二、Disallow:(用来定义禁止蜘蛛爬取的页面或目录)   示例:
    Disallow: /(禁止蜘蛛爬取网站的所有目录 "/" 表示根目录下)
    Disallow: /admin (禁止蜘蛛爬取admin目录)
    Disallow: /abc.html (禁止蜘蛛爬去abc.html页面)
    Disallow: /help.html (禁止蜘蛛爬去help.html页面)
Disallow: /search?1.html (?禁止这个开头的页面)   三、Allow:(用来定义允许蜘蛛爬取的页面或子目录)
  示例:
    Allow: /admin/test/(允许蜘蛛爬取admin下的test目录)
    Allow: /admin/abc.html(允许蜘蛛爬去admin目录中的abc.html页面)   两个通配符如下:   四、匹配符 “$”     $ 通配符:匹配URL结尾的字符   五、通配符 “*”     * 通配符:匹配0个或多个任意字符
Disallow: *-* 屏蔽全站url内带有的 - 的链接

最新文章

  1. javaScript条件控制语句
  2. 使用ssh连接远程主机
  3. 解决windows防火墙无法启动的问题
  4. K近邻分类算法实现 in Python
  5. Git Step by Step
  6. JS input file 转base64 JS图片预览
  7. 在向服务器发送请求时发生传输级错误。 (provider: TCP 提供程序, error: 0 - 远程主机强迫关闭了一个现有的连接。)
  8. 《java入门第一季》之Socket编程通信和TCP协议通信图解
  9. PHPWord导出word文档
  10. jquery和js检测浏览器窗口尺寸和分辨率
  11. 下载并配置jdk
  12. laravel5.4中验证与错误提示设置
  13. 构建之法——Team & Scrum & MSF
  14. 用delphi检查网络连接状态3种方式
  15. 如何查看 EBS 环境上的 INV RUP 版本号
  16. PHP判断ajax请求:HTTP_X_REQUESTED_WITH
  17. 【安全开发】Perl安全编码规范
  18. Codeforces 447D - DZY Loves Modification
  19. java基础35 双例集合Map及其常用方法
  20. .net core部署到linux

热门文章

  1. Vue框架:6、Vue组件间通信,动态组件,插槽,计算属性,监听属性
  2. 常见数据库mysql、oracle和DB2中is null 和 =null 的区别
  3. ViT简述【Transformer】
  4. location.search
  5. 基于Python的OpenGL 04 之变换
  6. idea代码格式xml
  7. 微信小程序与微信公众号之间支付问题解决方案
  8. Vue中如何实现在线预览word文件、excel文件
  9. Electron 应用图标修改
  10. web生命周期概览