robots.txt 文件说明

robots其实就是指Robots协议，Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取
搜索引擎蜘蛛来到我们的网站时，第一个访问的文件就是robots.txt文件，如果网站没有robots.txt,就默认搜索引擎可以抓取网站里所有的内容。

文件包含内容：

User-agent: 搜索引擎蜘蛛的名称

Disallow: 既要拦截的部分

Allow : 允许搜索的部分

Sitemap: 网站地图

作用：

1 设置禁止搜索引擎访问的页面，如后台页面，搜索结果页面，静态页面，重复的页面。低质量 或者不希望被收录的网页。

2 告诉搜索引擎网站地图在哪

3 如果不设置，，会使用搜索引擎匹配到很多无用的信息，会降低该网站的权重，影响该网站的排行等

示例

    一、

　　User-agent: *（定义所有搜索引擎）

　　User-agent: Googlebot （定义谷歌，只允许谷歌蜘蛛爬取）

　　User-agent: Baiduspider  （定义百度，只允许百度蜘蛛爬取）

　　不同的搜索引擎的搜索机器人有不同的名称，谷歌:Googlebot、百度:Baiduspider、MSN:MSNbot、Yahoo:Slurp。

　　二、Disallow:（用来定义禁止蜘蛛爬取的页面或目录）

　　示例：

　　　　Disallow: /（禁止蜘蛛爬取网站的所有目录 "/" 表示根目录下）

　　　　Disallow: /admin （禁止蜘蛛爬取admin目录）

　　　　Disallow: /abc.html （禁止蜘蛛爬去abc.html页面）

　　　　Disallow: /help.html （禁止蜘蛛爬去help.html页面）

        Disallow: /search?1.html （？禁止这个开头的页面）

　　三、Allow:（用来定义允许蜘蛛爬取的页面或子目录）

　　示例：

　　　　Allow: /admin/test/（允许蜘蛛爬取admin下的test目录）

　　　　Allow: /admin/abc.html（允许蜘蛛爬去admin目录中的abc.html页面）

　　两个通配符如下：

　　四、匹配符 “$”

　　　　$ 通配符：匹配URL结尾的字符

　　五、通配符 “*”

　　　　* 通配符：匹配0个或多个任意字符

        Disallow: *-*  屏蔽全站url内带有的 - 的链接

巴特西

robots.txt 文件说明

文件包含内容：

最新文章

热门文章