爬虫进阶篇（一）scrapy

1.本教程默认认为您已经像我一样是个半吊子爬虫程序员

2.学习爬虫首先要懂得request，json，bs4,re,xpath，pymysql，random,time,文件相关，理解网络编程基本原理，懂得如何抓取url，知道抓包，并且分析url如何获取相关数据。

3.学习scrapy首先需要安装这款框架，打开cmd 输入pip -install scrapy

4.这框架会关联很多的库，百度教程有，很麻烦的，我用的第三方工具下载的：anaconda,安装环境后通过命令行就可直接安装所有关联。

5.好了，开始进入主题，介绍一下scrapy，这款框架有url去重功能，支持高并发，快速集成使用，上手方便。

6.如何使用呢？首先：创建工程，在命令行输入 scrapy startproject 项目名称

7.创建爬虫文件：scrapy genspider 文件名要爬取网站的网址

8.文件创建好之后如何运行呢：命令运行，scrapy crawl 爬虫文件的名称（7的名称）

9.命令行比较麻烦，pytharm的运行创建文件start.py

# -*- coding: utf-8 -*-

from scrapy import cmdline

cmdline.execute(['scrapy','crawl','tlys'])

10.修改默认配置文件settings.py

# Obey robots.txt rules 不遵守爬虫协议

ROBOTSTXT_OBEY = False

#日志级别 清爽

LOG_LEVEL='WARN'

#请求头信息

DEFAULT_REQUEST_HEADERS = {

  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

  'Accept-Language': 'en',

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'

}

#爬虫延时，防止封号

DOWNLOAD_DELAY = 1

巴特西

爬虫进阶篇（一）scrapy

最新文章

热门文章