1.本教程默认认为您已经像我一样是个半吊子爬虫程序员

2.学习爬虫首先要懂得request,json,bs4,re,xpath,pymysql,random,time,文件相关,理解网络编程基本原理,懂得如何抓取url,知道抓包,并且分析url如何获取相关数据。

3.学习scrapy首先需要安装这款框架,打开cmd 输入pip -install scrapy

4.这框架会关联很多的库,百度教程有,很麻烦的,我用的第三方工具下载的:anaconda,安装环境后通过命令行就可直接安装所有关联。

5.好了,开始进入主题,介绍一下scrapy,这款框架有url去重功能,支持高并发,快速集成使用,上手方便。

6.如何使用呢? 首先:创建工程,在命令行输入 scrapy startproject 项目名称

7.创建爬虫文件:scrapy genspider 文件名  要爬取网站的网址

8.文件创建好之后如何运行呢:命令运行,scrapy crawl 爬虫文件的名称(7的名称)

9.命令行比较麻烦,pytharm的运行创建文件start.py

# -*- coding: utf-8 -*-
from scrapy import cmdline
cmdline.execute(['scrapy','crawl','tlys'])

10.修改默认配置文件settings.py

# Obey robots.txt rules 不遵守爬虫协议
ROBOTSTXT_OBEY = False
#日志级别 清爽
LOG_LEVEL='WARN'
#请求头信息
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
} #爬虫延时,防止封号
DOWNLOAD_DELAY = 1

最新文章

  1. PHP 数组排序
  2. Failed to initialize the Common Language Runtime
  3. learning sql (second edition) script
  4. BZOJ1588 HNOI2002 营业额统计 [Splay入门题]
  5. Session赋值(备注)
  6. Shell脚本基础I
  7. requestFileSystem is undefined
  8. Google邮箱:Gmail国际顶级邮箱
  9. Android软键盘强制弹出,隐藏输入法.
  10. 慕课linux学习笔记(六)常用命令(3)
  11. 关闭Outlook的时候使之最小化
  12. matlab for循环的三种类型
  13. HDU 6092 Rikka with Subset
  14. Spring任务调度定时器
  15. window的Navigator 对象
  16. POJ3237 Tree 树链剖分 线段树
  17. 【分布式架构】“spring cloud”与“dubbo”微服务的对比
  18. springboot 初识
  19. [Assembly]汇编编写简易键盘记录器
  20. appium +uiautomator2 遇到 deviceName can't be blank 提示的解决

热门文章

  1. opencv中的exp32f函数
  2. Microsoft Porject Online 学习随手记一:环境创建和数据导入
  3. py3.8安装
  4. [no_code]OCR表格处理——功能规格说明书
  5. 算法:N-gram语法
  6. 好的编程习惯是减少bug最有效的方法
  7. 深入剖析Redis客户端Jedis的特性和原理
  8. 网关服务spring cloud zuul
  9. kafaka高效吞吐量-生产端,服务端,消费端
  10. Java学到什么程度能找到一份还不错的工作