爬虫进阶篇(一)scrapy
2024-08-31 13:20:12
1.本教程默认认为您已经像我一样是个半吊子爬虫程序员
2.学习爬虫首先要懂得request,json,bs4,re,xpath,pymysql,random,time,文件相关,理解网络编程基本原理,懂得如何抓取url,知道抓包,并且分析url如何获取相关数据。
3.学习scrapy首先需要安装这款框架,打开cmd 输入pip -install scrapy
4.这框架会关联很多的库,百度教程有,很麻烦的,我用的第三方工具下载的:anaconda,安装环境后通过命令行就可直接安装所有关联。
5.好了,开始进入主题,介绍一下scrapy,这款框架有url去重功能,支持高并发,快速集成使用,上手方便。
6.如何使用呢? 首先:创建工程,在命令行输入 scrapy startproject 项目名称
7.创建爬虫文件:scrapy genspider 文件名 要爬取网站的网址
8.文件创建好之后如何运行呢:命令运行,scrapy crawl 爬虫文件的名称(7的名称)
9.命令行比较麻烦,pytharm的运行创建文件start.py
# -*- coding: utf-8 -*-
from scrapy import cmdline
cmdline.execute(['scrapy','crawl','tlys'])
10.修改默认配置文件settings.py
# Obey robots.txt rules 不遵守爬虫协议
ROBOTSTXT_OBEY = False
#日志级别 清爽
LOG_LEVEL='WARN'
#请求头信息
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
} #爬虫延时,防止封号
DOWNLOAD_DELAY = 1
最新文章
- PHP 数组排序
- Failed to initialize the Common Language Runtime
- learning sql (second edition) script
- BZOJ1588 HNOI2002 营业额统计 [Splay入门题]
- Session赋值(备注)
- Shell脚本基础I
- requestFileSystem is undefined
- Google邮箱:Gmail国际顶级邮箱
- Android软键盘强制弹出,隐藏输入法.
- 慕课linux学习笔记(六)常用命令(3)
- 关闭Outlook的时候使之最小化
- matlab for循环的三种类型
- HDU 6092 Rikka with Subset
- Spring任务调度定时器
- window的Navigator 对象
- POJ3237 Tree 树链剖分 线段树
- 【分布式架构】“spring cloud”与“dubbo”微服务的对比
- springboot 初识
- [Assembly]汇编编写简易键盘记录器
- appium +uiautomator2 遇到 deviceName can't be blank 提示的解决