创建项目 scrapy startproject choutiPro

创建爬虫文件  scrapy genspider -t crawl chouti www.xxx.com

进入pycharm 培训setting文件

配置UA 和robotstxt 配置

ROBOTSTXT_OBEY = False
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

爬虫代码 抽屉式120页码的数据实现爬取 
 
# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule class ChoutiSpider(CrawlSpider):
name = 'chouti'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://dig.chouti.com/r/scoff/hot/1']
#连接提取器:可以在起始的url对应的页面源码中提取指定符合要求的连接
#allow参数值表示的是一个正则表达式规则
Link = LinkExtractor(allow=r'/r/scoff/hot/\d+')
rules = (
#实例化了一个规则解析器对象
#follow True,会作用到没有个页码的中进行提取,这可以一直提取到页码所有页码链接
#同时调度去会给我们自动去重操作
Rule(Link, callback='parse_item', follow=True),
)
def parse_item(self, response):
#这里打印页码链接,可以进行详细解析每一个页码中数据
print(response)

最新文章

  1. [CLR via C#]25. 线程基础
  2. python基础使用
  3. vcffilter 工具bug以及解决办法
  4. Flex 教程(1)-------------控件拖动
  5. MVC Model Binder
  6. iOS使用sqlite3原生语法进行增删改查以及FMDB的使用
  7. 利用微信公众平台实现自动回复消息—java版
  8. git 创建分支,删除分支,管理分支
  9. Win7+CentOS双系统(二)
  10. 转:运行page页面时的事件执行顺序及页面的回发与否深度了解
  11. SourceTree安装跳过注册
  12. 越来越火的"中台"是什么
  13. Ubuntu 16.04 使用校园网客户端上网
  14. spring boot + vue + element-ui全栈开发入门——前端编辑数据对话框
  15. Go 字符串连接+=与strings.Join性能对比
  16. DLL加载顺序
  17. 《JavaScript-The Definitive Guide》读书笔记:字符串常用方法
  18. 语音识别bug
  19. 10.2-uC/OS-III内部任务管理(任务状态)
  20. 总结:独立开发 jar 包组件——功能主要是支持查询数据库的所有表数据

热门文章

  1. 重写MPAndroidChart显示标记
  2. 最短路径----SPFA算法
  3. Frame Stacking ZOJ 1083,poj 1128
  4. The python programing language
  5. 4.STL六大组件
  6. PostgreSQL Replication之第七章 理解Linux高可用(5)
  7. Xor Sum 2(位运算)
  8. day01-Python介绍,安装,idea
  9. NodeJS学习笔记 (26)命令行设计-repl
  10. Linux Shell脚本编程-基础2