3:url无规律的多页面爬取
2024-09-25 16:00:05
试例网站:豆瓣电影TOP250:http://movie.douban.com/top250
关键点:在审查元素下查看后页即可以看到跳转的url。而且最后一页就此属性就没有了。
由于关键是实现分页,所以只爬取title:
目录:
items.py:
只需要加一个title就行
dbmspider.py:
# -*- coding: utf-8 -*-
from dbmovie.items import DbmovieItem
from scrapy.contrib.spiders import CrawlSpider
from scrapy.http import Request class TopMovie(CrawlSpider):
name = "dbmovie"
allowed_domains = ["movie.douban.com"]
start_urls=['http://movie.douban.com/top250']
url = 'http://movie.douban.com/top250'
def parse(self,response):
item = DbmovieItem()
Movie = response.xpath('//div[@class="info"]')
for eachMovie in Movie:
title = eachMovie.xpath('//a[contains(@href,"http://movie.douban.com/subject/")]/span[1]/text()').extract()
item['title'] = title
# print item
yield item nextLink = response.xpath('//span[@class="next"]/link/@href').extract()
if nextLink:
nextLink = nextLink[0]
print nextLink
yield Request(self.url+nextLink,callback = self.parse)
*todo:用start_request()方法以及callback函数双向循环实现。
最新文章
- Qt 拷贝文件目录
- webApi 导入Excel
- noip2011普及组——数字反转
- TF卡座(外焊、内焊、掀盖式、全塑、简易)
- 在web浏览器中判断app是否安装并直接打开
- C++ Primer 学习笔记_44_STL实践与分析(18)--再谈迭代器【下】
- 为什么在 Linux 系统中,不建议超频
- 【Android】AndroidManifest 中original-package标签
- leetcode python 010
- 【2017-03-13】Tsql 表连接
- mysql引擎问题
- js实现字符串一个一个依次显示
- zabbix日常监控项TCP连接状态(六)
- Websocket——Websocket原理
- 【laravel54】关于用户权限认证RBAC和无限极分类
- jQuery请求维基百科[历史上的今天]
- vista风格的cms企业html后台管理系统模板——后台
- 一台ECS服务器,部署多(两)应用,且应用配置不同域名
- git diff提示filemode发生改变解决办法
- 数据访问层 (DAO)