试例网站:豆瓣电影TOP250:http://movie.douban.com/top250

关键点:在审查元素下查看后页即可以看到跳转的url。而且最后一页就此属性就没有了。

由于关键是实现分页,所以只爬取title:

目录:

items.py:

只需要加一个title就行

dbmspider.py:

 # -*- coding: utf-8 -*-
from dbmovie.items import DbmovieItem
from scrapy.contrib.spiders import CrawlSpider
from scrapy.http import Request class TopMovie(CrawlSpider):
name = "dbmovie"
allowed_domains = ["movie.douban.com"]
start_urls=['http://movie.douban.com/top250']
url = 'http://movie.douban.com/top250'
def parse(self,response):
item = DbmovieItem()
Movie = response.xpath('//div[@class="info"]')
for eachMovie in Movie:
title = eachMovie.xpath('//a[contains(@href,"http://movie.douban.com/subject/")]/span[1]/text()').extract()
item['title'] = title
# print item
yield item nextLink = response.xpath('//span[@class="next"]/link/@href').extract()
if nextLink:
nextLink = nextLink[0]
print nextLink
yield Request(self.url+nextLink,callback = self.parse)

*todo:用start_request()方法以及callback函数双向循环实现。

最新文章

  1. Qt 拷贝文件目录
  2. webApi 导入Excel
  3. noip2011普及组——数字反转
  4. TF卡座(外焊、内焊、掀盖式、全塑、简易)
  5. 在web浏览器中判断app是否安装并直接打开
  6. C++ Primer 学习笔记_44_STL实践与分析(18)--再谈迭代器【下】
  7. 为什么在 Linux 系统中,不建议超频
  8. 【Android】AndroidManifest 中original-package标签
  9. leetcode python 010
  10. 【2017-03-13】Tsql 表连接
  11. mysql引擎问题
  12. js实现字符串一个一个依次显示
  13. zabbix日常监控项TCP连接状态(六)
  14. Websocket——Websocket原理
  15. 【laravel54】关于用户权限认证RBAC和无限极分类
  16. jQuery请求维基百科[历史上的今天]
  17. vista风格的cms企业html后台管理系统模板——后台
  18. 一台ECS服务器,部署多(两)应用,且应用配置不同域名
  19. git diff提示filemode发生改变解决办法
  20. 数据访问层 (DAO)

热门文章

  1. 武汉科技大学ACM:1010: 电话号码
  2. 武汉科技大学ACM:1003: 看美女
  3. 若后台的Activity被系统回收...
  4. js 音乐
  5. BOM头问题
  6. CentOS下建立本地YUM源并自动更新
  7. twsited(5)--不同模块用rabbitmq传递消息
  8. css3 之表格隔行分色显示
  9. owncloud乱码问题
  10. rnqoj-28-合唱队形-最长上升子序列