1 import scrapy
2 import re
3 from fake_useragent import UserAgent
4
5
6 class DoubanSpider(scrapy.Spider):
7 name = "douban"
8 start_urls = ['https://movie.douban.com/top250', ]
9 custom_settings = {"USER_AGENT": UserAgent().random}
10
11 def parse(self, response):
12 for movie in response.xpath("//ol[@class='grid_view']/li"):
13
14 yield {
15 'Title': movie.xpath(".//span[@class='title']/text()").get(),
16 'Rating_num': movie.xpath(".//span[@class='rating_num']/text()").get(),
17 'Quote': movie.xpath(".//p[@class='quote']/span/text()").get()
18 }
19
20 next_page = response.xpath("//span[@class='next']/a/@href").get()
21 if next_page is not None:
22 yield response.follow(next_page, callback=self.parse)

scrapy runspider douban一层能解决.py -o douban.csv

最新文章

  1. iOS创建安全的单例
  2. faster_rcnn c++版本的 caffe 封装(1)
  3. alphaRGB 转 RGB、16位
  4. 自定义延时查询控件---valen
  5. c#怎么把byte转化成int
  6. Ubuntu消息菜单(MessagingMenu)API
  7. 虚拟攻防系统 HoneyPot
  8. Android项目开发全程(四)-- 将网络返回的json字符串轻松转换成listview列表
  9. Linux - 标准输入转换为标准输出 代码(C)
  10. Selectize使用总结
  11. DirectX11 With Windows SDK--13 动手实现一个简易Effects框架、阴影效果绘制
  12. python转义符
  13. ssh免密码快速登录配置
  14. loadrunner 脚本优化-事务时间简介
  15. 15.io流,递归
  16. @ControllerAdvice + @ExceptionHandler 全局处理 Controller 层异常==》记录
  17. ipconfig命令查ip的时候给别人看有危险吗
  18. 无法打开锁文件 /var/lib/dpkg/lock - open (13: 权限不够)
  19. dblink连接操作远程数据库
  20. shell 中 标准输出和错误输出

热门文章

  1. 深度学习论文翻译解析(十八):MobileNetV2: Inverted Residuals and Linear Bottlenecks
  2. 有趣的css—隐藏元素的7种思路
  3. JS:replace
  4. java校验导入的模板
  5. HTML字体
  6. flutter--Dart基础语法(三)类和对象、泛型、库
  7. xls与csv文件的区别
  8. Eclipse中配置Junit
  9. P3376 [模板] 网络最大流
  10. The Balance HDU - 1709 母函数(板子变化)