一层逻辑的网页scrapy爬虫
2024-10-19 05:54:32
1 import scrapy
2 import re
3 from fake_useragent import UserAgent
4
5
6 class DoubanSpider(scrapy.Spider):
7 name = "douban"
8 start_urls = ['https://movie.douban.com/top250', ]
9 custom_settings = {"USER_AGENT": UserAgent().random}
10
11 def parse(self, response):
12 for movie in response.xpath("//ol[@class='grid_view']/li"):
13
14 yield {
15 'Title': movie.xpath(".//span[@class='title']/text()").get(),
16 'Rating_num': movie.xpath(".//span[@class='rating_num']/text()").get(),
17 'Quote': movie.xpath(".//p[@class='quote']/span/text()").get()
18 }
19
20 next_page = response.xpath("//span[@class='next']/a/@href").get()
21 if next_page is not None:
22 yield response.follow(next_page, callback=self.parse)
scrapy runspider douban一层能解决.py -o douban.csv
最新文章
- iOS创建安全的单例
- faster_rcnn c++版本的 caffe 封装(1)
- alphaRGB 转 RGB、16位
- 自定义延时查询控件---valen
- c#怎么把byte转化成int
- Ubuntu消息菜单(MessagingMenu)API
- 虚拟攻防系统 HoneyPot
- Android项目开发全程(四)-- 将网络返回的json字符串轻松转换成listview列表
- Linux - 标准输入转换为标准输出 代码(C)
- Selectize使用总结
- DirectX11 With Windows SDK--13 动手实现一个简易Effects框架、阴影效果绘制
- python转义符
- ssh免密码快速登录配置
- loadrunner 脚本优化-事务时间简介
- 15.io流,递归
- @ControllerAdvice + @ExceptionHandler 全局处理 Controller 层异常==》记录
- ipconfig命令查ip的时候给别人看有危险吗
- 无法打开锁文件 /var/lib/dpkg/lock - open (13: 权限不够)
- dblink连接操作远程数据库
- shell 中 标准输出和错误输出