Scrapy框架: 通用爬虫之XMLFeedSpider
2024-09-06 02:00:11
步骤01: 创建项目
scrapy startproject xmlfeedspider
步骤02: 使用XMLFeedSpider模版创建爬虫
scrapy genspider -t xmlfeed jobbole jobbole.com
步骤03: 修改items.py
import scrapy
class JobboleItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
# 文章标题
title = scrapy.Field()
# 发表日期
public_date = scrapy.Field()
# 文章链接
link = scrapy.Field()
步骤04: 配置爬虫文件jobbole.py
# -*- coding: utf-8 -*-
from scrapy.spiders import XMLFeedSpider
# 导入item
from xmlfeedspider.items import JobboleItem
class JobboleSpider(XMLFeedSpider):
name = 'jobbole'
allowed_domains = ['jobbole.com']
start_urls = ['http://top.jobbole.com/feed/']
iterator = 'iternodes' # 迭代器,不指定的话默认是iternodes
itertag = 'item' # 抓取item节点
def parse_node(self, response, selector):
item = JobboleItem()
item['title'] = selector.css('title::text').extract_first()
item['public_date'] = selector.css('pubDate::text').extract_first()
item['link'] = selector.css('link::text').extract_first()
return item
最新文章
- Learn ZYNQ (8)
- 转 makefile
- hdu4932 Miaomiao's Geometry
- CodeForces 560B Gerald is into Art
- Oracle学习第一天---安装和基础入门
- bzoj 3858: Number Transformation 暴力
- IOS支付宝支付出现6002问题的解决办法
- android 数据存储分配的一些事
- Python抓取第一网贷中国网贷理财每日收益率指数
- CCNP-3.vlan间路由及三层交换机的配置
- 005_elasticsearch的数据导入导出
- Confluence 6 通过 SSL 或 HTTPS 运行 - 确定你的证书路径
- windows C++删除非空文件夹
- Centos6.5使用yum安装svn
- 用pymysql操作MySQL数据库
- App.Config自定义配置节点
- shell开源跳板机sshstack
- Mongodb主从复制 及 副本集+分片集群梳理
- MFC相关函数汇总(持续汇总跟新中)
- Java使用HTTP编程模拟多参数多文件表单信息的请求与处理