步骤01: 创建项目

scrapy startproject xmlfeedspider

步骤02: 使用XMLFeedSpider模版创建爬虫

scrapy genspider -t xmlfeed jobbole jobbole.com

步骤03: 修改items.py

import scrapy

class JobboleItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
# 文章标题
title = scrapy.Field()
# 发表日期
public_date = scrapy.Field()
# 文章链接
link = scrapy.Field()

步骤04: 配置爬虫文件jobbole.py

# -*- coding: utf-8 -*-
from scrapy.spiders import XMLFeedSpider
# 导入item
from xmlfeedspider.items import JobboleItem class JobboleSpider(XMLFeedSpider):
name = 'jobbole'
allowed_domains = ['jobbole.com']
start_urls = ['http://top.jobbole.com/feed/']
iterator = 'iternodes' # 迭代器,不指定的话默认是iternodes
itertag = 'item' # 抓取item节点 def parse_node(self, response, selector):
item = JobboleItem()
item['title'] = selector.css('title::text').extract_first()
item['public_date'] = selector.css('pubDate::text').extract_first()
item['link'] = selector.css('link::text').extract_first()
return item

最新文章

  1. Learn ZYNQ (8)
  2. 转 makefile
  3. hdu4932 Miaomiao's Geometry
  4. CodeForces 560B Gerald is into Art
  5. Oracle学习第一天---安装和基础入门
  6. bzoj 3858: Number Transformation 暴力
  7. IOS支付宝支付出现6002问题的解决办法
  8. android 数据存储分配的一些事
  9. Python抓取第一网贷中国网贷理财每日收益率指数
  10. CCNP-3.vlan间路由及三层交换机的配置
  11. 005_elasticsearch的数据导入导出
  12. Confluence 6 通过 SSL 或 HTTPS 运行 - 确定你的证书路径
  13. windows C++删除非空文件夹
  14. Centos6.5使用yum安装svn
  15. 用pymysql操作MySQL数据库
  16. App.Config自定义配置节点
  17. shell开源跳板机sshstack
  18. Mongodb主从复制 及 副本集+分片集群梳理
  19. MFC相关函数汇总(持续汇总跟新中)
  20. Java使用HTTP编程模拟多参数多文件表单信息的请求与处理

热门文章

  1. Spring Data Redis实战之提供RedisTemplate
  2. cronsun任务管理器部署文档
  3. XMPP即时通讯协议使用(八)——基于订阅发布实现消息流转业务泳道图
  4. 20180119-01-RACSignal的基础
  5. IBM IMM默认ID
  6. Swift--Unmanaged使用
  7. OkHttp源码剥离导入到eclipse中
  8. day20 python异常处理 try except
  9. C/C++ cJSON 使用实例
  10. 苹果的AR赌注仍然有很多需要证明的