items定义字段名字

import scrapy

class HrItem(scrapy.Item):
# define the fields for your item here like:
title = scrapy.Field()
position = scrapy.Field()
pub_date = scrapy.Field()

当怕爬取到数据时

            item = HrItem()
item['title'] = data.xpath("./td[1]/a/text()").extract_first()
item['position'] = data.xpath("./td[2]/text()").extract_first()
item['pub_date'] = data.xpath("./td[5]/text()").extract_first()

pipelines储存进mongodb, 需将数据转换成dict

from pymongo import MongoClient
client = MongoClient()
collection = client['SpiderAnything']['hr'] # 库名 表名 class SpideranythingPipeline(object):
def process_item(self, item, spider):
if isinstance(item, HrItem): # 判断对象 选择管道
print(item)
collection.insert(dict(item))
return item

最新文章

  1. [Computational Advertising] 计算广告学笔记之基础概念
  2. GCD
  3. mysql的DISABLE/ENABLE KEYS
  4. 今天无意发现jquery的一个以前的误导
  5. win10下iis部署asp.net core rtm
  6. tools:context=".MainActivity的作用(转)
  7. 【Python】[函数式编程]高阶函数,返回函数,装饰器,偏函数
  8. Good subsequence( RMQ+二分)
  9. 9.21 investments - chapter 4 - Summary
  10. 从源代码角度分析ViewStub 疑问与原理
  11. sqlserver存储过程中,set rowcount 0是什么意思?
  12. jenkins+docker+maven+svn
  13. Android HandlerThread使用介绍以及源码解析
  14. 图片下载、渲染操作 小例子 看多FutureTask
  15. 一致性哈希算法----nginx负载均衡器配置之一
  16. ef中文文档
  17. mysql-修改字段类型和修改字段名称
  18. python第二十九课——文件读写(复制文件)
  19. [SpringBoot] - 上线一份项目记录
  20. CentOS 6.4 添加永久静态路由所有方法汇总(原创)

热门文章

  1. HDFS API编程
  2. jquery常用实例
  3. LAMP架构(三)
  4. BootstrapValidator . select 必须选择一个 .callback . select .option
  5. 神州数码静态路由及直连网段引入到RIP协议配置(路由重定向)
  6. Java多线程入门中几个常用的方法
  7. mac下pycharm快捷键
  8. PythonStudy——Python 内存池机制 (Memory pool mechanism) Pymalloc
  9. iOS兼容性(不断完善)
  10. confluence6.3.1升级最新版本(6.15.1)