scrapy-items
2024-08-25 10:15:09
items定义字段名字
import scrapy class HrItem(scrapy.Item):
# define the fields for your item here like:
title = scrapy.Field()
position = scrapy.Field()
pub_date = scrapy.Field()
当怕爬取到数据时
item = HrItem()
item['title'] = data.xpath("./td[1]/a/text()").extract_first()
item['position'] = data.xpath("./td[2]/text()").extract_first()
item['pub_date'] = data.xpath("./td[5]/text()").extract_first()
pipelines储存进mongodb, 需将数据转换成dict
from pymongo import MongoClient
client = MongoClient()
collection = client['SpiderAnything']['hr'] # 库名 表名 class SpideranythingPipeline(object):
def process_item(self, item, spider):
if isinstance(item, HrItem): # 判断对象 选择管道
print(item)
collection.insert(dict(item))
return item
最新文章
- [Computational Advertising] 计算广告学笔记之基础概念
- GCD
- mysql的DISABLE/ENABLE KEYS
- 今天无意发现jquery的一个以前的误导
- win10下iis部署asp.net core rtm
- tools:context=";.MainActivity的作用(转)
- 【Python】[函数式编程]高阶函数,返回函数,装饰器,偏函数
- Good subsequence( RMQ+二分)
- 9.21 investments - chapter 4 - Summary
- 从源代码角度分析ViewStub 疑问与原理
- sqlserver存储过程中,set rowcount 0是什么意思?
- jenkins+docker+maven+svn
- Android HandlerThread使用介绍以及源码解析
- 图片下载、渲染操作 小例子 看多FutureTask
- 一致性哈希算法----nginx负载均衡器配置之一
- ef中文文档
- mysql-修改字段类型和修改字段名称
- python第二十九课——文件读写(复制文件)
- [SpringBoot] - 上线一份项目记录
- CentOS 6.4 添加永久静态路由所有方法汇总(原创)
热门文章
- HDFS API编程
- jquery常用实例
- LAMP架构(三)
- BootstrapValidator . select 必须选择一个 .callback . select .option
- 神州数码静态路由及直连网段引入到RIP协议配置(路由重定向)
- Java多线程入门中几个常用的方法
- mac下pycharm快捷键
- PythonStudy——Python 内存池机制 (Memory pool mechanism) Pymalloc
- iOS兼容性(不断完善)
- confluence6.3.1升级最新版本(6.15.1)