scrapy基础知识之 CrawlSpiders(爬取腾讯校内招聘):
2024-08-27 19:50:15
import scrapy
from scrapy.spider import CrawlSpider,Rule
from scrapy.linkextractors import LinkExtractor
from tencent.items import TencentItem
class TencentSpider(CrawlSpider):
name = "Tencent"
allowed_domains = ["tencent.com"]
# url="http://hr.tencent.com/position.php?&start="
# offset=0
start_urls = [ "http://hr.tencent.com/position.php?&start=0#a"]
page_link=LinkExtractor(allow=("start=\d+"))
rules=[
Rule(page_link,callback = "parseContent",follow=True)
]
def parseContent(self, response):
list=response.xpath('//tr[@class="even"] | //tr[@class="odd"]')
for infos in list:
item=TencentItem()
item['positionname']=infos.xpath("./td[1]/a/text()").extract()[0]
item['positionlink']=infos.xpath("./td[1]/a/@href").extract()[0]
item['positionType']=infos.xpath("./td[2]/text()").extract()
item['positionNum']=infos.xpath("./td[3]/text()").extract()[0]
item['positionLocation']=infos.xpath("./td[4]/text()").extract()[0]
item['publishTime']=infos.xpath("./td[5]/text()").extract()[0]
yield item
运行: scrapy crawl Tencent
#注意:千万记住callback不能写 parse,由于CrawlSpider使用parse方法来实现其逻辑,如果覆盖了 parse方法,crawl spider将会运行失败
最新文章
- 【基于WinForm+Access局域网共享数据库的项目总结】之篇二:WinForm开发扇形图统计和Excel数据导出
- c# 获取项目的根目录
- 字体在网页中画ICON图标
- mysql 修改密码
- 该用 QGraphicsView ? QtQuick-QML ?
- int 和 string 相互转换(简洁版)
- EF架构~在T4模版中为所有属性加默认值
- iOS $299刀企业证书申请的过程以及细节补充
- iOS开发--Bison详解连连支付集成简书
- (转) error: linker command failed with exit code 1 (use -v to see invocation)
- Ubuntu中、英文环境设置
- 2017寒假零基础学习Python系列之函数之 编写函数
- JDBC数据源 使用JNDI连接池实现数据库的连接
- Js-函数式编程
- 使用 Browser-solidity 在 Go-Ethereum1.7.2 上进行简单的智能合约部署
- Linux服务器文件和windows本机文件互传方法(本地文件上传Linux,Linux文件下载到本机)
- FMDB源码解析
- SQLAlchemy 嵌套事务的解决方案
- BZOJ 1370: [Baltic2003]Gang团伙(luogu 1892)(种类并查集)
- [Python设计模式] 第22章 手机型号&;软件版本——桥接模式
热门文章
- socket 主机地址相关的函数
- 终端开发补充 : 读 curses模块官方文档...
- String,CString,TCHAR,char之间区别和联系
- 使用Netconf管理Cisco网络设备
- 超详细SQL SERVER 2016跨网段和局域网发布订阅配置图解和常见问题
- 使用MinGW编译Boost,MSVC编译Boost的几种链接方式 good
- DLL里面socket(Delphi的代码)
- firemonkey 手机屏幕自适应程序问题
- FMX+Win32,窗口无法保持原样,应该是个bug
- HTML连载12-体验CSS