实际应用中,我们有可能在启动 Scrapy 的时候自定义一些参数来控制不同的业务流程,Google 尝试了如下方式可以实现 。

修改 Spider 构造函数 

class myspider(Spider):

    # 爬虫名称
name = "myspider" # 构造函数
def __init__(self, tp=None, *args, **kwargs):
super(myspider, self).__init__(*args, **kwargs)
# scrapyd 控制 spider 的时候,可以向 schedule.json 发送 -d 选项加入参数
self.tp = tp # 开始地址 (与 start_requests 不能同时设置)
# start_urls = ['https://www.google.com'] # 定义请求的URL
def start_requests(self):
if self.tp == 'tp_news_spider':
yield self.make_requests_from_url(news_url)
else:
urls = []

命令行启动

scrapy crawl myspider -a tp=tp_news_spider
使用 Scrapyd 管理 Spider
可以向 schedule.json 发送 -d 选项加入参数
curl http://localhost:6800/schedule.json -d project=myproject -d spider=myspider -d setting=DOWNLOAD_DELAY=2 -d tp=tp_news_spider

Cron 控制

public async Task SchedulePollingTaskBackgroundJobAsync()
{
try
{
var response = await @"http://172.0.0.1:8080/schedule.json"
.WithBasicAuth("user", "pwd")
.PostUrlEncodedAsync(new { project = "myproject", spider = "myspider", tp = "tp_news_spider" })
.ReceiveString();
}
catch (Exception ex)
{ }
} //http://www.bejson.com/othertools/cronvalidate/
RecurringJob.AddOrUpdate(() => SchedulePollingTaskBackgroundJobAsync(), @"0/15 * * * * ?", TZConvert.GetTimeZoneInfo("Asia/Shanghai"));

REFER:
https://blog.csdn.net/Q_AN1314/article/details/50748700

最新文章

  1. Linux(五)__硬盘分区
  2. 软考之PV操作(同步)
  3. spring详解(1)
  4. 购买咏南中间件送客户端C/S和B/S开发框架
  5. 生成MD5的方法
  6. jQuery的live绑定事件在mobile safari(iphone / ipad / ipod)上失效的解决方案
  7. 正式学习React(一) 开始学习之前必读
  8. Java的wait(), notify()和notifyAll()使用心得(转)
  9. wamp虚拟服务器
  10. JAVA之旅(二十三)——System,RunTime,Date,Calendar,Math的数学运算
  11. OZCode
  12. LeetCode--021--合并两个有序链表(java)
  13. Bootstrap排版——HTML元素的样式重定义
  14. (zhuan) Using convolutional neural nets to detect facial keypoints tutorial
  15. Jenkins部署项目
  16. Python爬虫实例(六)多进程下载金庸网小说
  17. Microsoft Visual Studio International Pack
  18. create-react-app安装出错问题解决
  19. BZOJ 1799 同类分布(数位DP)
  20. 过滤器Filter在配置文件中不起作用

热门文章

  1. 接口的 COM 组件调用 QueryInterface 因以下错误而失败: 库没有注册。
  2. JavaWeb之Cookie&Session
  3. PHP setcookie 网络函数
  4. Junit4模板
  5. Xcode模拟器无法启动解决办法
  6. Python3使用线程
  7. 配置oracle的ssl连接
  8. Python格式化输出和深浅复制
  9. Java面试中遇到的坑【篇二面试干货】
  10. vue全局路由守卫beforeEach+token验证+node