一、连接mongodb

1、            设置数据库 client=pymongo.MongoClient(‘localhost’)

2、            db=client[‘lagou’]设置连接的数据库名称

POSITION_NAME=’’ 、PAGE_SUM 、PAGE_SIZE 等为你设置的变量名称。
3、DATA_NAME=’dataposition’   # # 指定数据库的名字
4、设置保存在mongo数据库中的数据:
def save_to_mongo(data):
    if db[DATA_NAME].update({'positionId': data['positionId']}, {'$set': data}, True):
        print('Saved to Mongo', data['positionId'])
    else:
        print('Saved to Mongo Failed', data['positionId'])
这是以positionId为唯一标识,如果数据库里面已经存在有positionId,说明数据已经爬过了,不再更新。
 
二、多进程设置和使用:
1、导入多进程:from multiprocessing import Pool
导入时间  import time
2、start_time = time.time()
pool = Pool()  # pool()参数:进程个数:默认的是电脑cpu的核的个数,如果要指定进程个数,这个进程个数要小于等于cpu的核数
# 第一个参数是一个函数体,不需要加括号,也不需指定参数。。
#  第二个参数是一个列表,列表中的每个参数都会传给那个函数体
pool.map(to_mongo_pool,[i for i in range(PAGE_SUM)])
# close它只是把进程池关闭
pool.close()
# join起到一个阻塞的作用,主进程要等待子进程运行完,才能接着往下运行
pool.join()
end_time = time.time()
print("总耗费时间%.2f秒" % (end_time - start_time))
 

to_mongo_pool:这个函数要设计好,就一个参数就够了,然后把它的参数放在列表里面,通过map高阶函数一次传给to_mongo_pool

多线程的使用:

多线程要配合队列使用:

# coding=utf-8

import requests
from lxml import etree 
import threading 导入线程
from queue import Queue  导入队列
# https://docs.python.org/3/library/queue.html#module-queu
# 队列使用方法简介
# q.qsize() 返回队列的大小
# q.empty() 如果队列为空,返回True,反之False
# q.full() 如果队列满了,返回True,反之False
# q.full 与 maxsize 大小对应
# q.get([block[, timeout]]) 获取队列,timeout等待时间
# q.get_nowait() 相当q.get(False)
# q.put(item) 写入队列,timeout等待时间
# q.put_nowait(item) 相当q.put(item, False)
# q.task_done() 在完成一项工作之后,q.task_done() 函数向任务已经完成的队列发送一个信号
# q.join() 实际上意味着等到队列为空,再执行别的操作
class Lianjia:
    def __init__(self):
        self.url_temp = url = "https://gz.lianjia.com/ershoufang/pg{}/"
       
self.headers = {
            "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"}
        self.url_queue = Queue()
        self.html_queue = Queue()
        self.content_queue = Queue()     def get_url_list(self):
        # return [self.url_temp.format(i) for i in range(1,14)]
       
for i in range(1, 14):
            # 把13个索引页面的Url放进url_queue队列里
           
self.url_queue.put(self.url_temp.format(i))

定义运行函数

def run(self):  # 实现主要逻辑
    thread_list = []
    # 1.url_list
    # threading.Thread不需要传参数,参数都是从队列里面取得
    t_url = threading.Thread(target=self.get_url_list)
    thread_list.append(t_url)
    # 2.遍历,发送请求,获取响应
    for i in range(20):  # 添加20个线程
        t_parse = threading.Thread(target=self.parse_url)
        thread_list.append(t_parse)
    # 3.提取数据
    for i in range(2):  # 添加2个线程
        t_html = threading.Thread(target=self.get_content_list)
        thread_list.append(t_html)
    # 4.保存
    t_save = threading.Thread(target=self.save_content_list)
    thread_list.append(t_save)
    for t in thread_list:
        t.setDaemon(True)  # 把子线程设置为守护线程,该线程不重要,主线程结束,子线程结束(子线程是while true不会自己结束)
        t.start()     for q in [self.url_queue, self.html_queue, self.content_queue]:
        q.join()  # 让主线程等待阻塞,等待队列的任务完成(即队列为空时 )之后再进行主线程     print("主线程结束")

最新文章

  1. GOF23设计模式归类
  2. 新版startssl 免费SSL证书申请 (实测 笔记 https http2 必要条件)
  3. Java提高篇——单例模式
  4. SQL Server中关于跟踪(Trace)那点事
  5. nyoj998(euler)
  6. 使用多种客户端消费WCF RestFul服务(三)——.net4.5篇
  7. Cache
  8. vultr VPS的购买及搭建ss介绍,支持锐速加速优化
  9. 新概念英语(1-5)Nice to meet you.
  10. bzoj3594 方伯伯的玉米田 树状数组优化dp
  11. 正则表达式在Java中的使用
  12. c#委托中的同步和异步方法即BeginInvoke和EndInvoke
  13. Codeforces Beta Round #94 (Div. 1 Only)B. String sam
  14. Makefile 系统论述
  15. maven插件 按配置加载不同环境配置文件进行打包(maven-war-plugin)
  16. 在树莓派2上安装 Windows 10
  17. Cordova - 实现热更新 !
  18. java解数独
  19. spring---aop(10)---Spring AOP中AspectJ
  20. string容器的简单实现

热门文章

  1. 记一次jmeter从txt文本获取数值并给测试计划的变量赋值,jmeter永久性修改变量。
  2. python的元组存储的实质和多元赋值
  3. 小记redis持久化的机制
  4. layui table 行按钮事件,启用禁用切换
  5. UVA12983 The Battle of Chibi
  6. Java后台开发方向面试题集合
  7. Solidity 编程实例--投票
  8. js时间查询补充
  9. ORM查询2
  10. python编程基础之三十三