python 爬虫 多线程 多进程
一、程序、进程和线程的理解
程序:就相当于一个应用(app),例如电脑上打开的一个程序。
进程:程序运行资源(内存资源)分配的最小单位,一个程序可以有多个进程。
线程:cpu最小的调度单位,必须依赖进程而存在。线程没有独立资源,所有线程共享该进程的全部资源。线程的划分尺度比进程更小。
关系:
一个程序至少有一个进程,一个进程至少有一个线程.
资源:进程拥有独立资源,线程依赖于进程,没有独立资源,所有该进程的线程共享所在进程的所有资源。
划分尺度:线程的划分尺度小于进程(资源比进程少),使得多线程程序并发性更高。
优缺点:
线程:线程的执行开销小,但不利于资源的管理和保存。
进程:多个进程之间相互独立,不利于进程间信息交互。进程拥有独立资源。
在设计数据交互频繁的场景,多进程比多进程更加适合。
在并发程度上,多进程比多线程的效率更高。
二、如何通过多线程和多进程提高程序的运行速度?
a、提高程序的运行速度的第一种方法:提高cpu的利用率。
解决的方式:cpu不用休息就可以做到。
现在我们的程序一般只有一个主线程
如果在程序中遇到:阻塞。一旦阻塞了,cpu就休息了。休息的这段时间,就浪费了cpu的资源。
有两种方式可以阻塞:1、time.sleep() 2、遇到io操作
多线程:多个任务。cpu会在这多个任务之间切换,如果其中一个线程阻塞了,cpu不会休息,会处理其他线程。
b、提高程序运行速度第二种方法:增加cpu处理的个数,让每个cpu处理一个任务。
cpu是多核的。---利用cpu的多核进行解决。---cpu每一个核处理一个进程。--用多进程去处理。
c、并发和并行。
三、Python中的threading模块
1、开启多线程
a、使用threading模块
b、 使用自定线程类的形式来创建线程
1、需要继承threading.Thread
2、保证父类的init方法能够被调用
3、步骤
继承Thread
重写run方法
实例化线程类,就相当于创建一个线程,用这个对象调用start()方法就可以启动这个线程
如果自定义线程类要实现init方法,必须先调动父类的init方法。
2、查看线程的名称
使用线程对象.name查看(默认是Thread-1,Thread-2....)
自定义名称:其实就是给self.name赋值
3、查看线程的数量
threading.enumerate()--可以查看当前进程中的线程的数量
最新文章
- 分享我基于NPOI+ExcelReport实现的导入与导出EXCEL类库:ExcelUtility (续篇)
- [转载]C++虚函数浅析
- struts1&;&;Hibernate Demo1
- 5.POST中文乱码解决方案
- MVC 的HTTP请求
- CSS_样式sample
- [Javascript] Chaining the Array map and filter methods
- Unix/Linux环境C编程入门教程(1) Solaris 11 64bit环境搭建
- Cocos2d-x实现简单的翻牌效果
- 一个基于JRTPLIB的轻量级RTSP客户端(myRTSPClient)——实现篇:(五)用户接口层之提取媒体流数据
- [ZJOI2014]力
- spring中jedis对redis的事务使用注意总结
- Jackson流式API
- 【转】基于Jenkins实现持续集成【持续更新中】
- Android Studio解决Error:moudle not specified
- 转://WITH AS and materialize hints
- 【BZOJ2227】[ZJOI2011]看电影(组合数学,高精度)
- 文本工具 TextUtils 字符串
- Android Bitmap Drawable byte[] InputStream 相互转换方法
- Linux ntpdate命令详解