有时爬取到的href不全,如href=‘/11031/’
解决方法:
from urllib import parse
url=parse.urljoin(response.url,get_url)
response.url 正在爬取的网页的url
get_url 网页中条目的url
												

最新文章

  1. C#基础回顾(二)—页面值传递、重载与重写、类与结构体、装箱与拆箱
  2. C# 利用反射根据类名创建类的实例对象
  3. 页面copyright部分始终居于页面底部
  4. C# ~ NUnit单元测试
  5. 手工加载DLL
  6. UML精粹4 - 对象图,包图,部署图,用例
  7. jquery 获取radio选中的值
  8. 面向对象之对象,作用域及this
  9. bootstrap modal动态加载内容
  10. js 设置回车事件
  11. HDU4612 Warm up 边双(重边)缩点+树的直径
  12. PHP持续保有长连接,利用flush持续更新浏览器UI,下载进度条实现
  13. html响应式布局,css响应式布局,响应式布局入门
  14. OpenStack网络的前世今生
  15. 【WPF】如何获取命令行参数
  16. SSM-SpringMVC-08:SpringMVC中以继承AbstractController的方式实现处理器
  17. Docker端口映射及创建镜像演示(二)--技术流ken
  18. Vuex之理解Getters的用法
  19. python成功之道
  20. 最小生成树<lct>

热门文章

  1. mysql中的 随机字符串的生成
  2. shell脚本小集锦
  3. 2018.3.15 css课外小知识
  4. YII2中使用控制台命令
  5. 整站变灰CSS代码
  6. Jfinal适用于条件查询的动态SQL语句生成工具
  7. Win10以管理员身份启动cmd.exe
  8. python3.6.5 路径处理与规范化
  9. 求助Ubuntu16.10如何设置默认启动为字符界面
  10. 富文本编辑器--FCKEditor 上传图片