自学Python的时候看了不少老男孩的视频,一直欠老男孩一个会员,现在99元爬虫集训果断参与。

非常喜欢Alex和武Sir的课,技术能力超强,当然讲着讲着就开起车来也说明他俩开车的技术也超级强!

以上是闲扯,开始正式话题。

-----------------------------------------------华丽的分割线--------------------------------------------------

爬虫是什么

百度上是这样讲的。

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫

通俗的讲,爬虫就是能够自动访问互联网并将网站内容下载下来的的程序或脚本,类似一个机器人,能把别人网站的信息弄到自己的电脑上,再做一些过滤,筛选,归纳,整理,排序等等。

网络爬虫的英文即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

Python爬虫用到的第三方库

主要有:Requests, Re,BS4, Lxml, Scrapy等

第一章主要是使用Requests, Re 和 BS4

Requests库是由著名的Python界的大神Kenneth Reitz开发的,他同时也是Pipenv的作者,牛人就是牛呀!

关键是人家不仅代码写的好,减肥也减的好呀!以下两张图,大家可以对比下。

Requests主要用来发送请求(get, post等)获取Response,然后使用re正则匹配提取内容,或者使用BS4、Lxml进行解析提取需要的内容。具体用法就不在这里罗列了,传送门如下。

Requests官方文档

BeautifulSoup4官方文档

Lxml官方文档

学习心得

写代码这个事,重要的还是自我学习能力和解决问题的能力。自己仍然要加油。老男孩的Python课程讲得真是好,赞赞赞

有时候大家问问题可能会被人拒绝,看看下边的图,安慰下玻璃心,重要的还是要自己加油哈!

最新文章

  1. Angular指令2
  2. iOS阶段学习第12天笔记(类的初始化)
  3. int和Integer的区别
  4. [转]Spring3核心技术之事务管理机制
  5. okhttp3的使用
  6. php 面向对象要点汇总
  7. 页面get请求 中文参数方法乱码问题
  8. Java面试题-线程安全
  9. Windows7 QT5.6.0(64位)使用mysql(64位)环境搭建详解
  10. 关于方法的ref
  11. layer子层给父层页面元素赋值,以达到向父层页面传值的效果
  12. 关于原生js中bind函数的实现
  13. Netty源码—二、server启动(2)
  14. python+selenium自动化软件测试(第3章):unittes
  15. CM+CDH大数据平台
  16. 物理standby database的日常维护
  17. 建表Table
  18. 详解JQuery Ajax 在asp.net中使用总结
  19. Spider Studio 新版本 (x-mas) - 可以引入第三方程序集, 可以将脚本生成为DLL
  20. RabbitMQ Network Partitions

热门文章

  1. 9.spark Core 进阶2--Cashe
  2. csps-模拟7980题解
  3. Java反射简介
  4. 杂项-IM:IM(即时通讯),一种基于互联网的即时交流消息的业务
  5. Mysql优化系列之表设计规范和优化
  6. SQLAlchemy的out join
  7. P1736 创意吃鱼法 /// DP
  8. JS规则 我与你同在(逻辑与操作符)数学中的“b大于a,b小于c”是“a<b<c”,那么在JavaScript中可以用&&表示
  9. react之可控组件与不可控组件
  10. UVALive-3722 留个坑,为什么费马小定理求逆元不对??