如果要从一个互联网前端开发的小白,学习爬虫开发,结合自己的经验老猿认为爬虫学习之路应该是这样的:

一、 了解HTML语言及css知识

这方面的知识请大家通过w3school 去学习,老猿对于html总结了部分基础知识内容,在《第14.2节 HTML知识简介》进行介绍,其他的大家到w3school 去学习。

二、 学习http协议相关的知识

需要了解url的构成、http协议头的结构、http协议支持的get方法等内容。这方面推荐大家学习如下老猿转发的博文:

  1. url的组成结构信息
  2. HTTP请求头和响应头详解【转】
  3. 转:解析HTTP协议六种请求方法,get,head,put,delete,post有什么区别

三、 学习cookies相关知识

要登录网站爬取信息,按现在绝大多数网站的会话管理机制,cookies是必不可少的,了解cookies并利用cookies实现网站登录管理。这方面推荐大家学习如下老猿转发的博文:

  1. 转:Http协议中Cookie详细介绍
  2. 转:Chrome浏览器查看网站登录 Cookie 信息的方法

四、 分析浏览器访问网站网址的过程,如是否需要先登录、是否有代理、是否多次交互等,可以通过浏览器来获取网站访问信息来分析访问过程,这个与具体要爬取的网站及爬取内容相关。老猿将介绍通过IE11及google浏览器获取网站访问信息的方法;

五、 学习Python访问web网站编程的知识,这个老猿主要介绍使用urllib模块相关方法读取网页内容;

六、 学习网页解析的方法,老猿将比较详细BeautifulSoup的使用;

七、 分析准备爬取网页内容的结构,获取网页内容后,根据爬取内容的要求针对性进行分析;

八、 分析怎么完成爬取自己感兴趣内容的http交互过程。

其中最后两步有可能是交替的,有可能爬取一个网页分析其结构解读内容,再根据解读内容爬取下一个网页。老猿将以此为主线介绍爬虫相关的知识,但第一、二步就不介绍了。

老猿Python,跟老猿学Python!

博客地址:https://blog.csdn.net/LaoYuanPython


老猿Python博客文章目录:https://blog.csdn.net/LaoYuanPython/article/details/98245036

请大家多多支持,点赞、评论和加关注!谢谢!

最新文章

  1. 聊聊excel生成图片的几种方式
  2. wpf TreeView
  3. 利用MVC的自定义过滤器FilterAttribute、IActionFilter、IExceptionFilter实现异常处理等功能
  4. C语言中的位操作(14)--反转比特位
  5. ECshop设置301最快捷最简单的方法
  6. java入门第一步之完成jdk的安装(window)【转】
  7. $lookup
  8. NET Core中使用Redis
  9. PowerDesigner 非数值默认值时会自动增加单引单
  10. linux Ubuntu安装后没有引导 解决方案
  11. (原创)vagrant up 异常报错,出现 There was an error while executing `VBoxManage` 的解决方法
  12. loadrunner打不开ie&ie默认浏览器设置方法
  13. [BZOJ 3209] 花神的数论题 【数位统计】
  14. HUST 1555 A Math Homework
  15. vue 修改数据界面没有及时更新nextTick
  16. Spring Boot 启动:No active profile set, falling back to default profiles: default
  17. python sqlite3 数据库操作
  18. JEECG 新手常见问题大全,入门必读
  19. mysq在某一刻同时获取主从库的位置点
  20. SQLServer 的存储过程与java交互

热门文章

  1. knn-demo
  2. 10 XSRF和XSS
  3. Java实现酒店客房管理系统
  4. Spring Cloud杜绝循环依赖
  5. 【技术分享】小乖乖的 Linux/Ubuntu 历险记
  6. mysql查询上月天数/当月第一天/上月第一天
  7. ECMAScript6标准-简介
  8. 关于重写equals同时重写hashcode
  9. linux打包 压缩 解压tar常归操作
  10. SMBv3远程代码执行漏洞复现(CVE-2020-0796)