定义:

网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本。

简介:

网络蜘蛛是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

爬虫整体流程:

①先由urllib的request打开Url得到网页html文档

②浏览器打开网页源代码分析元素节点

③通过Beautiful Soup或则正则表达式提取想要的数据

④存储数据到本地磁盘或数据库(抓取,分析,存储)

详细步骤

第一步:抓取网页

搜索引擎网络爬虫的基本工作流程如下:

首先选取一部分的种子URL,将这些URL放入待抓取URL队列;

取出待抓取URL,解析DNS得到主机的IP,并将URL对应的网页下载下来,存储进已下载网页库中,并且将这些URL放进已抓取URL队列。

分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环

第二步:数据存储

搜索引擎通过爬虫爬取到的网页,将数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。

搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到访问权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。

第三步:预处理

搜索引擎将爬虫抓取回来的页面,进行各种步骤的预处理。

提取文字

中文分词

消除噪音(比如版权声明文字、导航条、广告等……)

索引处理

链接关系计算

特殊文件处理

最后将数据存储起来以备使用。

本文转载于https://www.py.cn/jishu/spider/10790.html

最新文章

  1. psutil一个基于python的跨平台系统信息跟踪模块
  2. #1014 Trie树
  3. 做参数可以读取参数 保存参数 用xml文件的方式
  4. 技术英文单词贴--N
  5. [Node.js] Promise,Q及Async
  6. Lotus防病毒与数据备份案例
  7. sql server 查询数据库所有的表名+字段
  8. 【Android 界面效果36】Fragment管理
  9. ArcGIS快速制图插件介绍
  10. ELK学习总结(3-3)elk的组合查询
  11. 在当前图纸中创建一个表格, AcDbTable 类
  12. 分布式存储ceph——(5)ceph osd故障硬盘更换
  13. 四. Redis事务处理
  14. mysql实现首字母从A-Z排序
  15. iptables之NAT端口转发设置
  16. 从零开始学 Web 之 Ajax(一)服务器相关概念
  17. python之字典(dict)
  18. presentation skills
  19. jpa命名规范
  20. SuperMap开发入门4——保存的坑

热门文章

  1. [笔记]C++拷贝构造和移动构造
  2. 浅谈Shiro框架中的加密算法,以及校验
  3. 爬虫实践——数据存储到Excel中
  4. 记录一次webpack3升级到webpack4过程
  5. CentOS 7 应用
  6. [go]os/exec执行shell命令
  7. 【批处理】ren命令_批量重命名文件
  8. kotlin之包
  9. Fragment入门代码
  10. 将ejs模板文件的后缀换成html