crawler 听课笔记 碎碎念 2 一些爬虫须知的基本常识和流程
2024-10-08 05:12:16
html的宗旨: <标签 属性=”属性的值“></标签> 只是对于文本的一种解释划分吧
dom的宗旨: 就是一个大数组,处理方便,效率低
xml <node attr=value>...</node> html是它的子集,树结构 主要注意节点关系
json 类似xml,对JavaScript友好
mysql show database显示当前服务i上数据库
create database dbname创建一个新数据库
use dbname使用指定的数据库
show tables显示当前数据库的所有表
desc tbname 显示表数据
爬虫工作流程
种子url放入队列 获取url抓取内容 解析内容,需要进一步抓取的放入工作队列 存储解析后的内容
抓取策略
广度优先 深度优先 pagerank(给自己的网页打分) 大站优先策略
去重
Hash表 bloom过滤器(把一个网页的哈希值转换为01结构,然后和过滤器做与或操作,有的话一定重复了,没有的话就可能报错,可以再做一次操作)
爬虫质量
质量 性能 分布式 可扩展性 更新 新鲜性 可收缩性 有效性
更多
map/reduce 布隆过滤器
爬虫规范与原则 robots协议
最新文章
- PL/SQL异常获取
- mybatis一个怪异的问题: Invalid bound statement not found
- 【poj3468】 A Simple Problem with Integers
- SqlServer主键外键添加及判断表是否存在
- 翻译「C++ Rvalue References Explained」C++右值引用详解 Part5:右值引用就是右值吗?
- Delphi VclSkin使用教程
- Visual Studio 2015 与GitLab 团队项目与管理【2】
- next_permutation()—遍历全排列
- HTML5的离线储存
- 如何在版本控制工具中管理Sencha Architect的項目
- Intersection - POJ 1410(线段与矩形是否相交)
- 【转】网络视频监控P2P解决方案
- Facebook React Native 配置小结
- 城市字符串----转数组( 加空格---preg_split) 正则分割字符串 -->; 成数组
- [转]android中解析后台返回的json字符串
- Java编程配置思路详解
- Linux上删除大量文件几种方式对比
- Java Scanner篇
- Redis的介绍
- python 读取文件、并以十六进制的方式写入到新文件