crawler 听课笔记碎碎念 2 一些爬虫须知的基本常识和流程

html的宗旨： <标签属性=”属性的值“></标签> 只是对于文本的一种解释划分吧

dom的宗旨：就是一个大数组，处理方便，效率低

xml <node attr=value>...</node> html是它的子集，树结构主要注意节点关系

json 类似xml,对JavaScript友好

mysql show database显示当前服务i上数据库

　　　　　　　　create database dbname创建一个新数据库

　　　　　　　　use dbname使用指定的数据库

　　　　　　　　show tables显示当前数据库的所有表

　　　　　　　　desc tbname 显示表数据

爬虫工作流程

种子url放入队列　　获取url抓取内容　　解析内容，需要进一步抓取的放入工作队列　　存储解析后的内容

抓取策略

广度优先　　深度优先　　pagerank（给自己的网页打分）　　大站优先策略

去重

Hash表　　bloom过滤器（把一个网页的哈希值转换为01结构，然后和过滤器做与或操作，有的话一定重复了，没有的话就可能报错，可以再做一次操作）

爬虫质量

质量性能分布式可扩展性更新新鲜性可收缩性有效性

map/reduce 布隆过滤器

爬虫规范与原则 robots协议

巴特西