html的宗旨:      <标签 属性=”属性的值“></标签>        只是对于文本的一种解释划分吧

dom的宗旨:      就是一个大数组,处理方便,效率低

xml                      <node attr=value>...</node>          html是它的子集,树结构    主要注意节点关系

json                      类似xml,对JavaScript友好

mysql                  show database显示当前服务i上数据库

        create database dbname创建一个新数据库

        use dbname使用指定的数据库

        show tables显示当前数据库的所有表

        desc tbname 显示表数据

爬虫工作流程

种子url放入队列  获取url抓取内容  解析内容,需要进一步抓取的放入工作队列  存储解析后的内容

抓取策略

广度优先  深度优先  pagerank(给自己的网页打分)  大站优先策略

去重

Hash表  bloom过滤器(把一个网页的哈希值转换为01结构,然后和过滤器做与或操作,有的话一定重复了,没有的话就可能报错,可以再做一次操作)

爬虫质量

质量 性能 分布式 可扩展性 更新 新鲜性 可收缩性 有效性

更多

map/reduce  布隆过滤器

爬虫规范与原则 robots协议

最新文章

  1. PL/SQL异常获取
  2. mybatis一个怪异的问题: Invalid bound statement not found
  3. 【poj3468】 A Simple Problem with Integers
  4. SqlServer主键外键添加及判断表是否存在
  5. 翻译「C++ Rvalue References Explained」C++右值引用详解 Part5:右值引用就是右值吗?
  6. Delphi VclSkin使用教程
  7. Visual Studio 2015 与GitLab 团队项目与管理【2】
  8. next_permutation()—遍历全排列
  9. HTML5的离线储存
  10. 如何在版本控制工具中管理Sencha Architect的項目
  11. Intersection - POJ 1410(线段与矩形是否相交)
  12. 【转】网络视频监控P2P解决方案
  13. Facebook React Native 配置小结
  14. 城市字符串----转数组( 加空格---preg_split) 正则分割字符串 --&gt; 成数组
  15. [转]android中解析后台返回的json字符串
  16. Java编程配置思路详解
  17. Linux上删除大量文件几种方式对比
  18. Java Scanner篇
  19. Redis的介绍
  20. python 读取文件、并以十六进制的方式写入到新文件

热门文章

  1. redis常用指令总结以及功能介绍
  2. vue-learning:39 - router - vue-router的基本使用
  3. 【47.63%】【hdu 1532】Drainage Ditches
  4. linux zookeeper开机启动
  5. selenium docs
  6. A non well formed numeric value encountered
  7. 从0开始.NET CORE认证
  8. 宣布一件事,通过写博客,挣到了人生的第一个 10w
  9. mysql 时间函数总结
  10. 20191024-2 Alpha阶段贡献分配