最近学习开发linux下的爬虫,主要是参考了该博客及其他一些网上的资料。网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。目前有一些比较出名的一些开源爬虫,开源爬虫Labin,Nutch,Neritrix介绍和对比见这里

下面说的爬虫是作为一个新手来说的,高手请勿喷

(1)该爬虫就功能来说比较单一,但是作为一个个人的学习项目来说又是相对完整的。

(2)该爬虫可优化的地方太多,很多的方案不一定是最好的,所以该爬虫仅仅适合于新手的学习

(3)这个算是一个完整的项目,基于linux的,虽然是C风格的,但是里面用到了很多C++的东西,特别是几种容器

(4)因为我也以此项目来学习的,我觉得作为学习项目还是具有一定的学习价值:

通过此项目,我们将学会几种思想:软件框架思想,代码复用思想, 迭代开发思想,增量开发思想

通过此项目,我们将会掌握并巩固以下技术要点:

1、Linux进程及调度 2、Linux服务 3、信号 4、Socket编程 5、Linux多任务 6、文件系统 7、正则表达式

8、shell脚本 9、动态库

另外我们还会学到一些额外的的知识:

1、 如何使用HTTP协议 2、 如何设计一个系统 3、 如何选择和使用开源项目 4、 如何选择I/O模型 5、 如何进行系统分析

6、 如何进行容错处理 7、 如何进行系统测试 8、 如何对源代码进行管理

最新文章

  1. phoneGap+cordova+ionic混合app开发环境搭建
  2. java 读写properties (配置)文件
  3. 【BZOJ-4653】区间 线段树 + 排序 + 离散化
  4. Using of grep sed awk on Linux
  5. Effective Java 12 Consider implementing Comparable
  6. bzoj3036: 绿豆蛙的归宿
  7. 使用微软分布式缓存服务Velocity(Windows Server AppFabric Caching Service)
  8. './mysql-bin.index' not found (Errcode: 13) 的解决方法
  9. OpenStack Mixture HypervisorsDriver configure and implementation theory
  10. Qt出现常量有换行符的错误的解决方法
  11. Java程序初始化的顺序
  12. LNMP架构部署
  13. SpringMVC源码情操陶冶-InterceptorsBeanDefinitionParser拦截器解析器
  14. 关于 Block 中捕获 self 的分析
  15. Guitar Pro 添加装饰音
  16. MyEclipse下自定义(支持html5的)JSP模板--JSP
  17. MySQL 单条记录长度最大65535
  18. MySQL:Unsafe statement written to the binary log using statement format since BINLOG_FORMAT = STATEMENT. INSERT...
  19. $("this") $(this) 区别
  20. Mongo DB命令简介

热门文章

  1. 计算机网络协议,UDP数据报的分析
  2. Linux 磁盘管理篇,开机挂载
  3. 统计分析_集中趋势and离散程度
  4. BMI的Python实现
  5. Exchange 2016 OWA登陆异常
  6. java课程设计之--Elasticsearch篇
  7. linux基础知识点扫描
  8. Java8新特性(1):Lambda表达式
  9. 一、Go语言由来与关键时间线
  10. Android-网页解析-gson的使用