官方有详细的使用文档:http://webmagic.io/docs/zh/

简介:这只是个java爬虫框架,具体使用需要个人去定制,没有图片验证,不能获取js渲染的网页,但简单易用,可以通过xpath和css选择符获取网页内容,官方也有超详细的文档,适合爬取简单的网页和新手学习爬虫。图片验证和js渲染网页获取都可以后来添加进去。使用webmagic这个框架,可以减少很多需要自己写的代码,从而专注于网页分析获取和储存的地方。

使用:

最新文章

  1. onselectstart="return false"
  2. 关于code reiview
  3. 【抄】更改eclipse配置
  4. 【C++】利用指针实现通过函数改变多个参数的值
  5. Angular.js 学习笔记
  6. 定时重启Apache与MySQL方法
  7. Sql中判断“数据库"、"表"、"临时表"、"存储过程"和列”是否存在
  8. many-to-one和one-to-many的配置比较
  9. cetos 6.3 安装 apache+mysql+php
  10. Pet--hdu4707
  11. Qt使用中碰到的问题
  12. keystone policy.json 的学习总结
  13. Extjs入门-grid
  14. 使用simhash库来进行网页去重
  15. 二十、Hadoop学记笔记————Hive On Hbase
  16. 分布式系列五: RMI通信
  17. 2017-10-22模拟赛T2 或(or.*)
  18. android AES 加密解密
  19. css列表list、表格table
  20. OpenCV处理直方图

热门文章

  1. Atitit.数据采集器 dataspider
  2. 纯css实现qqlogo图
  3. Mockjs,模拟数据生成器
  4. Android事件分发机制浅谈(三)--源码分析(View篇)
  5. React Native之ListView使用
  6. 细分java环境中的JDK、JVM、JRE
  7. 谨慎使用Sql server data tool 架构比对排除
  8. 存储过程 保存 xml 数据
  9. spool命令
  10. python排序之一插入排序