Atitit 网络爬虫与数据采集器的原理与实践attilax著 v2

1. 数据采集1

1.1. http lib1

1.2. HTML Parsers,1

1.3. 第8章 web爬取199 1

2. 实现类库框架2

3. 问题与难点(html转txt)2

4. 参考资料3

1. 数据采集

主要获取pagesUrls,artUrls, picUrls

可参考火车头

1.1. http lib

1.2. HTML Parsers

第8章 web爬取199
作者:: 绰号:老哇的爪子 ( 全名::Attilax Akbar Al Rapanui 阿提拉克斯 阿克巴 阿尔 拉帕努伊 )

汉字名:艾提拉(艾龙),   EMAIL:1466519819@qq.com

转载请注明来源: http://www.cnblogs.com/attilax/

8.1 一个简单爬虫算法199
8.1.1 宽度优先爬虫201
8.1.2 带偏好的爬虫201
8.2 实现议题202
8.2.1 网页获取202
8.2.2 网页解析202
8.2.3 删除无用词并提取词干204
8.2.4 链接提取和规范化204
8.2.5 爬虫陷阱206
8.2.6 网页库206
8.2.7 并发性207
8.3 通用爬虫208
8.3.1 可扩展性208
8.3.2 覆盖度、新鲜度和重要度209
8.4 限定爬虫210
8.5 主题爬虫212
8.5.1 主题本地性和线索213
8.5.2 最优优先变种217
8.5.3 自适应219
8.6 评价标准223
8.7 爬虫道德和冲突226
8.8 最新进展228
文献评注230

这学期去图书馆借书,无意间看到一本书《网络机器人Java编程指南》。看了下感觉如获至宝。

市面上讲爬虫的书可以说是没有,基本上只有在搜索引擎类的书里有提到,而且只是讲个思想,没有可以用的代码。

2. 实现类库框架

Httpclient   webdriver

/AtiPlatf_auto/src_atibrow/com/attilax/dataSpider/DoubanSpider.java

DoubanSpider be = new DoubanSpider();

be.search(kw);

be.clickFirst();

be.processShowMainTxt();

3. 问题与难点(html转txt)

通过jsoup好像不行。。。Htmlpaser好点,单好多重复的。。

貌似使用浏览器ff来save as 最好的。。

Atitit.html转换提取纯文本txt

HTML Parser1

Jsoup1

Browser saveas1

4. 参考资料

有什么介绍网络爬虫的书籍推荐吗_百度知道.html

(1)网络爬虫需要阅读的书籍_夸父逐梦_新浪博客.html

《用Python写网络爬虫》([澳]理查德...)

《Python网络数据采集》(...)【简介_书评_在线阅读】

~$itit WebDriver技术规范原理与概念.docx

atiend

最新文章

  1. 动态页面 servlet
  2. win10 EFI装ubuntu14.04双系统 及初始配置
  3. Metatable让我从心认知了Lua(相知篇)
  4. DOCKER windows安装
  5. MySQL的体系结构
  6. 使用Vagrant在Windows下部署开发环境
  7. 新视野OJ 2705 [SDOI2012]Longge的问题 (数论)
  8. javascript 自己主动绑定JS callback 的方法函数
  9. EL表达式 requestScope initParam用法
  10. IE页面刷新ocx插件被释放,野指针非阻塞Sleep问题。
  11. nagios的安装
  12. JMeter_JDBC 性能测试
  13. poj1699
  14. 使用sphinx制作接口文档并托管到readthedocs
  15. Cascade Classifier Training 没有基础也会目标检测啦
  16. cocos2d-x getVisibleOrigin
  17. Spring Cloud Config 配置中心 自动加解密功能 JCE方式
  18. 部署asp.net MVC 4项目到iis
  19. k8s中secret解析
  20. LeetCode——数组篇:659. 分割数组为连续子序列

热门文章

  1. java基础七 [图形用户接口](阅读Head First Java记录)
  2. css样式表 格式与布局
  3. iOS 判断电话号 几种方法
  4. Python全栈--7.3--模块补充configparser--logging--subprocess--os.system--shutil
  5. AsyncTask的缺陷以及解决方法
  6. chm手册显示已取消到该网页的导航
  7. P1-概率论基础(Primer on Probability Theory)
  8. Add sharing to your app via UIActivityViewController
  9. 检查css没被引用上的问题
  10. windows下关闭80端口被system占用的情况