转载自:http://peigang.iteye.com/blog/1563288

从nutch-.3开始 本地抓取(单击) 和 分布式抓取(集群)所使用的配置文件和命令单独分开。

资源:
下载地址:http://archive.apache.org/dist/nutch/1.7/
apache-nutch-1.7-bin.tar  这个是部署的可执行的
apache-nutch-1.7-src.tar  这个用于导入eclipse进行开发 Ant 后会生成两个文件夹
apache-nutch-1.7\build
apache-nutch-1.7\runtime 将
build\apache-nutch-1.7.jar
build\apache-nutch-1.7.job
apache-nutch-1.7\runtime
复制到apache-nutch-1.7-bin.tar解压出来的文件夹。

运行的命令:
单机:runtime/local/bin/nutch crawl urls -dir crawl -depth 2 -threads 3 -topN 100
集群: runtime/deploy/bin/nutch crawl urls -dir crawl -depth 2 -threads 3 -topN 100 异常:
依然会Job failed! 解决方案:
修改 \apache-nutch-1.7\runtime\local\conf\nutch-default.xml
apache-nutch-1.7\runtime\local\plugins

类似之前1.2版本的 job failed ,只是这次修改的是local下的单机版专用的conf文件

存储位置:
http://10.0.0.75/newSvn/Search/CrawlerEngine/Platform/Distribute/nutch/Codes/branches/apache-nutch-1.7.rar

最新文章

  1. Dumpbin 工具的使用
  2. 0006 《SQL必知必会》笔记02-计算字段与函数
  3. TortoiseSVN中Branching和Merging实践
  4. 68. Longest Common Prefix
  5. MySQL增删改查
  6. Asp.Net时间戳与时间互转
  7. DEDECMS调用最新评论
  8. C keyword register 并讨论共同使用嵌入式汇编
  9. 初学python类
  10. PS图层混合算法之二(线性加深,线性减淡,变亮,变暗)
  11. 用CSS实现一个抽奖转盘
  12. 图示Java类的初始化顺序
  13. Laravel Cache 缓存钉钉微应用的 Access Token
  14. NOIP模拟测试1(2017081501)
  15. adb shell中的am pm命令
  16. Druid连接池基本配置及监控配置
  17. Jenkins自动化部署代码
  18. django入门-视图-part3
  19. 10_SpringBoot集成TkMybatis插件
  20. HDU 4274 Spy's Work (树形DP)

热门文章

  1. MVC-控制器向View传值的三种方法
  2. 如何判断Android系统的版本
  3. Java泛型方法定义及泛型类型推断
  4. Java实现直接插入查找
  5. Android开发进阶:如何读写Android文件
  6. Nginx高并发配置思路(轻松应对1万并发量)
  7. C#DbHelperOleDb,Access数据库帮助类 (转载)
  8. jquery 中$('.ui-selecter',this)这样写 是什么意思 求解释 见到都是这种$("div")
  9. Oracle Application Express (APEX 4.2) 中进行ajax调用
  10. Access restriction:The type JPEGCodec is not accessible due to restriction on required library C:\Program Files\Java\jre6\lib\rt.jar