1、在任务一开始运行,注入Url时即出现以下错误。

InjectorJob: Injecting urlDir: urls

InjectorJob: Using class org.apache.gora.hbase.store.HBaseStore as the Gora storage class.

InjectorJob: java.lang.RuntimeException: job failed: name=[20140000]inject urls, jobid=job_local1629320149_0001 

at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54) 

at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:233) 

at org.apache.nutch.crawl.InjectorJob.inject(InjectorJob.java:251) 

at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:273) 

at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 

at org.apache.nutch.crawl.InjectorJob.main(InjectorJob.java:282)
原因是regex-urlfilter.txt配置错误

版权声明:本文为博主原创文章,未经博主允许不得转载。

最新文章

  1. 学习和研究下unity3d的四元数 Quaternion
  2. Visual Studio 选择相同变量高亮
  3. Java并发编程核心方法与框架-CompletionService的使用
  4. apt-get -y install中的-y是什么意思?
  5. C#的编译
  6. Android InputMethodManager输入法简介
  7. Java 之文件IO编程 之读取
  8. 错误:类Byte是公共的,应在名为Byte.java 的文件中声明public class Byte{}一个错误
  9. sqlit使用要点之引入libsqlite3.dylib
  10. Git和Github的配合使用
  11. web前端面试集锦(自己搜集的,如有错误请不吝赐教)
  12. 模型的元数据Meta -- Django从入门到精通系列教程
  13. 10.app后端选择什么开发语言
  14. TeXstudio+TexLive交叉引用
  15. 四:(之八_Linux压力测试工具stress)Dockerfile语法梳理和实践
  16. Linux 下监控用户最大进程数参数(nproc)是否到达上限的步骤:
  17. 五、secureCRT远程连接工具的使用
  18. synchronized(四)
  19. 20135337朱荟潼 Linux第八周学习总结——进程的切换和系统的一般执行过程
  20. Bootstrap FileInput中文API整理

热门文章

  1. 停止使用域名 boypay.net
  2. Android学习笔记进阶20之得到图片的缩略图
  3. Tuple<int, int> Dictionary<string, object>妙用
  4. ArcGIS小技巧——多图层情况下交互显示效果
  5. Shiro学习总结(3)——Apache Shiro身份认证
  6. 洛谷 P1334 瑞瑞的木板
  7. hdu 4932
  8. MDaemon and Apache2
  9. maven的pom.xml配置文件讲解
  10. jquery的滚动事件