nutch2.2.1集成HBase0.94.25

(详见:http://duguyiren3476.iteye.com/blog/2085973 )

1. 修改nutch的hbase配置

//将自己的hbase配置copy到nutch配置中
cp /home/hbase/conf/hbase-site.xml /home/nutch/conf/

2. 使用hbase0.92.2-jar代替原来的hbase文件(在/home/nutch/runtime/local/lib中)

原因:(我使用的hbase时0.94.25)

nutch自带的gora3.0只能最高支持hbase0.92,默认的是hbase0.90

如果使用默认的hbase0.90操作自己安装的hbase0.94,报错:

java.lang.IllegalArgumentException: Not a host:port pair

如果直接使用hbase0.94操作自己安装的hbase0.94,报错:

java.lang.NoSuchMethodError:org.apache.hadoop.hbase.HColumnDescriptor.setMaxVersions(I)V

解决办法:

使用0.92.2hbase的jar文件

3. 抓取

  (1)设置抓取地址

cd runtime/local/
mkdir -p urls
sudo gedit urls/seed.txt

在seed中填入你要抓取的地址:比如:http://www.apache.org/

  (2)将urls放到hdfs系统中

hadoop fs -copyFromLocal urls /home/hadoop/urls

  (3)运行nutch,并把结果放到hbase

nutch inject /home/hadoop/urls

  (4)查看hbase

hbase shell

//进入shell后
list

如果出现 “webpage” 则成功。

  (5)

nutch  generate -topN 3
nutch fetch -all
nutch parse -all
nutch updatedb

  (6)进入hbase查询

最新文章

  1. 如何在SharePoint2010中创建自定义电子邮件警报处理程序
  2. UI学习笔记---第六天
  3. paip.超实用 360浏览器最近频繁奔溃解决流程.
  4. Unity的Cover flow的实现包(2个)
  5. cocos2dx 3.0正式版 于mac在新建项目
  6. jQuery小例
  7. MultipartResolver 文件上传
  8. iOS页面切换动画实现方式。
  9. 关于.Net的知识和相关书籍
  10. 【11】-java递归和非递归二叉树前序中序后序遍历
  11. 合法的json数组字符串,转换json
  12. C#即时释放内存
  13. Hadoop-Impala学习笔记之管理
  14. C++11实现一个轻量级的AOP框架
  15. 洛谷P4907【CYH-01】小奔的国庆练习赛 :$A$换$B$ $problem$(DFS,剪枝)
  16. Spring 实现两种设计模式:工厂模式和单态模式(单例模式)
  17. java高级---->Serializable的过程分析
  18. Easyloggingpp的使用
  19. 【sping揭秘】10、SpringIOC容器扩展
  20. Windows XP添加硬盘后系统不能识别(没有任何反应)

热门文章

  1. 【转】使用Memcached提高.NET应用程序的性能
  2. linux系统目录架构
  3. jQuery插件使用大全
  4. Bootstrap模态框
  5. Turn.js 实现翻书效果的学习与总结
  6. 不再用.NET框架
  7. CLR via C# I/O基元线程同步构造
  8. 使用CSS画一个三角形
  9. Spark菜鸟学习营Day6 分布式代码运行调试
  10. Python脚本控制的WebDriver 常用操作 <二十六> 上传文件