Ubuntu环境下nutch2.2.1集成HBase0.94.25
2024-08-25 13:30:56
nutch2.2.1集成HBase0.94.25
(详见:http://duguyiren3476.iteye.com/blog/2085973 )
1. 修改nutch的hbase配置
//将自己的hbase配置copy到nutch配置中
cp /home/hbase/conf/hbase-site.xml /home/nutch/conf/
2. 使用hbase0.92.2-jar代替原来的hbase文件(在/home/nutch/runtime/local/lib中)
原因:(我使用的hbase时0.94.25)
nutch自带的gora3.0只能最高支持hbase0.92,默认的是hbase0.90
如果使用默认的hbase0.90操作自己安装的hbase0.94,报错:
java.lang.IllegalArgumentException: Not a host:port pair
如果直接使用hbase0.94操作自己安装的hbase0.94,报错:
java.lang.NoSuchMethodError:org.apache.hadoop.hbase.HColumnDescriptor.setMaxVersions(I)V
解决办法:
使用0.92.2hbase的jar文件
3. 抓取
(1)设置抓取地址
cd runtime/local/
mkdir -p urls
sudo gedit urls/seed.txt
在seed中填入你要抓取的地址:比如:http://www.apache.org/
(2)将urls放到hdfs系统中
hadoop fs -copyFromLocal urls /home/hadoop/urls
(3)运行nutch,并把结果放到hbase
nutch inject /home/hadoop/urls
(4)查看hbase
hbase shell //进入shell后
list
如果出现 “webpage” 则成功。
(5)
nutch generate -topN 3
nutch fetch -all
nutch parse -all
nutch updatedb
(6)进入hbase查询
最新文章
- 如何在SharePoint2010中创建自定义电子邮件警报处理程序
- UI学习笔记---第六天
- paip.超实用 360浏览器最近频繁奔溃解决流程.
- Unity的Cover flow的实现包(2个)
- cocos2dx 3.0正式版 于mac在新建项目
- jQuery小例
- MultipartResolver 文件上传
- iOS页面切换动画实现方式。
- 关于.Net的知识和相关书籍
- 【11】-java递归和非递归二叉树前序中序后序遍历
- 合法的json数组字符串,转换json
- C#即时释放内存
- Hadoop-Impala学习笔记之管理
- C++11实现一个轻量级的AOP框架
- 洛谷P4907【CYH-01】小奔的国庆练习赛 :$A$换$B$ $problem$(DFS,剪枝)
- Spring 实现两种设计模式:工厂模式和单态模式(单例模式)
- java高级---->;Serializable的过程分析
- Easyloggingpp的使用
- 【sping揭秘】10、SpringIOC容器扩展
- Windows XP添加硬盘后系统不能识别(没有任何反应)