现象,这个网站我总计能抽取将近500个URL,但实际只抽取了100条

解析:nutch默认从一个页面解析出的链接,只取前 100 个。 

<property>
<name>db.max.outlinks.per.page</name>
<value></value>
<description>The maximum number of outlinks that we'll process for a page.
If this value is nonnegative (>=), at most db.max.outlinks.per.page outlinks
will be processed for a page; otherwise, all outlinks will be processed.
</description>
</property> 将这个值改大一些 1000 .

最新文章

  1. Linux中C程序调试、makefile
  2. css-css权威指南学习笔记4
  3. python学习之路-day12-mysql &amp;&amp; orm
  4. 示例篇-购物车的简单示例和自定义JS
  5. Java Bytecode Instructions List
  6. DDD:当视图模型、领域模型和数据模型都采用了同样的类型的时候,我们该如何处理?
  7. Portlet和servlet的区别
  8. 技术分享:逆向分析ATM分离器
  9. ISO/IEC 14496 文档内容简介, MPEG标准
  10. Scala的基本语法总结
  11. 命令行静态编译QT程序
  12. 批量缩放PNG图片.
  13. Android数据存储(1)少量数据保存之SharedPreferences接口实例
  14. PHP和C#可共用的可逆加密算法
  15. (C#)Windows Shell 外壳编程系列7 - ContextMenu 注册文件右键菜单
  16. [Swust OJ 85]--单向公路(BFS)
  17. Java 内存架构
  18. 使用命令行生成jar包
  19. C# 匿名对象(匿名类型)、var、动态类型 dynamic——实用之:过滤类属性、字段实用dynamic
  20. 1. Nagios和 NagiosQL安装及配置

热门文章

  1. SQL Server 2014 AlwaysON
  2. C#实现插入排序法
  3. postgresql cast转换类型
  4. Extjs3 Combo实现百度搜索查询
  5. SQL Server 可疑的解决办法
  6. 给div设置一个关闭按钮.
  7. 常用AWK命令
  8. sql的集合操作
  9. 九度OJ 1534 数组中第K小的数字 -- 二分查找
  10. sea.js说明文档