一、网站地图爬虫

  在一个简单的爬虫中,我们将使用实例网站 robots.txt 文件中发现的网站地图来下载所有网站,为了解析网站地图,我们将会使用一个简单的正则表达式,从<loc>标签中提取 URL,

def crawl_sitemap(url):
sitemap = download(url)
links = re.findall('<loc>(.*?)</loc>', sitemap)
for link - in links:
html = download(link)

但是 ,我们无法使用呢sitemap 文件提供每个网页的连接

二、 ID 遍历爬虫

  我们将利用网站结构的弱点,更加轻松的访问所有的内容。下面是一些国家示例的 URL:

  

http://example.webscraping.com/view/Afghistan-1
http://example.webscraping.com/view/Australiia-2
http://example.webscraping.com/view/Brazil-3

可以看出,这些 URL 只在结尾处有所区别,包括国家名(作为页面别名)和 ID,在 URL 中包含页面别名是非诚普遍的做法,可以对搜索引擎起到帮助的作用,一般情况下,web 服务器会忽略这个字符串,值使用 ID 来匹配数据库中的相关记录。

  

最新文章

  1. webApi 数据绑定 获取
  2. NOI 题库 8465
  3. html文件里引入文件html文件
  4. 逆向分析AHpack
  5. nohup
  6. discuz阅读权限的设置作用
  7. 使用Lucene.Net实现全文检索
  8. java开发 时间类型的转换
  9. 【译】 AWK教程指南 11递归程序
  10. 手动配置Ubuntu Linux系列3-缺省网关和主机名
  11. 【Luogu2900】土地征用(斜率优化,动态规划)
  12. 6.2Python数据处理篇之pandas学习系列(二)Series数据类型
  13. vue中的组件化
  14. JS导出excel设置下载的标题/与angular结合冲突
  15. [LeetCode&amp;Python] Problem 257. Binary Tree Paths
  16. Unity MVC 个人想法
  17. spring事物要知道
  18. Java对象序列化给分布式计算带来的方便
  19. Android RILD运行机制详解
  20. Typora快捷键的使用

热门文章

  1. vue动态生成组件
  2. 消息队列(五)--- RocketMQ-消息存储4
  3. 三星前有note7,现有GalaxyS10,爆炸原因外力?
  4. 3_6 环状序列(UVa1584)
  5. 无刷新的批量图片上传插件.NET版
  6. 《梳理业务的三个难点》---创业学习---训练营第二课---HHR---
  7. SVM的优缺点
  8. 重新梳理IT知识之java-01语法(一)
  9. C++ STL之映射map的使⽤
  10. RPC远程服务调用