python 网络爬虫（三）

2024-09-01 19:01:24

一、网站地图爬虫

　　在一个简单的爬虫中，我们将使用实例网站 robots.txt 文件中发现的网站地图来下载所有网站，为了解析网站地图，我们将会使用一个简单的正则表达式，从<loc>标签中提取 URL，

def crawl_sitemap(url):

    sitemap = download(url)

    links = re.findall('<loc>(.*?)</loc>', sitemap)

    for link - in links:

        html = download(link)

但是，我们无法使用呢sitemap 文件提供每个网页的连接

二、 ID 遍历爬虫

　　我们将利用网站结构的弱点，更加轻松的访问所有的内容。下面是一些国家示例的 URL：

　　

http://example.webscraping.com/view/Afghistan-1

http://example.webscraping.com/view/Australiia-2

http://example.webscraping.com/view/Brazil-3

可以看出，这些 URL 只在结尾处有所区别，包括国家名（作为页面别名）和 ID，在 URL 中包含页面别名是非诚普遍的做法，可以对搜索引擎起到帮助的作用，一般情况下，web 服务器会忽略这个字符串，值使用 ID 来匹配数据库中的相关记录。

　　

最新文章

热门文章