python 网络爬虫(三)
2024-09-01 19:01:24
一、网站地图爬虫
在一个简单的爬虫中,我们将使用实例网站 robots.txt 文件中发现的网站地图来下载所有网站,为了解析网站地图,我们将会使用一个简单的正则表达式,从<loc>标签中提取 URL,
def crawl_sitemap(url):
sitemap = download(url)
links = re.findall('<loc>(.*?)</loc>', sitemap)
for link - in links:
html = download(link)
但是 ,我们无法使用呢sitemap 文件提供每个网页的连接
二、 ID 遍历爬虫
我们将利用网站结构的弱点,更加轻松的访问所有的内容。下面是一些国家示例的 URL:
http://example.webscraping.com/view/Afghistan-1
http://example.webscraping.com/view/Australiia-2
http://example.webscraping.com/view/Brazil-3
可以看出,这些 URL 只在结尾处有所区别,包括国家名(作为页面别名)和 ID,在 URL 中包含页面别名是非诚普遍的做法,可以对搜索引擎起到帮助的作用,一般情况下,web 服务器会忽略这个字符串,值使用 ID 来匹配数据库中的相关记录。
最新文章
- webApi 数据绑定 获取
- NOI 题库 8465
- html文件里引入文件html文件
- 逆向分析AHpack
- nohup
- discuz阅读权限的设置作用
- 使用Lucene.Net实现全文检索
- java开发 时间类型的转换
- 【译】 AWK教程指南 11递归程序
- 手动配置Ubuntu Linux系列3-缺省网关和主机名
- 【Luogu2900】土地征用(斜率优化,动态规划)
- 6.2Python数据处理篇之pandas学习系列(二)Series数据类型
- vue中的组件化
- JS导出excel设置下载的标题/与angular结合冲突
- [LeetCode&;Python] Problem 257. Binary Tree Paths
- Unity MVC 个人想法
- spring事物要知道
- Java对象序列化给分布式计算带来的方便
- Android RILD运行机制详解
- Typora快捷键的使用