import re
from common_p3 import download def crawl_sitemap(url):
sitemap = download(url)
links = re.findall('<loc>(.*?)</loc>',sitemap)
print('links=',links)
for link in links:
print('link=',link)
html = download(link)
return crawl_sitemap('http://example.webscraping.com/sitemap.xml') TypeError: cannot use a string pattern on a bytes-like object (主要是版本问题)
对于python3x
'sitemap = download(url)'应改为‘sitemap = download(url).decode('utf-8')’

最新文章

  1. 利用Volley封装好的图片缓存处理加载图片
  2. python特殊函数 __len__(self):
  3. navicat------------利用navicat查看两个数据库之间的差异
  4. mysql oom之后的page 447 log sequence number 292344272 is in the future
  5. ASP.NET MVC 常用内置验证特性 简介
  6. bzoj4578: [Usaco2016 OPen]Splitting the Field
  7. 关于DJANGO和JAVASCRIPT的时间
  8. Xcode 调试技巧-b
  9. SSL证书的分类(按功能)
  10. 【转】c/c++各种字符、字符串类型转换
  11. COST CUTTING THE ALAN GREENBERG WAY
  12. OCP-1Z0-051-名称解析-文章12称号
  13. 使用Angular 4、Bootstrap 4、TypeScript和ASP.NET Core开发的Apworks框架案例应用:Task List
  14. Spring学习(3)---Spring设值注入和构造注入
  15. 【python 3】 函数 初识
  16. Mybatis 学习---${ }与#{ }获取输入参数的区别、Foreach的用法
  17. vue input添加回车触发
  18. Spring Boot 的 Security 安全控制
  19. 15个Spring的核心注释示例
  20. java容器详细解析(转)

热门文章

  1. Python的数据的基本类型
  2. 在Xcode11上开发“面向低于iOS13版本的App”时的一些注意点
  3. 几种颜色模型(颜色空间):HSV CMYK RGB
  4. Ubuntu U盘启动出现“Failed to load ldlinux.c32”解决
  5. 【解读】Https协议
  6. 虚拟机 VMware 设置VMWARE通过桥接方式使用主机无线网卡上网
  7. Python3-shutil模块-高级文件操作
  8. AbstractQueuedSynchronizer和ReentranLock基本原理
  9. 入门大数据---Hbase是什么?
  10. Java基础:变量、常量、作用域