request爬虫通用的小技巧
2024-08-29 02:29:02
嵩天老师一直强调的通用代码框架,这个框架可以用在很多爬虫中用来获取HTML文本,并且它通过response.raise_for_status()方法判断返回的状态码是不是200,如果不是,就会引发HTTPError异常,然后通过try except的异常处理获取到异常,而apparent_encoding则可以使得返回的编码准确。这样一个简单的通用代码框架可以有效的处理访问处理时遇到的网络问题。
def get_page(url):
try:
res = requests.get(url,timeout=10)
res.raise_for_status()
res.encoding = res.apparent_encoding
return res.text
except:
print('错误')
return ''
参考:https://zhuanlan.zhihu.com/p/36478306
最新文章
- Servlet的生命周期+实现方式
- OpenCV计算点到直线的距离 数学法
- java提高篇(十八)-----数组之一:认识JAVA数组
- 使用Source Safe for SQL Server解决数据库版本管理问题(转载)
- hadoop运行原理之Job运行(二) Job提交及初始化
- 最新php环境搭建
- CentOS 7 下引导 Windows7 启动
- iq 格式分析
- postgresql 连接数
- java基础知识回顾之java Thread类--java线程实现常见的两种方式实现Runnable接口(二)
- Mysql 的函数
- bzoj1014
- SQL中使用的一些函数问题
- 【模拟】NEERC15 J Jump(2015-2016 ACM-ICPC)(Codeforces GYM 100851)
- mysql 创建数据库使用默认字符集(备忘)
- BZOJ 4260: Codechef REBXOR( trie )
- Python twisted article
- IAM
- Deep Mutual Learning
- adb 常用命令-转载