爬虫(GET)——爬baidu.com主页
2024-08-29 09:37:09
工具:python3
目标:www.baidu.com
工作流程:
1)反爬虫第一步:抓包工具fiddler抓取页面请求信息,得到User-Agent的值,用于重构urllib.request.Request()。
2)爬取数据
3)存储数据
# 在python3中,urllib.request等价于urllib2
import urllib.request # 重构Request()函数
ua_headers = { "User-Agent": "Mozilla/5.0 (Windows NT 9.0; WOW32) AppleWebKit/532.36 (KHTML, like Gecko) Chrome/66.0.3359.171 Safari/537.34"
}
request = urllib.request.Request("http://www.baidu.com", headers=ua_headers) # 发送url地址到指定的服务器,有data参数是post,没有data就是get请求,response接受服务器返回的响应
response = urllib.request.urlopen(request) # response是一个类文件对象,支持python文件对象的操作方法
html = response.read() # 我把他们写在了一个文件中,方便读取
f=open("baidu.txt", "w")
f.write(str(html))
f.close()
最新文章
- 网页qq客服代码并自定义图片
- java aes_cbc_256 加密解密
- [题解]UVa 10891 Game of Sum
- EF下泛型分页方法,更新方法
- 【转】Fresco之强大之余的痛楚
- C++的辅助工具介绍
- Git中从远程的分支获取最新的版本到本地
- POJ 2778 DNA Sequence(AC自动机+矩阵快速幂)
- Mason 简单笔记
- python如何保证多个线程同时修改共享对象时不出错!
- 今天真开心,终于知道怎么打包apk了
- Java开发规范总结(两周至少看一次)
- Best Coder #86 1001 Price List(大水题)
- ssh-copy-id使用非默认22端口时
- wav文件系列_1_wav格式解读
- Linux 进程同步和通信
- LAMP环境快速搭建
- alexnet- tensorflow
- ResultSet集合查询字段名称(转载)
- 将秒数转为HH:MM:SS格式的时间