工具:python3

目标:www.baidu.com

工作流程:

1)反爬虫第一步:抓包工具fiddler抓取页面请求信息,得到User-Agent的值,用于重构urllib.request.Request()。

2)爬取数据

3)存储数据  

# 在python3中,urllib.request等价于urllib2
import urllib.request # 重构Request()函数
ua_headers = { "User-Agent": "Mozilla/5.0 (Windows NT 9.0; WOW32) AppleWebKit/532.36 (KHTML, like Gecko) Chrome/66.0.3359.171 Safari/537.34"
}
request = urllib.request.Request("http://www.baidu.com", headers=ua_headers) # 发送url地址到指定的服务器,有data参数是post,没有data就是get请求,response接受服务器返回的响应
response = urllib.request.urlopen(request) # response是一个类文件对象,支持python文件对象的操作方法
html = response.read() # 我把他们写在了一个文件中,方便读取
f=open("baidu.txt", "w")
f.write(str(html))
f.close()

最新文章

  1. 网页qq客服代码并自定义图片
  2. java aes_cbc_256 加密解密
  3. [题解]UVa 10891 Game of Sum
  4. EF下泛型分页方法,更新方法
  5. 【转】Fresco之强大之余的痛楚
  6. C++的辅助工具介绍
  7. Git中从远程的分支获取最新的版本到本地
  8. POJ 2778 DNA Sequence(AC自动机+矩阵快速幂)
  9. Mason 简单笔记
  10. python如何保证多个线程同时修改共享对象时不出错!
  11. 今天真开心,终于知道怎么打包apk了
  12. Java开发规范总结(两周至少看一次)
  13. Best Coder #86 1001 Price List(大水题)
  14. ssh-copy-id使用非默认22端口时
  15. wav文件系列_1_wav格式解读
  16. Linux 进程同步和通信
  17. LAMP环境快速搭建
  18. alexnet- tensorflow
  19. ResultSet集合查询字段名称(转载)
  20. 将秒数转为HH:MM:SS格式的时间

热门文章

  1. Arduino 002 --- 在Ubuntu(Linux) 中搭建Arduino开发环境
  2. c语言实战: 计算时间差
  3. bzoj4318 OSU!
  4. 巧用 git rebase 将某一部分 commit 复制到另一个分支
  5. Android ExpandableListView的使用
  6. Java50道经典习题-程序26 求星期
  7. 【Arcgis for android】保存地图截图到sd卡
  8. GTK+介绍
  9. MAC的开机启动
  10. UITouch