用Python爬虫爬取“女神吧”上的照片。
2024-08-29 08:11:08
爬取的网页链接为https://tieba.baidu.com/p/5177270774
是一个美女警花哦!
所用Python环境为:python 3.3.2 用到的库为:urllib.request re
下面上代码:
import urllib.request
import re #获得url的html 源码格式,其中使用了一个通过修改User-Agent实现了隐藏
def open_url(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36')
page = urllib.request.urlopen(req)
html = page.read().decode('utf-8') #二进制的utf-8要解码得到html代码(Unicode)
return html #写正则表达式,获得html代码
def get_image(html):
p = r'<img class="BDE_Image" src="([^"]+\.jpg)"' #正则表达式 [^]中的^是取反的意思
temp = re.findall(p,html)
i = 0
page = 'C:/Users/lenovo/Desktop/mm/'
for each in temp:
i += 1
file = open(page+str(i)+'.jpg','wb')
each = urllib.request.urlopen(each).read() #将图片链接读出来写入文件中
file.write(each)
file.close() def main(url):
get_image(open_url(url)) #规定只有直接运行这个模块才能执行主程序
if __name__ == '__main__':
url = 'https://tieba.baidu.com/p/5177270774'
main(url)
下面是爬取结果:
当然,这个爬虫是不完善的,除了四张美女图片外还多了一些慕名奇妙的图片,但是总的来说还是爬到了美女的图片的。
最新文章
- CentOS 7.2安装docker-compose运行gitlib
- InvocationException: GraphViz&#39;s executables not found
- JAVA6开发WebService (二)——JAX-WS例子
- 在应用程序中实现对NandFlash的操作
- python+selenium环境配置(windows7环境)
- Android初学:联系创建Activity
- 为什么Myeclipse 提示Project &#39;bankmanager&#39; is missing required library,myeclipse项目上红叉 但内部红叉
- python(abi) RPM DEB Download
- ASP.NET 异步编程
- sprinfmvc学习--01
- Vultr\DigitalOcean\Linode速度最快的vps机房推荐
- GPRS的工作原理、主要特点
- 【javascript】函数中的this详解 — 大家准备好瓜子,我要讲故事啦~~
- lesson - 8 课程笔记 tar / gzip /bzip2 / xz /
- RedHat/Fedora/Centos 下bash 自动补全命令
- edit distance(编辑距离,两个字符串之间相似性的问题)
- js弹出层
- python glob 模块
- mysqli的使用
- 【转】Exchange Server 的防火墙开放端口