我的第一个py爬虫-小白(beatifulsoup)
2024-09-01 04:52:03
一、基本上所有的python第一步都是安装、安装
我用到的第三方安装包(beatifulsoup4、re、requests)、还要安装lxml
二、找个http开头的网址我找的是url="http://www.bestgushi.com/"一个看故事的网站
三、分析网站的源码
故事基本上都在a标签的链接里
四、开始写爬虫代码
1.把库导入进去
from bs4 import BeautifulSoup import requests import re
2.用requests请求把源码获取到并解析
# url="http://www.bestgushi.com/"
file=requests.get(url).text#获取源码
new_lile=BeautifulSoup(file,'lxml')#解析源码
3.使用beatifulsoup内的find_all函数找到所有的a标签
先定义一个实例:
soup=BeautifulSoup(features="lxml") 再引用函数:
p_1=new_lile.find_all('a')
4.因为p_1是个列表利用for循环把所有a标签取出来
for i in p_1:
try:
result_list=re.findall("'href="'.+'"target'",i)#这个没有必要想看看正则用法但是老是用错所以写个
except:
print i['href']
五、最后附上完整的代码:
# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import requests
import re
#"url=view-source:http://www.bestgushi.com/"
class pachong:
def pa_a(self,url):
# url="http://www.bestgushi.com/"
file=requests.get(url).text
new_lile=BeautifulSoup(file,'lxml')
# print (new_lile)
soup=BeautifulSoup(features="lxml")
p_1=new_lile.find_all('a') for i in p_1:
try:
result_list=re.findall("'href="'.+'"target'",i)
except:
print i['href']
x=pachong()
x.pa_a("http://www.bestgushi.com/")
最新文章
- [LeetCode] Bulls and Cows 公母牛游戏
- arduino红外遥控库IRremote的IRsend类sendRaw函数溢出问题及其解决方法
- jQ获取浏览器window的高宽
- groups, usermod, chown, chgrp, chmod
- Smarty基础
- ";稀奇古怪的";delete this
- 【jQuery UI 1.8 The User Interface Library for jQuery】.学习笔记.8.Datepicker控件
- HDU 4618 Palindrome Sub-Array (2013多校2 1008 暴力)
- linux正则表达式之-基础正则表达式(基于grep)
- 浏览器中的XML与JavaScript
- Android SimpleAdapter源码详解
- nyoj 329 循环小数【KMP】【求最小循环节长度+循环次数+循环体】
- 基于xmpp openfire smack开发之openfire介绍和部署[1]
- 关于UNION和UNION ALL的区别
- Python使用mechanize模拟浏览器
- Navicate for mysql 数据库设计-数据库分析
- 使用PostProcessBuild设定Unity产生的Xcode Project
- Database Initialization Parameters for Oracle E-Business Suite Release 12
- scala获取某个时间间隔的时间
- sql脚本过大,无法打开的解决方法