一、基本上所有的python第一步都是安装、安装

我用到的第三方安装包(beatifulsoup4、re、requests)、还要安装lxml

二、找个http开头的网址我找的是url="http://www.bestgushi.com/"一个看故事的网站

三、分析网站的源码

    

故事基本上都在a标签的链接里

四、开始写爬虫代码

1.把库导入进去

from  bs4 import BeautifulSoup

import requests

import re

2.用requests请求把源码获取到并解析

# url="http://www.bestgushi.com/"
file=requests.get(url).text#获取源码
new_lile=BeautifulSoup(file,'lxml')#解析源码

3.使用beatifulsoup内的find_all函数找到所有的a标签

  先定义一个实例:

soup=BeautifulSoup(features="lxml")

  再引用函数:
p_1=new_lile.find_all('a')

4.因为p_1是个列表利用for循环把所有a标签取出来

for i in  p_1:
try:
result_list=re.findall("'href="'.+'"target'",i)#这个没有必要想看看正则用法但是老是用错所以写个
except:
print i['href']

五、最后附上完整的代码:

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import requests
import re
#"url=view-source:http://www.bestgushi.com/"
class pachong:
def pa_a(self,url):
# url="http://www.bestgushi.com/"
file=requests.get(url).text
new_lile=BeautifulSoup(file,'lxml')
# print (new_lile)
soup=BeautifulSoup(features="lxml")
p_1=new_lile.find_all('a') for i in p_1:
try:
result_list=re.findall("'href="'.+'"target'",i)
except:
print i['href']
x=pachong()
x.pa_a("http://www.bestgushi.com/")

最新文章

  1. [LeetCode] Bulls and Cows 公母牛游戏
  2. arduino红外遥控库IRremote的IRsend类sendRaw函数溢出问题及其解决方法
  3. jQ获取浏览器window的高宽
  4. groups, usermod, chown, chgrp, chmod
  5. Smarty基础
  6. "稀奇古怪的"delete this
  7. 【jQuery UI 1.8 The User Interface Library for jQuery】.学习笔记.8.Datepicker控件
  8. HDU 4618 Palindrome Sub-Array (2013多校2 1008 暴力)
  9. linux正则表达式之-基础正则表达式(基于grep)
  10. 浏览器中的XML与JavaScript
  11. Android SimpleAdapter源码详解
  12. nyoj 329 循环小数【KMP】【求最小循环节长度+循环次数+循环体】
  13. 基于xmpp openfire smack开发之openfire介绍和部署[1]
  14. 关于UNION和UNION ALL的区别
  15. Python使用mechanize模拟浏览器
  16. Navicate for mysql 数据库设计-数据库分析
  17. 使用PostProcessBuild设定Unity产生的Xcode Project
  18. Database Initialization Parameters for Oracle E-Business Suite Release 12
  19. scala获取某个时间间隔的时间
  20. sql脚本过大,无法打开的解决方法

热门文章

  1. Linux下无法执行tree命令问题
  2. python初识(3)
  3. HTTP 学习笔记01
  4. 每天学点node系列-fs文件系统(续)
  5. 如何查看jsplumb.js的API文档(YUIdoc的基本使用)
  6. HDU 1542:Atlantis(扫描线+线段树 矩形面积并)***
  7. top命令输出详解
  8. RT-Thread定时器以及结构体指针的一些思考
  9. STM32F072从零配置工程-串口USART配置
  10. Kafka部署