1 简介

from bs4 import BeautifulSoup

soup=BeautifulSoup(<p>data</p>,'html.parser')

2 基本元素

解析,遍历,维护,标签树的库

<p class="title"> ...</p>    tag对

名称 (属性 attributes)

beautifulsoup 或bs4

from bs4 import BeautifulSoup

import bs4

beautifulSoup 雷

html--------标签树(字符串)转换为beautifulsoup类

from bs4 import BeautifulSoup

soup=

注:解析器(4种)

html.parser    安装bs4库

lxml      pip install lxml

xml                同上

html5lib    pipinstall html5lib

beautiful 类的基本元素

Tag  标签 尖括号开头结尾

Name  格式:<tag>.name  <p>的名字是 ''p''

Attributes      标签的属性,字典形式组织  <tag>.attrs

NavigableString 标签内非属性字符串  表示尖括号之间的内容

soup.a.string 就可以了

Comment     标签内字符串的注释部分

用string 也可以得出这个类型

3 标签树的遍历

.contents 获得子节点的列表

.children 获得子节点的迭代形式

.descendants 获得子孙的迭代形式

儿子节点不管包括标签 还包括\n

soup.body.contents

.parent 节点的父亲标签

.parnets 节点的先辈形式迭代版的

平行遍历(返回按照html文本顺序的节点标签)

平行遍历时实在同一个父标签下的遍历

.next_sibling

.previous_sibling

.next_siblings   迭代版

.next_previous_siblings 迭代版

4 基于bs4显示html的内容

from bs4 import BeautifulSoup

soup=BeautifulSoup(demo,"html.parser")   //加载解析器的语句

soup.prettify()  //soup 是 BeautifulSoup类型 用以解析html 或者遍历html

"prettify()方法非常好用"

#增加换行符

print(soup.prettify())

最新文章

  1. ABP源码分析十三:缓存Cache实现
  2. Bootstrap之栅格系统
  3. J2EE,J2SE,J2ME,JDK,SDK,JRE,JVM区别
  4. maven web启动报错java.lang.ClassNotFoundException: org.springframework.web.util.Log4jConfigListener
  5. GitHub上排名前100的iOS开源库介绍(来自github)
  6. String对象的方法
  7. ECMAScript5下Array的方法
  8. zend studio 10破解/汉化(转发)
  9. (转)Make命令简介与使用
  10. 防止跨域(jsonp详解)
  11. AFNetworking网络请求的get和post步骤
  12. Unity3d之MiniJson与LitJson之间的较量
  13. (七)第一个python程序!
  14. 【canvas系列】canvas实现“ 简单的Amaziograph效果”--画对称图
  15. java多线程系列(六)---线程池原理及其使用
  16. yum仓库管理
  17. lr11录制脚本出现中文乱码
  18. C简单实现动态顺序表
  19. 吴恩达机器学习笔记48-降维目标:数据压缩与可视化(Motivation of Dimensionality Reduction : Data Compression &amp; Visualization)
  20. mui 打开外网链接返回的正姿势!

热门文章

  1. Online开发初体验——Jeecg-Boot 在线配置图表
  2. PHP实现图片的汉明码提取与降维
  3. Django项目: 2.模板抽取
  4. mysql case....when条件
  5. 使用springmvc实现文件上传
  6. CodeForces 232C Doe Graphs(分治+搜索)
  7. Leetcode322. Coin Change零钱兑换
  8. EnumProcess 实现枚举进程
  9. 跟我一起在ubuntu中安装docker
  10. odoo xml 时间搜索条件