Python练习六十:网页分析,找出里面的正文与链接
2024-09-06 12:42:05
网页分析,找出里面的正文与链接
代码如下:
from urllib import request
from bs4 import BeautifulSoup request = request.urlopen('https://www.baidu.com/')
request_text = request.read().decode('utf-8')
soup = BeautifulSoup(request_text,'lxml')
# print(soup.prettify)
url = soup.findAll('a')
contents1 = soup.contents #全部子节点
href1 = [] #链接
string1 = [] #正文
for i in url:
href1.append(i['href'])
for string in soup.stripped_strings:
string1.append(repr(string))
print(href1)
print('-----------------------------')
print(contents1)
print('-----------------------------')
print(string1)
执行结果忽略
网页分析可具体查看:https://www.cnblogs.com/pinpin/p/10260405.html
最新文章
- 查找Linux中内存和CPU使用率最高的进程
- 在JS中关于堆与栈的认识function abc(a){ 	a=100; } function abc2(arr){ 	arr[0]=0; }
- 简单的解释XSS攻击
- c++ 常数后缀说明
- 原生js实现tab选项卡
- asp.net使用MVC4框架基于NPOI做导出数据到Excel表
- 使用redis来实现分布式锁
- 仿新浪微博短网址PHP实现方案
- MySQL基数(索引基数)
- TOMCAT启动流程分析
- iperf使用指南
- <;软件体系结构>;实验框架选择及其说明
- Tomcat学习总结(4)——基于Tomcat7、Java、WebSocket的服务器推送聊天室
- GreenPlum数据库安装
- 根据wsdl文件,soupUI生成webservice客户端代码
- too few PGs per OSD (20 <; min 30)
- 创建/读取/删除Session对象
- Hadoop中Writable类之二
- shell脚本执行方式
- Node JVM