网页分析,找出里面的正文与链接

代码如下:

from urllib import request
from bs4 import BeautifulSoup request = request.urlopen('https://www.baidu.com/')
request_text = request.read().decode('utf-8')
soup = BeautifulSoup(request_text,'lxml')
# print(soup.prettify)
url = soup.findAll('a')
contents1 = soup.contents #全部子节点
href1 = [] #链接
string1 = [] #正文
for i in url:
href1.append(i['href'])
for string in soup.stripped_strings:
string1.append(repr(string))
print(href1)
print('-----------------------------')
print(contents1)
print('-----------------------------')
print(string1)

执行结果忽略

网页分析可具体查看:https://www.cnblogs.com/pinpin/p/10260405.html

最新文章

  1. 查找Linux中内存和CPU使用率最高的进程
  2. 在JS中关于堆与栈的认识function abc(a){ a=100; } function abc2(arr){ arr[0]=0; }
  3. 简单的解释XSS攻击
  4. c++ 常数后缀说明
  5. 原生js实现tab选项卡
  6. asp.net使用MVC4框架基于NPOI做导出数据到Excel表
  7. 使用redis来实现分布式锁
  8. 仿新浪微博短网址PHP实现方案
  9. MySQL基数(索引基数)
  10. TOMCAT启动流程分析
  11. iperf使用指南
  12. <软件体系结构>实验框架选择及其说明
  13. Tomcat学习总结(4)——基于Tomcat7、Java、WebSocket的服务器推送聊天室
  14. GreenPlum数据库安装
  15. 根据wsdl文件,soupUI生成webservice客户端代码
  16. too few PGs per OSD (20 < min 30)
  17. 创建/读取/删除Session对象
  18. Hadoop中Writable类之二
  19. shell脚本执行方式
  20. Node JVM

热门文章

  1. css背景图片位置:background的position(转)
  2. springmvc 注解扫描失败的可能原因
  3. 使用Java2D改善API的绘制效果
  4. IFC文档结构说明
  5. PCL—点云分割(最小割算法) 低层次点云处理
  6. ASCII\UNICODE编码的区别
  7. R: 绘图 pie & hist
  8. Luogu 2375 [NOI2014]动物园
  9. Luogu 2467 [SDOI2010]地精部落
  10. 使用paramiko连接EC2主机