在爬取详细信息页面中,又遇到了问题,就是标签内的信息爬取,用re的正则表达式没有找到解决办法,只能又去网上搜索解决办法

用bs4来解决,用

soup = BeautifulSoup(text,"html.parser")#解析text中的HTML

来进行分析,虽说这样会有标签信息附着,从网上找到解决办法,

第一种方法

调用find(text=True).strip()

第二种方法

调用stripped_strings

第三种方法

.get_text().lstrip().rstrip()

个人感觉第三种很好用,在实践之后特意添加

经过测试,不是很理想,对于简单的,只有div标签的很容易,对于第一种,好多p标签的就不好用了,正在寻找更加实用的代码

for add in ad:
r = add
address_ = "http://www.beijing.gov.cn/hudong/hdjl/com.web.consult.consultDetail.flow?originalId=%s" % add
print(address_)
# 爬取子页面的网页
html2 = requests.get(address_,headers = head2).text
reqname = re.findall(r'<div class="col-xs-10 col-sm-10 col-md-10 o-font4 my-2"><strong>(.*?)</strong></div>',html2)
reqtime = re.findall(r'<div class="col-xs-5 col-lg-3 col-sm-3 col-md-3 text-muted ">时间:(.*?)</div>',html2)
reqcontent = re.findall(r'<div class="col-xs-12 col-md-12 column p-2 text-muted mx-2">(.*?)</div>',html2)
# resname = re.findall(r'<strong>[官方回答]:</strong>(.*?)</div>',html2)
bs = bs4.BeautifulSoup(html2,"html.parser")
resname = bs.find('div',class_ = r''"col-xs-12 col-md-12 column p-2 text-muted mx-2"'')
print(reqname,reqtime,reqcontent,resname)
# print(html2)

  

最新文章

  1. Java Web之JSP技术
  2. ZooKeeper 配置文件(zoo.cfg)详解
  3. MVC 读书笔记
  4. VRP-Lua学习笔记
  5. YOUYOU深入学习Ganglia之三(gmetad的软件架构)
  6. sql优化-隐形转换危害
  7. mydumper原理5
  8. Spring_构造注入
  9. jvm系列(四):jvm知识点总结
  10. sqoop: mysql to hive
  11. layer 关闭当前弹出层
  12. sns.pairplot
  13. php学习之mysqli的面向对象
  14. html页面使用前端框架布局时,弹出子页面等情况若出现布局混乱,可能是回发导致
  15. zabbix web 配置
  16. jmeter 4.0版本更新说明(个人做个记录)总版本更新合集
  17. idea 码云 项目上传
  18. Cwrsync_rsync windows_windows下的rsync
  19. 织梦dedecms获取当前内容页栏目id号的方法
  20. UNITY 带spriterender的对象导出为prefab时主贴图丢失的BUG

热门文章

  1. Eclipse修改方法内容不用重启Jetty服务器
  2. 云ERP真的已经玩不转了吗?
  3. MegEngine推理性能优化
  4. pycham_编码格式设置,处理打印log乱码,处理读取配置文件报错
  5. Firfox、Chrome之python-selenium环境搭建
  6. 深入理解java虚拟机笔记Chapter8
  7. 尚硅谷Java——宋红康笔记【day19-day24】
  8. 【NX二次开发】Block UI 标签/位图
  9. centos 7 查看磁盘使用情况
  10. Python3中列表、字典、元组、集合的看法