去除HTML中的标签内容
2024-08-27 20:28:41
采集后的数据都带有'<>'html标签:
<img src="http://i4.hdfimg.com/www/images/giftrans/3d/da/7b/18414.gif" border="0"/><span class='WmoJPQM2AzpQMA'>科研<span class='WmoJPQM2AzhQMQ'>最早和<span class='WmoJPQM2AzxQNw'>一项<span class='WmoJPQM2AzdQOA'>教学为一体的现代化<span class='WmoJPQM2AzhQOA'>综合<span class='WmoJPQM2AzhQMQ'>师从性省级医院
在这里只要将所有带<>去除即可:
dr = re.compile(r'<[^>]+>',re.S)
dd = dr.sub('',Html)
完整的python脚本:
第一个函数:将一个字段中的刮号去除
第二个函数:将html中的所有标签去除
最新文章
- heart
- php-cli模式学习(PHP命令行模式)(转)
- [jQuery编程挑战]004 针对选择框词典式排序
- css margin collapse
- SQL Server 大数据量批量插入
- stm32-ucos移植lwip-1(raw)
- 系统引导修复 ---- Windows 和 Ubuntu
- SSM实战
- protobuf、LRU、sigleflight
- vue全面介绍
- as3的全屏功能的实现主要是舞台stage的displayState属性
- P1412 经营与开发
- day14 多态与抽象
- rubygems ruby国内源
- MySQL简单实现多字段模糊查询
- python(五)常用模块学习
- realsense pcl git
- Spring_使用外部属性文件
- 【bzoj4236】JOIOJI STL-map
- Maven + Jetty 部署锁文件解决办法
热门文章
- Day17_101_IO_FileReaderAndFileWriterCopy
- Day11_56_在SortedSet中使用泛型
- 浅谈Asp.net Mvc之Action如何传多个参数的方法
- hdu4982 暴搜+剪枝(k个数和是n,k-1个数的和是平方数)
- CVE-2011-0104:Microsoft Office Excel 中的栈溢出漏洞调试分析
- Node-Web应用框架Express
- CentOS7 搭建 Redis 集群
- 月薪6K和月薪2W的测试,有什么区别?
- CMMI V2.0丨如何通过CMMI真正在企业中的实施规模化敏捷开发
- jenkins邮件报警机制配置