采集后的数据都带有'<>'html标签:

<img src="http://i4.hdfimg.com/www/images/giftrans/3d/da/7b/18414.gif" border="0"/><span class='WmoJPQM2AzpQMA'>科研<span class='WmoJPQM2AzhQMQ'>最早和<span class='WmoJPQM2AzxQNw'>一项<span class='WmoJPQM2AzdQOA'>教学为一体的现代化<span class='WmoJPQM2AzhQOA'>综合<span class='WmoJPQM2AzhQMQ'>师从性省级医院
 
在这里只要将所有带<>去除即可:
 
dr = re.compile(r'<[^>]+>',re.S)
dd = dr.sub('',Html)
 
完整的python脚本:
第一个函数:将一个字段中的刮号去除
第二个函数:将html中的所有标签去除
 

最新文章

  1. heart
  2. php-cli模式学习(PHP命令行模式)(转)
  3. [jQuery编程挑战]004 针对选择框词典式排序
  4. css margin collapse
  5. SQL Server 大数据量批量插入
  6. stm32-ucos移植lwip-1(raw)
  7. 系统引导修复 ---- Windows 和 Ubuntu
  8. SSM实战
  9. protobuf、LRU、sigleflight
  10. vue全面介绍
  11. as3的全屏功能的实现主要是舞台stage的displayState属性
  12. P1412 经营与开发
  13. day14 多态与抽象
  14. rubygems ruby国内源
  15. MySQL简单实现多字段模糊查询
  16. python(五)常用模块学习
  17. realsense pcl git
  18. Spring_使用外部属性文件
  19. 【bzoj4236】JOIOJI STL-map
  20. Maven + Jetty 部署锁文件解决办法

热门文章

  1. Day17_101_IO_FileReaderAndFileWriterCopy
  2. Day11_56_在SortedSet中使用泛型
  3. 浅谈Asp.net Mvc之Action如何传多个参数的方法
  4. hdu4982 暴搜+剪枝(k个数和是n,k-1个数的和是平方数)
  5. CVE-2011-0104:Microsoft Office Excel 中的栈溢出漏洞调试分析
  6. Node-Web应用框架Express
  7. CentOS7 搭建 Redis 集群
  8. 月薪6K和月薪2W的测试,有什么区别?
  9. CMMI V2.0丨如何通过CMMI真正在企业中的实施规模化敏捷开发
  10. jenkins邮件报警机制配置