爬取静态数据并存储json

import requests
import chardet
from bs4 import BeautifulSoup
import json
user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'
headers={'User-Agent':user_agent}
r=requests.get('http://seputu.com/',headers=headers)
r.encoding=chardet.detect(r.content)['encoding']
soup=BeautifulSoup(r.text,features='html.parser')
content=[]
for mulu in soup.find_all(class_='mulu'):
h2=mulu.find('h2')
if(h2!=None):
h2_title=h2.string
list=[]
for a in mulu.find(class_='box').find_all('a'):
href=a.get('href')
box_title=a.get('title')
print(href,'|||',box_title)
list.append({'href':href,'box_title':box_title})
pass
content.append({'title':h2_title,'content':list})
pass
pass
with open('1.json','w') as fp:
json.dump(content, fp=fp,indent=4)

  

最新文章

  1. 安卓图标IconFont使用
  2. mysql优化limit分页
  3. Java_Java中动态加载jar文件和class文件
  4. livereload的简单使用
  5. 关于as中的事件与回调函数
  6. Python input()
  7. C#多线程(一)
  8. DotNetTextBox使用方法步骤
  9. 使用FindControl("id")查找控件 返回值都是Null的问题
  10. I NEED A OFFER!
  11. Oracle Autonomous Transactions(自治事务)
  12. 32位Linux文件限制大小
  13. sqlserver全文检索
  14. Hadoop基础-HDFS的API常见操作
  15. 49_分析代理类的作用与原理及AOP概念
  16. photoshop cs6安装过程中安装程序遇到错误:请重启计算机,解决办法
  17. 基于设备树的controller学习(1)
  18. ansible介绍和安装
  19. 【BZOJ】3302: [Shoi2005]树的双中心 && 2103: Fire 消防站 && 2447: 消防站
  20. VB命令行参数分隔, 类似C语言中的main(int argc, char* argv[])

热门文章

  1. 域内信息收集 powershell收集域内信息
  2. triplet
  3. linux IP 网关配置
  4. shell编程-定时任务(备份数据库)
  5. 【黑马Javaweb】1.1Junit单元测试
  6. Laravel 中如何区别 Model 或者是 Builder?
  7. [SQL Server 视图的创建- (create view必须是批处理中仅有的语句问题)]
  8. ORACLE PSU SPU (2015-11-04)
  9. 阶段3 3.SpringMVC·_06.异常处理及拦截器_6 SpringMVC拦截器之拦截器入门代码
  10. 使用Navicat为Oracle导入函数后函数显示红叉