# -*- coding: utf-8 -*-
#---------------------------------------
# 程序:百度贴吧爬虫
# 版本:0.1
# 作者:why
# 日期:2013-05-14
# 语言:Python 2.7
# 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。
# 功能:下载对应页码内的所有页面并存储为html文件。
#--------------------------------------- import string, urllib2 #定义百度函数
def baidu_tieba(url,begin_page,end_page):
for i in range(begin_page, end_page+1):
sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名
print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'
f = open(sName,'w+')
m = urllib2.urlopen(url + str(i)).read()
f.write(m)
f.close() #-------- 在这里输入参数 ------------------ # 这个是山东大学的百度贴吧中某一个帖子的地址
#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='
#iPostBegin = 1
#iPostEnd = 10 bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))
begin_page = int(raw_input(u'请输入开始的页数:\n'))
end_page = int(raw_input(u'请输入终点的页数:\n'))
#-------- 在这里输入参数 ------------------ #调用
baidu_tieba(bdurl,begin_page,end_page)

最新文章

  1. C#使用StackTrace获取方法被谁调用
  2. yii-basic-app-2.0.5/basic/config/web.php
  3. 如何阻止SELECT * 语句
  4. iOS archive(归档)的总结 (序列化和反序列化,持久化到文件)
  5. C# 添加系统计划任务方案
  6. C++容器类的简介
  7. Extjs 3.4 和 web SSH(Ajaxterm)-howge-ChinaUnix博客
  8. 类模板语法知识体系梳理(包含大量常犯错误demo,尤其滥用友元函数的错误)
  9. C语言之回文数算法
  10. [Swift]LeetCode718. 最长重复子数组 | Maximum Length of Repeated Subarray
  11. .htaccess使用方法介绍
  12. Java复习总结——数据类型
  13. linux内存管理之malloc、vmalloc、kmalloc的区别
  14. IntelliJ IDEA :Error:(1, 1) java: 非法字符: '\ufeff'
  15. jvm内存模型及分配
  16. 【咸鱼教程】protobuf在websocket通讯中的使用
  17. h264 i p 帧特点
  18. reg文件中文乱码
  19. [PyTorch]PyTorch中反卷积的用法
  20. HDU - 6444(单调队列+思维)

热门文章

  1. [CODE FESTIVAL 2017]Full Tournament
  2. 【二分答案+智障的字符串hash】BZOJ2946-[Poi2000]公共串(Ranklist倒一达成!!!!!)【含hash知识点】
  3. 【线段树】HDU1394 - Minimum Inversion Number
  4. datatable无法设置横向滚动条(设置无效)
  5. ThreadPoolExecutor(线程池)源码分析
  6. GitHub 给已存在的仓库增加开原协议LICENSE
  7. iOS获取已安装的app列表(私有库)+ 通过包名打开应用
  8. 时间同步Servname not supported for ai_socktype
  9. Jenkins用HTTP Request Plugin插件进行网站的监控/加探针(运维监控)
  10. 手机在线更新系统MySQL数据库服务器参数优化mycnf,16G内存8核CPU,