一个简单的python爬虫(转)
2024-09-27 22:47:51
# -*- coding: utf-8 -*-
#---------------------------------------
# 程序:百度贴吧爬虫
# 版本:0.1
# 作者:why
# 日期:2013-05-14
# 语言:Python 2.7
# 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。
# 功能:下载对应页码内的所有页面并存储为html文件。
#--------------------------------------- import string, urllib2 #定义百度函数
def baidu_tieba(url,begin_page,end_page):
for i in range(begin_page, end_page+1):
sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名
print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'
f = open(sName,'w+')
m = urllib2.urlopen(url + str(i)).read()
f.write(m)
f.close() #-------- 在这里输入参数 ------------------ # 这个是山东大学的百度贴吧中某一个帖子的地址
#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='
#iPostBegin = 1
#iPostEnd = 10 bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))
begin_page = int(raw_input(u'请输入开始的页数:\n'))
end_page = int(raw_input(u'请输入终点的页数:\n'))
#-------- 在这里输入参数 ------------------ #调用
baidu_tieba(bdurl,begin_page,end_page)
最新文章
- C#使用StackTrace获取方法被谁调用
- yii-basic-app-2.0.5/basic/config/web.php
- 如何阻止SELECT * 语句
- iOS archive(归档)的总结 (序列化和反序列化,持久化到文件)
- C# 添加系统计划任务方案
- C++容器类的简介
- Extjs 3.4 和 web SSH(Ajaxterm)-howge-ChinaUnix博客
- 类模板语法知识体系梳理(包含大量常犯错误demo,尤其滥用友元函数的错误)
- C语言之回文数算法
- [Swift]LeetCode718. 最长重复子数组 | Maximum Length of Repeated Subarray
- .htaccess使用方法介绍
- Java复习总结——数据类型
- linux内存管理之malloc、vmalloc、kmalloc的区别
- IntelliJ IDEA :Error:(1, 1) java: 非法字符: '\ufeff'
- jvm内存模型及分配
- 【咸鱼教程】protobuf在websocket通讯中的使用
- h264 i p 帧特点
- reg文件中文乱码
- [PyTorch]PyTorch中反卷积的用法
- HDU - 6444(单调队列+思维)
热门文章
- [CODE FESTIVAL 2017]Full Tournament
- 【二分答案+智障的字符串hash】BZOJ2946-[Poi2000]公共串(Ranklist倒一达成!!!!!)【含hash知识点】
- 【线段树】HDU1394 - Minimum Inversion Number
- datatable无法设置横向滚动条(设置无效)
- ThreadPoolExecutor(线程池)源码分析
- GitHub 给已存在的仓库增加开原协议LICENSE
- iOS获取已安装的app列表(私有库)+ 通过包名打开应用
- 时间同步Servname not supported for ai_socktype
- Jenkins用HTTP Request Plugin插件进行网站的监控/加探针(运维监控)
- 手机在线更新系统MySQL数据库服务器参数优化mycnf,16G内存8核CPU,