这几天学了一点爬虫后写了个爬取电影top250的代码,分别用requests库和urllib库,想看看自己能不能搞出个啥东西,虽然很简单但还是小开心。

import requests
import re # https://movie.douban.com/top250?start=25&filter=
# <span class="title">勇士</span> count = 1 def getdata(url):
data = requests.get(url)
return data.text def showdata(data):
global count
regex = re.compile(r"<span class=\"title\">(.*?)</span>")
data = regex.findall(data)
newdata = data.copy()
for dataa in newdata:
if "nbsp" in dataa:
data.remove(dataa)
for i in data:
print(count, i)
count = count + 1 for i in range(0, 10):
i = i * 25
url = "https://movie.douban.com/top250?start={}&filter=".format(str(i))
data = getdata(url)
showdata(data) # 用requests来实现,正则表达式解析网页
import urllib
import urllib.request
import re
#https://movie.douban.com/top250?start=25&filter=
#<span class="title">勇士</span> count = 1
def getdata(url):
data = urllib.request.urlopen(url).read().decode("utf-8")
return data def showdata(data):
global count
regex = re.compile(r"<span class=\"title\">(.*?)</span>")
data = regex.findall(data)
newdata = data.copy()
for dataa in newdata:
if "nbsp" in dataa:
data.remove(dataa)
for i in data:
print(count,i)
count = count+1 for i in range(0,10):
i = i*25
url = "https://movie.douban.com/top250?start={}&filter=".format(str(i))
data = getdata(url)
showdata(data) #用urllib来实现,正则表达式解析网页

emmmmmmm

最新文章

  1. eclipse中jsp文档无语法着色,安装Eclipse Java Web Developer Tools插件
  2. java中&amp;与&amp;&amp;的区别
  3. Sqlserver 平面文件导入/ SSIS FlatFileSource导入文件时 出现LocaleID is not installed报错问题
  4. LoaderManager使用详解(一)---没有Loader之前的世界
  5. spring 占位符 默认值
  6. Silverlight C#动态设置样式
  7. [.NET WebAPI系列03] WebAPI Controller 中标准CRUD方法
  8. UVALive 3211 Now or later(2-sat)
  9. webdriver(python)学习笔记一
  10. 注册Model类
  11. PHP文件头部(header)解释
  12. VC socket Connect 超时时间设置
  13. [LeetCode]Copy List with Random Pointer &amp;amp;Clone Graph 复杂链表的复制&amp;amp;图的复制
  14. laravel实现excel表格导出
  15. 产生AJAX跨域问题的原因
  16. README.md用法
  17. 联发科安卓6.0项目的到来的第一个难题:tar的分包与并包
  18. QT连接postgreSQL
  19. java 模拟浏览器发送post请求
  20. 【错误整理】ora-00054:resource busy and acquire with nowait specified解决方法【转】

热门文章

  1. JavaScript实现单向链表结构
  2. Java——线程安全的集合
  3. Robot Framework(1)- 入门介绍
  4. Nginx 实现 HTTPS(基于 Let&#39;s Encrypt 的免费证书)
  5. 详解python操作生成excel表格,并且填充数据
  6. [安卓基础] 003.建立你的第一个App
  7. linux:基本指令
  8. 跟着阿里学JavaDay02——Java编程起步
  9. 个人工具,编辑器visual studio code
  10. 深入了解ConcurrentHashMap