爬取迷你mp4各个电影信息
2024-10-08 18:40:22
网站:www.minimp4.com
# coding=utf-8
import requests
from lxml import etree
class Minimpe_moves(object):
def Getmovies(self,page):
url = 'http://www.minimp4.com/movie/?page={}'.format(page)
html = requests.get(url)
htmml = etree.HTML(html.text)#解析网页
href = htmml.xpath('//div[@class="meta"]/h1/a/@href')
for url_moves in href:
html1 = requests.get(url_moves)
htmml1 = etree.HTML(html1.text)
movie_name = htmml1.xpath('//div[@class="movie-meta"]/h1/text()')#提取电影名字
#movie_actor =htmml1.xpath('//div[@class="movie-meta"]/p[@id="casts"]/a/text()')#爬取主演名字
print (movie_name)
Minimpe_moves.saveMovies(movie_name)
#语法糖 装饰器 静态方法
@staticmethod
def saveMovies(data):
with open('movies.txt','a',encoding = 'utf-8') as f:
f.write(data[0]+'\n')
#内置属性,别的文件引入这个文件时,无法执行下面代码
if __name__ == "__main__":
minimp4 = Minimpe_moves ()
for n in range(11):#爬取1到10页
minimp4.Getmovies(n)
上图是各个电影主演,基本上每部电影的各个信息都能爬取下来,只需修改对应的xpath即可.
最新文章
- Salesforce Apex 使用JSON数据的示例程序
- 获取youku视频下载链接(wireshark抓包分析)
- cocos2dx解决苹果正版ipv6的问题
- asp.net mvc表单异步提交
- border-style 属性
- gcc编译参数-fPIC的一些问题
- c#遍历并判断实体或类的成员属性
- python建立pip.ini
- C# Process 类的思考
- android中的样式和主题
- Executors常用的创建ExecutorService的几个方法说明
- DataTable数据与Excel表格的相互转换
- 从sample来学习Java堆(转)
- JS学习之事件冒泡
- IOS开发小记-内存管理
- tcp/ip详解 卷1 -- 协议概述
- 第一章:windows下 python 的安装和使用
- jQuery选择器(子元素过滤选择器)第七节
- 记一次WordPress 安装的过程
- Oracle数据库备份及还原
热门文章
- URAL_1146/uva_108 最大子矩阵 DP 降维
- 吴裕雄--天生自然JAVA SPRING框架开发学习笔记:Spring基于XML装配Bean
- Spring装配Bean的一些高级技巧
- BZOJ 3197 [Sdoi2013]assassin
- 9.1hadoop 内置计数器、自定义枚举计数器、Streaming计数器
- java课程之团队开发冲刺阶段1.9
- 使用Python绘制新型冠状肺炎全国增长趋势图
- 题解 P1019 【单词接龙】
- 客户主题分析(tableau)—客户分群
- Windows系统 查询已开通的端口号和对外开放端口号