网站:www.minimp4.com

# coding=utf-8
import requests
from lxml import etree
class Minimpe_moves(object): def Getmovies(self,page):
url = 'http://www.minimp4.com/movie/?page={}'.format(page)
html = requests.get(url)
htmml = etree.HTML(html.text)#解析网页
href = htmml.xpath('//div[@class="meta"]/h1/a/@href') for url_moves in href:
html1 = requests.get(url_moves)
htmml1 = etree.HTML(html1.text)
movie_name = htmml1.xpath('//div[@class="movie-meta"]/h1/text()')#提取电影名字
#movie_actor =htmml1.xpath('//div[@class="movie-meta"]/p[@id="casts"]/a/text()')#爬取主演名字 print (movie_name)
Minimpe_moves.saveMovies(movie_name)
#语法糖 装饰器 静态方法
@staticmethod
def saveMovies(data):
with open('movies.txt','a',encoding = 'utf-8') as f:
f.write(data[0]+'\n') #内置属性,别的文件引入这个文件时,无法执行下面代码
if __name__ == "__main__":
minimp4 = Minimpe_moves () for n in range(11):#爬取1到10页
minimp4.Getmovies(n)

上图是各个电影主演,基本上每部电影的各个信息都能爬取下来,只需修改对应的xpath即可.

最新文章

  1. Salesforce Apex 使用JSON数据的示例程序
  2. 获取youku视频下载链接(wireshark抓包分析)
  3. cocos2dx解决苹果正版ipv6的问题
  4. asp.net mvc表单异步提交
  5. border-style 属性
  6. gcc编译参数-fPIC的一些问题
  7. c#遍历并判断实体或类的成员属性
  8. python建立pip.ini
  9. C# Process 类的思考
  10. android中的样式和主题
  11. Executors常用的创建ExecutorService的几个方法说明
  12. DataTable数据与Excel表格的相互转换
  13. 从sample来学习Java堆(转)
  14. JS学习之事件冒泡
  15. IOS开发小记-内存管理
  16. tcp/ip详解 卷1 -- 协议概述
  17. 第一章:windows下 python 的安装和使用
  18. jQuery选择器(子元素过滤选择器)第七节
  19. 记一次WordPress 安装的过程
  20. Oracle数据库备份及还原

热门文章

  1. URAL_1146/uva_108 最大子矩阵 DP 降维
  2. 吴裕雄--天生自然JAVA SPRING框架开发学习笔记:Spring基于XML装配Bean
  3. Spring装配Bean的一些高级技巧
  4. BZOJ 3197 [Sdoi2013]assassin
  5. 9.1hadoop 内置计数器、自定义枚举计数器、Streaming计数器
  6. java课程之团队开发冲刺阶段1.9
  7. 使用Python绘制新型冠状肺炎全国增长趋势图
  8. 题解 P1019 【单词接龙】
  9. 客户主题分析(tableau)—客户分群
  10. Windows系统 查询已开通的端口号和对外开放端口号