一、爬取前提
1)本地安装了mysql数据库
2)安装了idea或者eclipse等开发工具 二、爬取内容
电影名称、电影简介、电影图片、电影下载链接 三、爬取逻辑
1)进入电影网列表页, 针对列表的html内容进行数据提取 电影名称,电影简介, 电影图片, 电影详情URL, 插入数据库表
2)通过步骤1获取到的电影详情URL, 进入电影详情页, 获取下载链接, 更新数据库的下载链接字段
3)循环执行如上过程,直到数据被爬取完或者循环完毕。 三、爬取步骤
1)本地初始化数据库脚本 database.sql
SET FOREIGN_KEY_CHECKS=0;

-- ----------------------------
-- Table structure for movie
-- ----------------------------
DROP TABLE IF EXISTS `movie`;
CREATE TABLE `movie` (
`id` bigint(20) NOT NULL AUTO_INCREMENT,
`title` varchar(100) DEFAULT NULL,
`pic_url` varchar(100) DEFAULT NULL,
`target_url` varchar(100) DEFAULT NULL,
`introduction` varchar(1000) DEFAULT NULL,
`download_url` text,
`create_time` datetime DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;

2) 运行 MovieMain.java 函数, 开启爬虫(当前只爬取1000页数据, 总共约10万部电影)

3)查询数据库表, 观察爬取数据清空

select * from movie;

四、github代码地址

https://github.com/mhlmelon/SpiderMovie

五、总结

优点:方便调试

不足:java版本速度较慢(每秒爬10条左右),后续会补上python的版本。

最新文章

  1. 上传到github!
  2. fiddler 配置
  3. JS 复制对象
  4. Java中的char到底是多少个字节?
  5. svn不知道这样的主机
  6. awk 合并文件
  7. [Tex学习笔记]写文章需要规范、需要引用到位. [LaTeX代码]
  8. MSTest、NUnit、xUnit.net 属性和断言对照表
  9. IOS APP上下黑边问题
  10. C# is as
  11. .net学习笔记---HttpResponse类
  12. 30个深度学习库:按Python、C++、Java、JavaScript、R等10种语言分类
  13. Servlet和JAVA BEAN 分析探讨
  14. Young不等式的一个新证明
  15. big_table练习数据表
  16. MDCC 2014移动开发者大会 小礼品展商活动
  17. NOIP算法总结与复习
  18. 使用Docker+Jenkins自动构建部署
  19. 痞子衡嵌入式:飞思卡尔i.MX RT系列MCU特性介绍(2)- RT1052DVL6性能实测
  20. vuex最简单、最详细的入门文档

热门文章

  1. C# - VS2019 WinFrm应用程序连接Access数据库,并简单实现数据库表的数据查询、显示
  2. 1-HTTPS之SNI介绍
  3. pytest-fixture参数化
  4. Linux用户和权限——管理文件权限的命令
  5. 剑指 Offer——3. 从尾到头打印链表
  6. Freemarker简单封装
  7. JavaScript RegExp(正则表达式) 对象
  8. Bootstrap-table表格插件的使用方法
  9. 实战讲解XXE漏洞的利用与防御策略
  10. Ansible配置执行远程主机的ssh端口号