背景

前段时间给朋友写了一个自动抓取同花顺股票数据的程序,不少人觉得不错。

这几天后台有粉丝给我留言让我也抓一下东方财富的数据,说东方财富的数据特别难抓,我还真不一定能搞得定。

本来我是一个德艺双磬且与世无争的佛系程序员,小小的激将法怎么会激到我,但在京隔离期间实在太闲,就看了下东方财富的网站。真是不看不知道,一看吓一跳,这网站做的我口吐芬芳。

抓取思路

我们先看下这个网站的资金流向排行榜,里面有各大股市的股票资金数据

炒股(韭菜)的都知道,如果一个股票的净流入大单很多,那说明股票涨,流入越大,涨的越多。所以关注一只股票的资金流向很重要,而东方财富专门有个资金流向的板块给我们提供数据。于是抓取这个页面的资金流向数据就很关键,根据页面源码和抓包分析,进入这个网站时,会分配一个token。而表格中的数据是异步加载的,获取数据的请求中会带着这个token,所以我们第一步要搞定这个token。根据页面中的表格我们可以看到这个页面的数据进行了分页,每页50个,所以在抓取时需要根据分页循环抓取数据,直至尾页。

总结步骤:

  • 获取token

  • 分页抓取

  • 清洗数据

  • 数据入库

数据入库

给大家看看我最近爬下来的数据:

抓取的代码我直接写成了一个定时任务DFCFFundFlowCrawlerJob.java,大家可以直接复制到任何springboot工程中,直接运行就行,太长了,这里就不展示了。

github地址:https://github.com/chinashuai/crawler-stock-data-all

最新文章

  1. pagebean pagetag java 后台代码实现分页 demo 前台标签分页 后台java分页
  2. [python]设计模式
  3. 魅族M8时期写过几个app,纪念一下曾经的自己
  4. [IOS 开发] 懒加载 (延迟加载) 的基本方式,好处,代码示例
  5. 求两个集合的交集和并集C#
  6. JDBC学习2:为什么要写Class.forName("XXX")?
  7. 深入理解javascript函数系列第一篇——函数概述
  8. CMake入门以及学习笔记
  9. yii 多表联合查询的几种方法
  10. jQuery 1.9 .live() is not a function
  11. [LeetCode]题解(python):035-Search Insert Position
  12. desin pattern
  13. web测试方面的知识
  14. TDD中的单元测试
  15. Javascript事件绑定及深入
  16. OC中Foundation框架之NSString、NSMutableString
  17. 使用axios post 提交数据,后台获取不到提交的数据解决方案
  18. Find The Multiply
  19. Docker 控制组
  20. Ext JS 5初探(一)

热门文章

  1. 摆书 book
  2. 《图解HTTP》学习笔记之入门
  3. Docker日志管理–docker部署安装ELK (十一)
  4. 【运维】Vmware虚拟机静态IP的设置
  5. selenium的文档API
  6. php第三天-数组的定义,数组的遍历,常规数组的操作
  7. Dominate【操作系统的经典算法】
  8. 084 01 Android 零基础入门 02 Java面向对象 01 Java面向对象基础 02 构造方法介绍 03 构造方法-this关键字
  9. Matlab中fspecial的用法
  10. mysql时间SQL