【数量技术宅 | Python爬虫系列分享】实时监控股市重大公告的Python爬虫
实时监控股市重大公告的Python爬虫小技巧
精力有限的我们,如何更加有效率地监控信息?
很多时候特别是交易时,我们需要想办法监控一些信息,比如股市的公告。如果现有的软件没有办法实现我们的需求,那么就要靠我们自己动手,才能丰衣足食。
你在交易看盘时,如果有一个小窗口,平时默默的不声不响,但是如果有公告发布,就会显示公告的信息:这是什么公告,然后给我们公告的链接。这样,既不会像弹窗那样用信息轰炸我们,又能够定制我们自己想要的内容,做到想看就看,想不看就不看,那就很方便了。
爬虫抓取的是东方财富上的上市公司公告,上市公司公告有些会在盘中公布。实时监控的原理,其实就是程序代替人工,定期地去刷新网页,然后用刷新前后得到的数据进行比对,如果一样,那么等待下一个周期继续刷新,如果不一样,那么就把增量信息提取出来,供我们查阅。
利用python爬虫实时监控公告信息四部曲
第一步,导入随机请求头和需要的包
我们使用json来解析获取的信息,使用什么方法解析数据取决于我们请求数据的返回形式,这里使用json最方便,我们就导入json包。
第二步,获取初始的公告数据
我们发现,每一个公告都有一个独有的文章号码:art_code,因此我们以这个号码作为新旧比较的基准,如果新页面的头一个公告的art_code和已有的一致,那么就进入下一个刷新周期,如果不一致,那么说明页面已经更新过了,我们提取最新的报告,同时更新这个art_code,用于下一次比对。
原始url的获取。获取之后,通过json解析其中的内容,得到art_code,覆盖写入在tmp.txt文件中,用于比对。
读取了tmp.txt文件中的art_code,跟页面解析的art_code比对。
第三步,获取公告标题和文章链接
通过json我们基本上已经能够解析出大部分的数据内容。
通过观察网站的公告链接的特点,我们发现主要的差别就是在art_code,因此通过网址链接的拼接,我们就能够得到公告的pdf链接。
第四步,运行我们的程序
程序运行的结果会打印到窗口当中,每当有新的公告发布,程序上就会出现一串新的信息。
最后
自此,我们通过程序把我们要的信息打印到了程序的运行窗口,同时,我们的程序也可以根据我们需求进行强化和扩充。首先,这些信息也可以非常方便的通过接口发送到邮箱、钉钉等平台,起到实时提醒的作用,其次,我们也可以从不同的地方抓取信息,完成所需信息的自定义整合,这些将在我们后续的文章中提到。
最新文章
- 1.2 - C#语言习惯 - 用运行时常量readonly而不是编译期常量const
- webapi 通过dynamic 接收可变参数
- leetcode 111
- parentNode parentElement childNodes children
- xtraScrollableControl 滚动条随鼠标滚动
- ☀【SeaJS】SeaJS Grunt构建
- Android Studio “Project Structure”选项目录结构显示异常
- U+00A0 (Non-breaking space)无法被正确压缩
- SVN无法修改以前提交日志的办法
- 【转】Jenkins 安装与配置
- IAR map 文件报告与Flash 大小关系
- Java设计模式之工厂模式(Factory模式)介绍(转载)
- Chrome RenderText分析(1)
- MT【82】凸函数
- 【BZOJ-4212】神牛的养成计划 Trie树 + 可持久化Trie树
- php sockent通信
- python基础---->;python的使用(一)
- WPF中为窗体设置背景图片
- Struct2总结
- OC 和 swift 冒泡排序