实时监控股市重大公告的Python爬虫小技巧

  • 精力有限的我们,如何更加有效率地监控信息?

很多时候特别是交易时,我们需要想办法监控一些信息,比如股市的公告。如果现有的软件没有办法实现我们的需求,那么就要靠我们自己动手,才能丰衣足食。

你在交易看盘时,如果有一个小窗口,平时默默的不声不响,但是如果有公告发布,就会显示公告的信息:这是什么公告,然后给我们公告的链接。这样,既不会像弹窗那样用信息轰炸我们,又能够定制我们自己想要的内容,做到想看就看,想不看就不看,那就很方便了。

爬虫抓取的是东方财富上的上市公司公告,上市公司公告有些会在盘中公布。实时监控的原理,其实就是程序代替人工,定期地去刷新网页,然后用刷新前后得到的数据进行比对,如果一样,那么等待下一个周期继续刷新,如果不一样,那么就把增量信息提取出来,供我们查阅。

  • 利用python爬虫实时监控公告信息四部曲

第一步,导入随机请求头和需要的包

我们使用json来解析获取的信息,使用什么方法解析数据取决于我们请求数据的返回形式,这里使用json最方便,我们就导入json包。

第二步,获取初始的公告数据

我们发现,每一个公告都有一个独有的文章号码:art_code,因此我们以这个号码作为新旧比较的基准,如果新页面的头一个公告的art_code和已有的一致,那么就进入下一个刷新周期,如果不一致,那么说明页面已经更新过了,我们提取最新的报告,同时更新这个art_code,用于下一次比对。

  1. 原始url的获取。获取之后,通过json解析其中的内容,得到art_code,覆盖写入在tmp.txt文件中,用于比对。

  2. 读取了tmp.txt文件中的art_code,跟页面解析的art_code比对。

第三步,获取公告标题和文章链接

  1. 通过json我们基本上已经能够解析出大部分的数据内容。

  2. 通过观察网站的公告链接的特点,我们发现主要的差别就是在art_code,因此通过网址链接的拼接,我们就能够得到公告的pdf链接。

第四步,运行我们的程序

程序运行的结果会打印到窗口当中,每当有新的公告发布,程序上就会出现一串新的信息。

  • 最后

自此,我们通过程序把我们要的信息打印到了程序的运行窗口,同时,我们的程序也可以根据我们需求进行强化和扩充。首先,这些信息也可以非常方便的通过接口发送到邮箱、钉钉等平台,起到实时提醒的作用,其次,我们也可以从不同的地方抓取信息,完成所需信息的自定义整合,这些将在我们后续的文章中提到。

最新文章

  1. 1.2 - C#语言习惯 - 用运行时常量readonly而不是编译期常量const
  2. webapi 通过dynamic 接收可变参数
  3. leetcode 111
  4. parentNode parentElement childNodes children
  5. xtraScrollableControl 滚动条随鼠标滚动
  6. ☀【SeaJS】SeaJS Grunt构建
  7. Android Studio “Project Structure”选项目录结构显示异常
  8. U+00A0 (Non-breaking space)无法被正确压缩
  9. SVN无法修改以前提交日志的办法
  10. 【转】Jenkins 安装与配置
  11. IAR map 文件报告与Flash 大小关系
  12. Java设计模式之工厂模式(Factory模式)介绍(转载)
  13. Chrome RenderText分析(1)
  14. MT【82】凸函数
  15. 【BZOJ-4212】神牛的养成计划 Trie树 + 可持久化Trie树
  16. php sockent通信
  17. python基础---->python的使用(一)
  18. WPF中为窗体设置背景图片
  19. Struct2总结
  20. OC 和 swift 冒泡排序

热门文章

  1. idea创建web项目,不能自动导入tomcat包,导致调用request的方法时,无法正常调用
  2. Python最火的第三方开源测试框架 ——pytest
  3. 快速构建一个完整的Selenium框架
  4. HMM隐马尔可夫模型来龙去脉(二)
  5. 让这个Java语言的开源商城系统火起来
  6. Easy Problem(等差数列求和导公式)
  7. libtorrent资料整理
  8. 博主心酸历程:初始Hadoop安装安装过程出现的各种问题。
  9. Template DB MySQL学习总结
  10. WEBAPI 增加身份验证