今天,大数据部老大交给我一项任务——抓取股票历史数据。于是乎,我自行在网上找了一下,发现wget真真是一个非常强大的linux下载工具。我已经被深深震撼到了。下面叙述今天的一些过程,还是比较坎坷的。

  首先,我利用公司现在存在的股票数据,使用hive查询所有的股票代码并导入本地:

hive -e "use stock;select distinct secucode from t_stock_tick_shsz where type='sz';" >> sz_secucode.txt

hive -e "use stock;select distinct secucode from t_stock_tick_shsz where type='sh';" >> sh_secucode.txt

  PS:上面这一步骤,因为一个小小的问题——开始没有加关键字distinct,结果导致后期抓取数据抓到一大堆重复的股票代码的数据。

  刚开始想偷懒,想要一句一句地粘贴wget,但是,股票代码太多了,所以还是写脚本吧,shell脚本如下:

#下载上海交易所股票历史记录
#!/bin/bash
  for I in `cat sh_secucode.txt`
do
wget --user-agent="Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.204 Safari/534.16" \
-nv --tries= --timeout= -O /home/bigdata/script/zj/sh_history/history_data/$I.csv http://quotes.money.163.com/service/chddata.html?code=0$I&end=20130430
sleep 1s
done #下载深圳交易所股票历史记录
#!/bin/bash
for I in `cat sz_secucode.txt`
do
wget --user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.3) Gecko/20100401 Firefox/3.6.3 (.NET CLR 3.5.30729)" \
-nv --tries= --timeout= -O /home/bigdata/script/zj/sz_history/history_data/$I.csv http://quotes.money.163.com/service/chddata.html?code=1$I&end=20130430
sleep 1s
done

  PS:说一下上面这段代码,为什么在wget有user-agent这个参数?玩过爬虫的同学肯定都知道,当你频繁下载一个网站的东东,这个网站会识别出这是一个爬虫程序,于是就拒绝你下载他家的资源了,所以要设置一个代理,伪装成一个浏览器下载文件,这样被发现的概率就笑了。还有,为什么要加一个sleep?这是因为有可能有的文件比较大,可能在几毫秒之内没有下载完就被挂停了。当然了,我这边的每个文件也就几百K,所以1s也足够了。

  最后,运行脚本,写这篇文章的时候,脚本还在运行中,希望顺利!O(∩_∩)O

最新文章

  1. [WPF系列]-高级部分 需要区分的东东
  2. 4,4s屏幕过渡页处理
  3. Entity Framework技术导游系列开篇与热身
  4. 操作集合的工具类Collections
  5. Linux相关指令
  6. 解决@media screen (自适应)IE浏览器不兼容问题
  7. oracle-行转列
  8. JS数组常用方法
  9. HTML5基础知识及相关笔记
  10. 刚在在win8.1下装了ubuntu12.04
  11. Excel生成guid、uuid
  12. nodejs 做后台的一个完整业务整理
  13. C#图解教程 第十四章 事件
  14. 深入学习Motan系列(四)—— 客户端
  15. 使用IdentityServer4实现一个简单的Oauth2客户端模式授权
  16. python 全栈开发,Day125(HTML5+ 初识,HBuilder,夜神模拟器,Webview)
  17. PHP 中最全的设计模式(23种)
  18. Spring Cloud Ribbon Client
  19. Java异常处理之InvocationTargetException(反射异常)
  20. Week2-作业1——关于阅读《构建之法》第1、2、16章的疑问与感悟

热门文章

  1. 蜗牛慢慢爬 LeetCode 11. Container With Most Water [Difficulty: Medium]
  2. QObject 源代码阅读
  3. Longest Substring with At Most Two Distinct
  4. sublimeText3的一些操作记录
  5. Java override 和 overload 的区别和联系
  6. Hibernate Validation,Spring mvc 数据验证框架注解
  7. jquery 半透明遮罩效果 小结
  8. mysql用mysqldump数据库备份和恢复
  9. Bank Robbery LightOJ - 1163(推方程 注意计算机的计算方式)
  10. Stone Game, Why are you always there? HDU - 2999(sg定理)