nohup python -u day_std_cid_list_data_done.py >eee1.log 2>&1 & 后台运行python脚本

hadoop fs -cat hdfs://ab/day_std/000000_0 | head -100 >> test_tpy11.txt  #从集群的文件000000_0中取100条,生成文件test_tpy11.txt 放在当前的路径下

cat  test_tpy11.txt | python hp_day_std.py    #用hp_day_std.py 脚本测试数据test_tpy11.txt。

其中python hp_day_std.py 是处理流式数据的脚本内容,即如下形式:

for line in sys.stdin:

.....

在数据挖掘中我们经常会增量更新训练日志,需要删除前n行的过期数据,直接用sed命令比较慢,谷歌了一下,发现有个奇技淫巧:

tail -n +3 old_file > new_file 
mv new_file old_file 
这样就删除了前2行,速度要比sed命令快

最新文章

  1. C#/ASP.NET完善的DBHelper,配套Model生成器
  2. JDBC的操作总结
  3. 【BZOJ1677】[Usaco2005 Jan]Sumsets 求和 递推
  4. C#常用方法二
  5. Java中面向对象的详解
  6. 转载:全球首个微信小程序(应用号)开发教程!通宵吐血赶稿,每日更新!
  7. 对于JAVA课程的期望
  8. 阿里Linux Shell脚本面试25个经典问答
  9. Python中的日志管理Logging模块
  10. diff两个文件夹里的东西
  11. 分析函数 over用法 之row_number() runk_number
  12. 必应地图api文档,微软必应地图web开发版详解,可以在国内使用国外地图
  13. Dynamics CRM2016 Supported versions of Internet Explorer and Microsoft Edge
  14. 1070. Mooncake (25)
  15. CSS+HTML+JQuery实现条形图
  16. Java虚拟机运行时数据区域及垃圾回收算法
  17. libcurl HTTP POST请求向服务器发送json数据【转】
  18. 如何去除WIN7任务栏项目上右键菜单中的最近访问一栏
  19. 常用数据库2 sqlite及SQL注入
  20. Java Magic. Part 4: sun.misc.Unsafe

热门文章

  1. php 生成.csv的文件
  2. python处理excel(二):写
  3. 6.后台验证码-session作用域
  4. 软件-分布式:Kylin (apache开源分布式分析引擎软件)
  5. 关于win时间同步的解决方案
  6. 【转】SQL模糊查询
  7. Java反射 - 简单的给Bean赋值和取值
  8. SpringBoot 返回json 字符串(jackson 及 fast json)
  9. python学习之----BeautifulSoup示例一
  10. IIS6.0 IIS7.5应用程序池自动停止的解决方法 搜集整理