需求场景:

我需要分析一个服务器访问日志,分析百度蜘蛛这个月对求索网页面的抓取情况。

分析问题:

我的一个access.log文件大小有35M,不可能直接通过打开查看。我需要过滤掉一些没有的信息,只保留蜘蛛访问的信息行。

实践过程:

命令工具:

grep -n 'xxx' file > new file
//grep参数解释:
//grep查找命令,-n表示行数,xxx表示某字符串, file 要查找的文件
// > new file 导入到一个新的文件

1.利用grep字符串查找命令,筛选出这个月的数据。

grep -n 'Aug' access.log > Aug.log

2.继续筛选,把有百度蜘蛛标记的行找出。

grep -n 'Baiduspider' Aug.log > Aug_baiduspider.log

以上两条命令的得到的Aug_baiduspider.log数据就是我要的百度蜘蛛在这个月对我的服务器访问的日志记录。

一个从35M的信息中,直接获取了几kb我们有用的信息,排除其他行的干扰,我觉得是非常漂亮的一次应用。

结果对比图:

access.log截图:

筛选的baiduspider访问截图

像这样的命令对分析日志是非常有帮助的,大家可以举一反三,拓展更多的应用,比如,分析日志异常,筛选404,503等异常状态码的信息,及时高效的发现问题并解决之。

最新文章

  1. [bzoj3673][可持久化并查集 by zky] (rope(可持久化数组)+并查集=可持久化并查集)
  2. Java中main方面面试题
  3. 集合之List—ArrayList
  4. PowerShell中调用外部程序和进程操作命令例子
  5. 升级Cocoapods引起的Mantle库找不到的问题及解决方法
  6. pypi pack and upload
  7. lock 单例模式
  8. PHP超全局变量$_SERVER分析
  9. 初学C的感想
  10. Alpha阶段项目规划
  11. Linux文件系统管理
  12. pip安装提示PermissionError: [WinError 5]错误问题解决
  13. js判断软键盘是否开启弹出
  14. CentOS-6.6安装配置Tomcat-7
  15. FastJson 对enum的 序列化(ordinal)和反序列化
  16. BZOJ 1845三角形面积并
  17. BZOJ 3881: [Coci2015]Divljak
  18. Warning -27077: The "vuser_init" section contains web function(s) when the "Simulate a new user on each iteration" Run-Time Setting is ON.
  19. 【sdut2878】Circle
  20. 【题解】SHOI2014概率充电器

热门文章

  1. springboot中使用druid和监控配置
  2. JS(微信小程序)处理银行卡号
  3. css3动画运用
  4. arcgis英文版补丁下载地址
  5. 解决移动端touch事件(touchstart/touchend) 的穿透问题
  6. Visualizing MNIST with t-SNE, MDS, Sammon’s Mapping and Nearest neighbor graph
  7. 自定义RatingBar评分控件
  8. 让Oracle的 SHOW PARAMETER 命令显示隐藏参数
  9. CSS 颜色 字体 背景 文本 边框 列表 display属性
  10. 7 Recursive AutoEncoder结构递归自编码器(tensorflow)不能调用GPU进行计算的问题(非机器配置,而是网络结构的问题)