p570,硬盘故障。



机器有两个vg,rootvg和datavg,rootvg未做镜像,datavg已做镜像。系统errpt和HMC报硬盘有问题,查看错误代码可能是硬盘有坏道(坏块),在尽量保全用户数据的前提下,要解决此问题。

先是想到把datavg的镜像解除,把空出来的hdisk2分配到rootvg给有故障的盘做mirror。在经过很长一段时间的同步之后,查看rootvg里面的Lv状态时可以看到除了hd1即/home还是stale状态外,其它LV都已经是syncd状态。然后为保险起见把整个/home分区都tar到datavg的一个分区里面,因为耗时比较久同时也可能是因为有坏道,所以此操作进行了很久而且IO等待很高,而且执行df
-g,iostat,vmstat等命令都等待了很久,完全就是卡住了,于是决定等第二天继续处理。



第二天早上查看此机器的状态,lsvg -l
rootvg发现除了/home之外也有很多分区也变成了stale状态,同时lsvg查看到有故障的hdisk0已经是missing状态,完全已经不可操作了。又一次尝试把/home下面的一些文件和文件夹tar到datavg里面,准备把/home分区重建一下。尝试使用rmlv,rmfs都失败,提示只有最后的一块好的盘系统无法保证vg完整而拒绝rmlv,rmfs。给rootvg
unmirror成功,但是在给/home分区rmlvcopy的时候一样提示失败。同时使用lspv
-M命令查看到hdisk1上只有两个LP是stale的状态,而查看hdisk0时看到正好对应的两个LP是好的,于是想着把hdisk0上这两块好的LP直接迁移到hdisk1上去,使用mirgratelp命令,但是在迁移过程中卡死,ctrl+c中止掉,后面就发现/home的LV的PVs变成了3,非常奇怪的问题。再尝试把hdisk0直接从rootvg中reduce掉,执行reducevg提示上面一样的错误,想换盘都不行了。后面实在无法了,准备尝试重启一下机器看。

重启后,在HMC里面看到,该分区的启动报错误代码0552,重新选一块hdisk启动依然报0552。于是只能从网络引导分区,引导进去之后已经看不到原来的hdisk0这块硬盘,importvg都不行,提示VGDA信息有问题。同时用于管理这几台小机的HMC也挂掉了,不能用了,图形界面始终无法显示出来,重启HMC之后故障依旧,只能把这个分区挂到另外一台HMC上使用。最后尝试各种方法都无法恢复系统本身,于是只能选择重装AIX。

这个案例告诉我们重要数据一定要做备份。案例中rootvg没镜像,小机也没连磁带机,也从来没有用mksysb做过系统的备份。虽然这是个开发测试机,但是oracle的数据居然是直接放在/home下面,不说用裸设备,至少要分另外一块硬盘的一个单独的LV出来用作oracle的数据分区。硬件故障是不可避免的,而用户没做备份这就有点说不过去了,所以对硬件不要太依赖,重要的数据一定要做备份。

最新文章

  1. jvm之xms、xmx等参数分析
  2. bzoj1098 1301
  3. MAC上安装Homebrew、Nginx、PHP、MySQL
  4. [转]js中几种实用的跨域方法原理详解
  5. Oracle 安装中遇到的问题
  6. 一种基于重载的高效c#上图片添加文字图形图片的方法
  7. PO VO DAO DTO BO TO概念与区别
  8. windows 2003 DNS服务的重建
  9. java集合系列——java集合概述(一)
  10. [快速傅立叶变换&快速傅里叶变换]【旧 手写笔记】
  11. JavaScript 克隆
  12. pymysql.err.InterfaceError: (0, '')解决办法
  13. ThinkPHP5.0 实现 app微信支付功能
  14. vs2017默认以管理员运行
  15. python3.4学习笔记(十) 常用操作符,条件分支和循环实例
  16. 老三星手机i9001刷机记录
  17. Grunt的配置及使用(压缩合并js/css)
  18. ELK 分布式日志实战
  19. php 获取当前域名
  20. UVA - 11922 Permutation Transformer (splay)

热门文章

  1. scratchIDE使用说明
  2. Android Studio生成apk
  3. HD-ACM算法专攻系列(3)——Least Common Multiple
  4. 线程1—Runnable
  5. Android-Context的一切
  6. PostgreSQL Replication之第八章 与pgbouncer一起工作(4)
  7. oracle(sql)基础篇系列(四)——数字字典、索引、序列、三范式
  8. 一篇文章助你理解Python2中字符串编码问题
  9. tload---显示系统负载
  10. Python解析Socket数据流异常bytes问题