Vista:不值钱的东西 MSSQL Server创建分发服务器提示18483错误的解决
二月 22

前天早上本来该我休息的,结果给同事一通紧急故障电话给召到了公司:公司一台X346的机器忽然就死掉了,同事们检查了一下,发现ServerRaid作的Logical Driver找不到的,搞得大家一头大汗。在我到之前,他们把另外一台测试服务器相同的ServerRaid 7K卡给拔到了这台服务器,结果还是找不到Logical Driver......

等我到了的时候,整好他们把原来机器上的ServerRaid 7K又给插回去了,我就当场眼睁睁地看着这台机器的Logical Driver被认了出来,然后立马机器就进了系统,一切服务都回复正常了-_-!!!!

当场是那个汗啊,同事们消遣我说,要不然今后就把我的照片挂在每个机柜上来镇住这批想偷懒的机器算了。

汗过之后,想了想,还是觉得不太对劲啊,还是给IBM报个故障先。IBM的工程师要求我们提供这台机器上的ServerRaid 7K卡的详细信息作为诊断的根据。

因为机器已经在运作了,而且这台机器上是没有X的,所以只能用IBM提供的ipssend来进行信息收集了。在出故障的机器上用

  1. ./ipssend GETCONFIG 1
  2. ./ipssend GETEVENT 1 ALL

收集了相关信息,自己看了半天也没有看出什么门道,就直接给IBM的工程师寄过去了。

很快的,IBM的工程师就回电话过来了,说是我这边机器上有两块磁盘的PFA报警了,得备份数据,准备更换新的磁盘。

PFA??刚才在那些输出信息里面似乎隐约看到过这个东西,不过对这东西实在是没有什么概念,也没有感觉到什么严重性,给IBM的工程师一说,心里开始发毛了,仔细看了下刚才自己抓的信息:不得了,raid 1e的4块盘中有两块盘都有PFA报警了,更严重的是这两块盘里面还没有一块是热备盘,额的神哪,一头的冷汗又飚了出来了。

赶快一边用ipssend把一块PFA报警的盘置为DDD (Defunct disk drive),让那块热备盘顶上来;一边祈祷一切肯接受我的祷告的大神,请各位保佑,在我rebuild Logical Driver的时候,剩下的那块也有PFA报警的磁盘大哥要给我撑住啊!

附录:

  • 用ipssend读到的pfa报警的例子:
    1. example#./ipssend GETCONFIG 控制器号
    2. .......
    3. Target on SCSI ID 2
    4.          Device is a Hard disk
    5.          SCSI ID                  : 2
    6.          PFA (Yes/No)             : Yes
    7.          State                    : Online (ONL)
    8.          Size (in MB)/(in sectors): 140013/286747728
    9.          Device ID                : IBM-xxxxx
    10.          FRU part number          : xxxxxxx

    请留神上面的第6行,这就是那个非著名的IBM的PFA报警信息。

  • ipssend将磁盘设置为非活动盘的命令:
    1. ./ipssend SETSTATE <控制器号> <通道号> <SCSI ID> DDD
  • IBM的PFA技术详解:
    磁盘预测故障分析技术Predictive Failure Analysis (PFA),PFA技术对于保护用户的数据具有独到的优势和帮助。可靠性预测技术的产生起因于人们普遍意识到保护硬盘上存储的关键性信息的重要性。由于对系统存储能力的要求越来越高,多磁盘阵列系统也开始出现,因此该行业的领导者们意识到建立一个早期预警系统至关重要,这样才能保证在故障即将发生之前,有足够的时间备份数据。IBM公司的预测故障分析(PFA)技术,对包括磁头飞行高度在内的几个属性进行测量,以此来预测故障,一旦硬盘探测到某一属性如飞行高度已退化,就会向主机发出一条有可能发生故障的通知。收到通知后,用户就可采取措施保护数据。

最后补充一句,PFA技术是IBM公司的技术。按照IBM公司的报警习惯,这次Rebuild Logical Driver的事注定我是有惊无险的,真的是要感谢PFA,感谢IBM的支持啊。

3 Responses to “谈谈PFA:之前一直没有留神到的IBM服务器的贴心技术”

  1. eddy c Says:

    故障预测对做OPERATION的真是天大的帮助 :em20:

  2. coolzsb Says:

    换了这两块磁盘,阵列REBUILD了三次,总计费时1天半 :em35:

    签名
    ---
    而且IBM的机器没有Raid卡还读不到这个PFA信息,FT

    签名
    ---
    害得我想写个自动PFA报警通知的脚本都没有动力了

  3. 张佳 Says:

    硬盘报警技术
    也会应用到个人电脑上吗?
    我菜鸟一只。随便发下言。不要笑我哈~虽不懂技术,可你这篇我看得很有滋味呢!

  4. coolzsb Says:

    张佳同学,就你的问题来说,个人电脑上的确是有类似的技术,那就是S.M.A.R.T

    在个人电脑上要使用S.M.A.R.T技术的话,首先要开启BIOS里面的S.M.A.R.T支持,然后,你看看你机器主板附带的软件是否又能读取S.M.A.R.T的部分,不行的话,直接上网查一下S.M.A.R.T信息读取的软件即可。

    签名
    ---
    其实好多东西硬件厂商已经帮我们考虑得很详细了

    签名
    ---
    可惜好多人都不知道硬件厂商有这么贴心

Leave a Reply