补天论坛 - UNIX软件技术   
全部显示
返回《UNIX软件技术》 快速返回
作 者

主题:心动魄十二小时:一次硬盘全部更换的经历

恭贺新禧


=八面玲珑=
职务:观察员
积分:1697
贴数:439
 日期:2007-6-16 14:34:59

转自chinaunix

背景描述:由于客户打算将原有十块旧盘全部换为新盘,所以有了如下更换硬盘的经历;由于客户仅给出十二个小时的硬盘更换时间,所以就有了如下争分夺秒的故事。十二个小时,不多不少,为了能够有充分的时间测试,我们按照时间顺序制定了三套方案:

方案一  由于客户的机器还有两个剩余的槽位,所以打算将两块新盘放在空余槽位中进行硬盘对拷,这样依次进行拷贝,直到十块盘完全拷贝成功,换下(要点:纪录每块盘的对应关系和顺序,优点:速度快,省时)

方案二  用户数据不多,两块新盘足以容纳所有原有数据,因此可以将两块新盘插到空余槽位,REMOVE除load source外的所有硬盘,然后对拷load source,拔下所有REMOVE的硬盘,插入新盘,作数据平衡

方案三  常规磁带全系统备份和恢复
    由于时间紧迫,以上方案,按照时间顺序(最短时间)排列,打算先采用方案一进行操作。
项目操作记录:

时间 步骤
打印系统值和硬件设备列表
由于打算采用硬盘对拷方式,记录系统原有硬盘序号和新硬盘序号,并制作比对表
19:20 停子系统,开始全系统备份
20:57 停机,加入两条新内存和两块新硬盘到空闲槽位,启机
21:05 进入DST停Raid保护(两组)
21:10 进入Work with disk unit将LOAD SOURCE盘(D01)数据拷贝到D11槽位盘中
22:00 报MIRROR错误,忽略!进入Start a service tool进行在线拔硬盘(D11)操作
22:05 继续拷贝D02盘数据到D12新盘中
23:05 提示拷贝成功,但是无法在线拔盘,硬盘灯始终不闪动(无法判断槽位问题,硬盘问题,还是LIC问题)
    项目暂停:由于无法判断问题所在,打算先看看拷贝数据是否成功,再启用备用硬盘REMOVE方案
23:10 通过Start a service tool停机,拔下D12,用D11替换原LOAD SOURCE,在D11,D12插入两块新盘
    开始不断停启机进行换盘操作:
        通过新的LOAD SOURCE启动后,发现原D02无法识别
        通过原有LOAD SOURCE启动后,发现原D02无法识别
        此时面临的境况:无法识别,是系统错误?还是硬盘已经被破坏?难道对拷操作使得两块D02全部被损坏?当初决定对拷就是因为这样可以有效保护用户原始硬盘数据,可是现在——原盘无法识别,新盘无法识别——仅有一盘全系统备份带还保留着用户数据,如果备份带再出问题,那么用户数据将不完整,离他们工作时间还有9个小时。
        通过原有LOAD SOURCE启动后,发现新D02无法识别,显示原D02-MISSING,ASSIGN无效
        重启,报DASD ERROR,认出第二块硬盘为新硬盘(谢天谢地,总算认了出来,这意味着可以进行方案二的操作)。开始IPL以确认数据是否完整。       
        IPL后,显示内存DUMP,B6000408/0417/4058,启动到JOURNAL时报错:D90031FF
0:45 再次尝试IPL,通过了JOURNAL验证,又开始重复重启
1:15 考虑是否为内存错误,拔去新添内存,再重启,失败
这意味着第二套方案也不能使用了
1:30 剩余时间不足,打算采用第三套方案:磁带机全系统恢复。连接磁带机,拔下全部旧硬盘,插入全部新硬盘,01 D M重启
1:40 开始安装内码
2:30 起RAID保护,再加入ASP
5:12 IPL并安装BASE系统
5:20 注意系统值的调整,并添加自动回复列表
5:32 Go restore,注意修改相关参数
7:55 手动恢复未被成功恢复的库
8:15 根据打印的原系统值设定恢复后系统的系统值





新补天网  新补天网讨论版
跟我走吧小猪
=化零为整=
积分:12
贴数:12
日期: 2008-6-27 17:24:07  
额。。。。。。。。。。。。。。
返回《UNIX软件技术》 快速返回


 

如果您想发帖,请先注册或登录


Copyright © 2006 Patching.net All rights reserved.