恭贺新禧

=八面玲珑= 职务:观察员 积分:1697 贴数:439
|
日期:2007-6-16 14:34:59
转自chinaunix
背景描述:由于客户打算将原有十块旧盘全部换为新盘,所以有了如下更换硬盘的经历;由于客户仅给出十二个小时的硬盘更换时间,所以就有了如下争分夺秒的故事。十二个小时,不多不少,为了能够有充分的时间测试,我们按照时间顺序制定了三套方案:
方案一 由于客户的机器还有两个剩余的槽位,所以打算将两块新盘放在空余槽位中进行硬盘对拷,这样依次进行拷贝,直到十块盘完全拷贝成功,换下(要点:纪录每块盘的对应关系和顺序,优点:速度快,省时)
方案二 用户数据不多,两块新盘足以容纳所有原有数据,因此可以将两块新盘插到空余槽位,REMOVE除load source外的所有硬盘,然后对拷load source,拔下所有REMOVE的硬盘,插入新盘,作数据平衡
方案三 常规磁带全系统备份和恢复 由于时间紧迫,以上方案,按照时间顺序(最短时间)排列,打算先采用方案一进行操作。 项目操作记录:
时间 步骤 打印系统值和硬件设备列表 由于打算采用硬盘对拷方式,记录系统原有硬盘序号和新硬盘序号,并制作比对表 19:20 停子系统,开始全系统备份 20:57 停机,加入两条新内存和两块新硬盘到空闲槽位,启机 21:05 进入DST停Raid保护(两组) 21:10 进入Work with disk unit将LOAD SOURCE盘(D01)数据拷贝到D11槽位盘中 22:00 报MIRROR错误,忽略!进入Start a service tool进行在线拔硬盘(D11)操作 22:05 继续拷贝D02盘数据到D12新盘中 23:05 提示拷贝成功,但是无法在线拔盘,硬盘灯始终不闪动(无法判断槽位问题,硬盘问题,还是LIC问题) 项目暂停:由于无法判断问题所在,打算先看看拷贝数据是否成功,再启用备用硬盘REMOVE方案 23:10 通过Start a service tool停机,拔下D12,用D11替换原LOAD SOURCE,在D11,D12插入两块新盘 开始不断停启机进行换盘操作: 通过新的LOAD SOURCE启动后,发现原D02无法识别 通过原有LOAD SOURCE启动后,发现原D02无法识别 此时面临的境况:无法识别,是系统错误?还是硬盘已经被破坏?难道对拷操作使得两块D02全部被损坏?当初决定对拷就是因为这样可以有效保护用户原始硬盘数据,可是现在——原盘无法识别,新盘无法识别——仅有一盘全系统备份带还保留着用户数据,如果备份带再出问题,那么用户数据将不完整,离他们工作时间还有9个小时。 通过原有LOAD SOURCE启动后,发现新D02无法识别,显示原D02-MISSING,ASSIGN无效 重启,报DASD ERROR,认出第二块硬盘为新硬盘(谢天谢地,总算认了出来,这意味着可以进行方案二的操作)。开始IPL以确认数据是否完整。 IPL后,显示内存DUMP,B6000408/0417/4058,启动到JOURNAL时报错:D90031FF 0:45 再次尝试IPL,通过了JOURNAL验证,又开始重复重启 1:15 考虑是否为内存错误,拔去新添内存,再重启,失败 这意味着第二套方案也不能使用了 1:30 剩余时间不足,打算采用第三套方案:磁带机全系统恢复。连接磁带机,拔下全部旧硬盘,插入全部新硬盘,01 D M重启 1:40 开始安装内码 2:30 起RAID保护,再加入ASP 5:12 IPL并安装BASE系统 5:20 注意系统值的调整,并添加自动回复列表 5:32 Go restore,注意修改相关参数 7:55 手动恢复未被成功恢复的库 8:15 根据打印的原系统值设定恢复后系统的系统值
新补天网 新补天网讨论版
|