故障描述:
磁盤陣列出現(xiàn)問(wèn)題,內(nèi)置硬盤搭建的RAID5陣列。一開始有一塊硬盤離線,在更換新硬盤進(jìn)行同步的過(guò)程中,第二塊磁盤指示燈報(bào)警,同步失敗,陣列無(wú)法正常工作。
初步檢測(cè):
存儲(chǔ)介質(zhì)物理狀態(tài):最先離線的硬盤訪問(wèn)速度極其緩慢,第二塊離線的磁盤有少量壞扇區(qū),其他磁盤無(wú)明顯物理問(wèn)題。
存儲(chǔ)介質(zhì)邏輯狀況:整個(gè)陣列只包含一個(gè)卷組,該卷組占用陣列全部空間;并且該卷組只有一個(gè)起始位置為0扇區(qū)的XFS裸分區(qū)。
故障分析:
RAID5陣列架構(gòu)在設(shè)計(jì)上只支持一塊磁盤的錯(cuò)誤冗余功能,當(dāng)?shù)诙K磁盤離線后陣列便無(wú)法正常工作。
根據(jù)用戶描述可知,整個(gè)陣列的崩潰主要由第二塊磁盤造成。所以第二塊磁盤的處理是此次恢復(fù)的關(guān)鍵
恢復(fù)過(guò)程:
1、對(duì)所有硬盤做只讀鏡像的備份,單獨(dú)備份第二塊離線的硬盤,備份過(guò)程中略過(guò)壞扇區(qū)。
2、對(duì)硬盤鏡像文件進(jìn)行異或測(cè)試,全部通過(guò),無(wú)明顯錯(cuò)誤。
3、計(jì)算第二塊硬盤損壞扇區(qū)位置的數(shù)據(jù),并將其寫入鏡像文件。
4、在備份過(guò)程中同時(shí)分析原RAID組成結(jié)構(gòu),構(gòu)建虛擬RAID環(huán)境。
5、驗(yàn)證RAID結(jié)構(gòu)是否正確。
6、將第二塊磁盤的鏡像備份到新硬盤,并將其強(qiáng)制上線,更換第一塊磁盤,并對(duì)其進(jìn)行同步。(注意:在操作之前要對(duì)所有硬盤進(jìn)行備份)
7、拷貝數(shù)據(jù)。
結(jié)論:
因?yàn)楫惢驕y(cè)試完全通過(guò),所以表明該存儲(chǔ)發(fā)生故障后沒(méi)有新數(shù)據(jù)寫入,或結(jié)構(gòu)改動(dòng)。
所以可以根據(jù)其他幾塊好硬盤計(jì)算出壞硬盤對(duì)應(yīng)位置的數(shù)據(jù)。
恢復(fù)完成后,目錄結(jié)構(gòu)完整,重要文檔全部完好。FSCK無(wú)任何錯(cuò)誤提示,恢復(fù)成功。