新聞資訊
行業(yè)資訊
get起來:現(xiàn)代數(shù)據(jù)中心服務器維護檢查列表
2017-06-21 14:35:53
摘要:服務器維護可以預防嚴重問題,并保持一切正常運行。為服務器上的硬件和軟件的這些簡單篩查預留時間。數(shù)據(jù)中心服務器只是復雜的機器。像任何機器一樣,它們需要定期維護,以達到最佳性能。
  服務器維護可以預防嚴重問題,并保持一切正常運行。為服務器上的硬件和軟件的這些簡單篩查預留時間。數(shù)據(jù)中心服務器只是復雜的機器。像任何機器一樣,它們需要定期維護,以達到最佳性能。簡單的維護程序可減少嚴重的服務電話,延長服務器的使用壽命。
  即使現(xiàn)代服務器擁有強大性能與豐富功能,增加的工作量整合和可靠性預期可能會對您的業(yè)務造成損失。您的服務器維護核對清單應包括物理元素以及系統(tǒng)的關鍵配置。   堅持常規(guī)檢查   服務器管理員也經(jīng)常忽略規(guī)劃維護窗口。不要等到發(fā)生實際的問題,再預留時間進行例行的服務器預防性維護。維護頻率取決于設備的年齡、數(shù)據(jù)中心環(huán)境、需要維護的服務器的數(shù)量等因素。例如,位于設備倉庫中的較舊設備需要比采用HEPA過濾方式部署的、冷卻良好的數(shù)據(jù)中心中的新服務器更頻繁的檢查。組織可以根據(jù)供應商或第三方提供商例程的日常維護計劃,如果供應商的服務合同每四到六個月要求進行系統(tǒng)檢查,遵循該日程安排。   準備工作決定一切   在處理服務器維護清單上的項目之前,請先制定計劃。這包括檢查系統(tǒng)日志中是否包含需要更多直接關注的任何錯誤或事件。例如,如果系統(tǒng)日志表示特定內(nèi)存模塊的錯誤,您應該訂購一個替換的DIMM并將其安裝。同樣,如果有固件,操作系統(tǒng)或代理補丁或更新可用,請在維護窗口之前先測試并檢查這些補丁。   還需一份明確的將系統(tǒng)脫機并將其返回服務狀態(tài)的明確計劃。在虛擬化技術出現(xiàn)之前,服務器及其駐留應用程序將需要停機以適應維護窗口——通常迫使IT人員在夜間或周末執(zhí)行維護。虛擬化的服務器支持工作負載遷移,以取代停機時間,因此您可以將應用程序遷移到其他服務器,并且在底層主機系統(tǒng)上發(fā)生服務器維護時,將它們保持為可用狀態(tài)。在服務之前,了解虛擬機應該出現(xiàn)的位置,將虛擬機遷移到所選系統(tǒng),并確保每個工作負載正在運行,然后再將服務器關閉進行維護。   此時,通常可以關閉服務器并將其從機架或其他機箱中取出。   確保服務器正常運行   一旦服務器脫機時,目視檢查其外部和內(nèi)部氣流路徑。除去灰塵和其它碎屑能夠妨礙冷卻空氣的任何累積。   從外部空氣入口和出口開始檢查,隨后進入系統(tǒng)機箱,查看CPU散熱器和風扇組件,內(nèi)存模塊和所有冷卻風扇葉片和風道通道。用清潔、干燥的壓縮空氣清除適當、靜電安全的工作區(qū)上的灰塵或碎屑。不要在機架上打掃服務器。   打掃灰塵是一個古老的流程,但這并不意味著它已經(jīng)過時了?;覊m是一種絕熱材料,如何去掉它們的方法非常重要,現(xiàn)在替代的冷卻方案和ASHRAE建議已經(jīng)提高了數(shù)據(jù)中心的運行溫度。灰塵和其他氣流障礙物將導致服務器使用更多的能量,甚至會引起本可避免的早期組件故障。   檢查本地磁盤   許多服務器依靠內(nèi)部硬盤進行引導、工作負載啟動和存儲,用戶數(shù)據(jù)和其他功能。磁盤介質問題嚴重損害了工作負載的性能和穩(wěn)定性,往往導致磁盤過早故障。   磁介質不完美。普遍的問題包括扇區(qū)損壞和碎片。RAID在存儲錯誤后保持數(shù)據(jù)完整性有很大的進步,但較小的1U機架式服務器不能提供足夠的物理空間來部署磁盤陣列。使用CHKDSK(檢查磁盤)實用程序等工具來驗證磁盤的完整性,并嘗試恢復任何損壞的扇區(qū)。Windows Server 2012的更新版本的CHKDSK可以快速分析和修復文件系統(tǒng)結構中的磁盤問題。   只要NTFS和文件分配表或FAT文件系統(tǒng)首先使用磁盤空間可用的集群,磁盤碎片根本不會消失。碎片可能會拖慢服務器的磁盤并導致故障。Windows Server 2012下的Optimize-Volume等實用程序會將每個文件的集群連續(xù)排列在磁盤上。   閱讀事件日志的詳細報告   服務器在事件日志中記錄大量信息,特別是有關問題的詳細信息。沒有仔細檢查系統(tǒng),惡意軟件和其他事件日志,沒有服務器維護清單完成。當然,關鍵的系統(tǒng)問題應該立即引發(fā)IT管理員和技術人員的關注,但是, 無數(shù)的小問題可能預示著長期和嚴重的問題。   當您查閱日志時,請檢查報告設置并驗證警報和警報收件人是否正常。例如,如果服務器組有技術人員離職,則需要更新服務器的報告系統(tǒng)。仔細檢查聯(lián)系方式;如果錯誤發(fā)生在工作時間之外,則報告發(fā)給技術人員公司電子郵件地址的嚴重錯誤可能完全不夠用(譯者注:非工作時間,技術人員可能無法登陸公司郵箱獲取重要的問題報告)。   主動跟日志數(shù)據(jù)。當日志檢查發(fā)現(xiàn)長期或重復的問題時,積極的調查可以在問題升級之前進行問題解決。例如,如果服務器的日志報告內(nèi)存模塊中的可恢復性錯誤,它將不會觸發(fā)關鍵警報。但是重復的實例會導致模塊出現(xiàn)問題,IT人員可以執(zhí)行更詳細的診斷來識別即將發(fā)生的故障。   如果問題不是那么嚴重,無需關閉服務器,則可以在更換硬件進入之前重新恢復生產(chǎn)狀態(tài)。   為補丁和更新騰出時間   服務器的軟件?!狟IOS、操作系統(tǒng)、虛擬機管理程序、驅動程序、應用程序、支持工具——都必須進行交互和協(xié)同工作。不幸的是,軟件代碼少有精致或無問題的時候,所以這些軟件拼圖經(jīng)常被修補或更新,以修復錯誤、提高安全性、簡化互操作性和提高性能。   生產(chǎn)軟件不具備自動更新的能力。管理員應確定是否需要修補程序或升級,然后徹底評估和測試更改。如果更新解決的是您服務器沒遇到的問題,為何要冒發(fā)生其他問題的風險(去修復補丁)?   軟件開發(fā)人員無法測試硬件和軟件的每個潛在組合,因此修補程序和更新可能會導致比修復特定服務器或軟件堆棧以外的問題。例如,監(jiān)控代理補丁可能導致重要工作負載的性能問題,因為新代理所占用的帶寬比預期的要多。   向DevOps的轉變,更微小和更頻繁的更新加劇了潛在的問題。在部署之前,您仍然需要在實驗室中測試任何修補程序或更新。并且始終確保您可以撤銷更改,并在必要時恢復原始的軟件配置。   驗證和記錄任何的變更   在諸如硬件、軟件、系統(tǒng)配置更改的維護窗口中,服務器可能會發(fā)生很多事情。完成服務器維護清單后,IT員工必須驗證并記錄任何新的系統(tǒng)狀態(tài)。例如,更改網(wǎng)絡適配器,添加或更換DIMM,更新操作系統(tǒng)和許多其他操作可能會改變系統(tǒng)的配置。依賴于系統(tǒng)配置管理工具的組織,可能需要更新或“發(fā)現(xiàn)”變更—在系統(tǒng)允許恢復使用之前將這些變更記錄到配置管理數(shù)據(jù)庫。IT人員可能需要更新任何強制或期望的狀態(tài)配置狀態(tài)以允許變更。   還可以驗證防火墻設置、防惡意軟件版本或掃描頻率和入侵檢測/防御(IDS/IPS)設置等系統(tǒng)安全性。安全檢查可以幫助確保,對系統(tǒng)軟件的變更不會無意中暴露在先前配置中可能已關閉的任何攻擊路徑。   還有,最后,當服務器重新上線運行,不要忘記更新任何系統(tǒng)備份或災難恢復(DR)內(nèi)容。除非特別需要調整相關設置以反映服務器的角色變化,驗證服務器的備份/DR情況或頻率是否保持不變。
USA-IDC為您提供免備案服務器 0元試用
立即聯(lián)系在線客服,即可申請免費產(chǎn)品試用服務
立即申請