新聞資訊
公司新聞
如何降低數(shù)據(jù)中心的風險
2018-08-13 11:30:09
摘要:如果一個數(shù)據(jù)中心設施的設計和運營很復雜,并且工作人員沒有得到很好的培訓,那么將會面臨很高的風險。

如今,人們在降低數(shù)據(jù)中心風險方面所遇到的最大障礙是:

? 缺乏知識(一般地點和特定地點);

? 缺乏分享這些知識的流程;

? 缺乏針對特定地點的經(jīng)驗;

? 不了解風險;

? 對待人員和學習的態(tài)度不佳。

如果一個數(shù)據(jù)中心設施的設計和運營很復雜,并且工作人員沒有得到很好的培訓,那么將會面臨很高的風險。

設計的復雜性

在考慮數(shù)據(jù)中心設計的復雜性之前,有必要考慮采用無單點故障(SPOF)的彈性系統(tǒng),而根據(jù)定義,單點故障(SPOF)是指系統(tǒng)中一旦失效,就會讓整個系統(tǒng)無法運作的部件,換句話說,單點故障就會產(chǎn)生整體故障。這些可能是組件故障或不正確的人為干預,例如在不了解系統(tǒng)如何反應的情況下進行切換。

2N冗余系統(tǒng)可以被視為一種實現(xiàn)無單點故障(SPOF)安裝的最低要求。為簡單起見,假設數(shù)據(jù)中心的2N系統(tǒng)包括A和B兩個相同的電氣和機械系統(tǒng)。故障樹分析(FTA)將突出顯示導致故障的事件組合。然而,在故障樹分析(FTA)中模擬人為錯誤是非常困難的。用于模擬人為錯誤的數(shù)據(jù)將始終是主觀的,并且存在許多變量。

如果這個2N冗余系統(tǒng)示例中的系統(tǒng)在物理上是分開的,則對一個系統(tǒng)的任何操作都應該對另一個系統(tǒng)沒有影響。但是,引入增強功能并不少見,它采用簡單的2N冗余系統(tǒng),并添加其他組件,例如災難恢復鏈路和連接兩個系統(tǒng)的公共存儲容器。

在大型設計中,這成為一種自動控制系統(tǒng)(例如SCADA、BMS),而不是簡單的機械聯(lián)鎖。 2N冗余系統(tǒng)的基本原則已被破壞,系統(tǒng)的復雜性呈指數(shù)級增長。運營團隊所需的技能也是如此。

對設計進行審查仍然表明已經(jīng)實現(xiàn)了2N冗余設計,然而,由此產(chǎn)生的復雜性和可操作性的挑戰(zhàn)破壞了高可用性設計的基本要求。

研究表明,導致失敗的特定事件序列通常是無法預料的,并且直到它發(fā)生之后才會知道會產(chǎn)生什么后果。換句話說,這些事件序列在人們知道之前是未知的。因此,它不會成為故障樹分析(FTA)的一部分。

奧地利物理學家Ludwig Von Boltzmann開發(fā)了一種熵方程,該方程已應用于統(tǒng)計學,特別是缺失信息方面。在這個理論中,設置了一個盒子網(wǎng)格,例如4×2或5×4的網(wǎng)格 ,以及一個放在盒子里的硬幣。該理論允許用戶確定問題的數(shù)量,以確定在該定義的網(wǎng)格上放置硬幣的哪個框中。如果采用系統(tǒng)組件替換盒子,以及硬幣的未知故障事件,人們可以考慮系統(tǒng)可用性如何受到復雜性的影響??梢钥闯?,較少發(fā)生的未知故障事件,系統(tǒng)可以失敗的方式的數(shù)量減少。因此,增加人們對系統(tǒng)的詳細知識和發(fā)現(xiàn)未知事件減少系統(tǒng)失敗的組合,從而降低風險。

人為因素

研究表明,任何具有人機界面的系統(tǒng)最終都會因漏洞而失敗。漏洞是數(shù)據(jù)中心設施中可能導致故障的任何可能的弱點。數(shù)據(jù)中心的漏洞可能與基礎(chǔ)設施或設施運營有關(guān)?;A(chǔ)設施涉及設備和系統(tǒng),特別是:

? 機械和電氣可靠性。

? 設施的設計、冗余和拓撲。

這些行動涉及人為因素,其中包括個人和管理層面的人為錯誤。它涉及:

? 運營團隊的應變能力。

? 團隊對漏洞的反應情況。

系統(tǒng)越復雜,人為因素就越脆弱,運營設施所需的培訓和學習就越多。學習不僅適用于個人,也適用于組織。組織學習的特點是成熟度和流程(在下圖中顯示為累積經(jīng)驗),例如圍繞數(shù)據(jù)中心結(jié)構(gòu)和資源、維護、變更管理、文檔管理、調(diào)試和可操作性,以及可維護性。

個人學習是知識、經(jīng)驗和態(tài)度的函數(shù)(在圖表上顯示為經(jīng)驗的深度)。開發(fā)組織和個人學習的環(huán)境有助于降低故障率,并為操作人員提供有效減少能源浪費的專業(yè)知識。

通用學習曲線應用于數(shù)據(jù)中心

重要的是要理解,由于失敗和經(jīng)驗之間的關(guān)系遵循指數(shù)曲線,因此永遠不能實現(xiàn)零失敗。擁有良好知識和經(jīng)驗豐富的數(shù)據(jù)中心設施操作人員仍然容易自滿,并且會遇到一系列先前未知事件的失敗。

結(jié)論

通過提供可以改善組織和個人知識的學習環(huán)境,降低數(shù)據(jù)中心風險。雖然成熟的操作人員具有可以降低故障率的經(jīng)驗,但如果在沒有經(jīng)過充分培訓的情況下實施,則過于復雜的設計仍然會發(fā)生故障。

USA-IDC為您提供免備案服務器 0元試用
立即聯(lián)系在線客服,即可申請免費產(chǎn)品試用服務
立即申請