在數(shù)據(jù)中心當中,我們需要在設計、建設以及維護等方面投入大量精力--甚至需要比管理數(shù)據(jù)流更為用心。我們還需要對物理環(huán)境進行深入了解。我們需要讓所有設備運作在合理的溫度,也需要保護設備免受各種潛在風險的干擾--從未經(jīng)授權訪問到帶寬“爆缸”不一而足。
環(huán)境監(jiān)控是數(shù)據(jù)中心建設及維護工作中的重要組成部分,但目前在大部分層面中都沒有得到足夠的重視。在多數(shù)情況下,設計顧問可能在拿出一份數(shù)據(jù)中心設計方案之后就甩手走人,導致整套基礎設施雖然擁有消防及冷卻系統(tǒng)卻缺乏必要的遠程遙測或者監(jiān)控系統(tǒng)。有的時候,服務器的監(jiān)控工作可能要由服務器管理人員負責、網(wǎng)絡體系的監(jiān)控工作由網(wǎng)絡管理人員負責、存儲機制由存儲管理員打理,但卻沒人關注機房本身。
對于剛剛建立起來的全新數(shù)據(jù)中心來說(或者剛剛完成改造的原有數(shù)據(jù)中心),我們需要處理的第一要務在于部署遠程遙測與環(huán)境監(jiān)控系統(tǒng)--不只局限于單一機房的個別區(qū)域,而是整體機房內的多個區(qū)域。自動程控方案及其它類似機制就是此類環(huán)境監(jiān)控系統(tǒng)中的常見分布式部署類型,而且每一家數(shù)據(jù)中心都應該配備這些解決方案。
掌握運行溫度
說起應該監(jiān)控什么、如何實施監(jiān)控,我個人的總體思路是:無論收集多少統(tǒng)計結果與數(shù)據(jù)點都不過分。很顯然,我們需要監(jiān)控溫度,但除了最直觀的機架入口之外、機房的天花板與地板也是監(jiān)控的必要區(qū)域。在理想狀況下,我們應該每隔幾個機架就在前端設置一個溫度傳感器,用于測量流入硬件的空氣的實際溫度。
環(huán)境溫度同樣非常重要,如果數(shù)據(jù)中心內設有熱空氣排放通道、我們還需要在這里設置測量裝置。除此之外,我們也不能忘記測量露點溫度、濕度以及氣流,其具體測試區(qū)域同樣應該覆蓋整套基礎設施。再有,記得為機架安裝開閉傳感器,用于監(jiān)控其何時被打開。
我希望能在機架附近、空調機組附近以及任何潛在水源附近安裝液體感應裝置,這類出于某些原因而未能獨立排布的輸水管道很可能發(fā)生滲漏,因此必須通過感應裝置加以監(jiān)控。大家還可以借助拉繩傳感器測量機架通道的長度。這些傳感器構造簡單,能在接觸到地板上的水流時第一時間發(fā)出警報。振動及煙霧傳感器這些在他人眼中似乎無足輕重的裝置也能為我們服務,用以進一步提升監(jiān)控效果。
當然,攝像頭也是必不可少的。在數(shù)據(jù)中心內部,不應該存在任何攝像頭無法覆蓋的死角。將固定位置與旋轉-變焦攝像頭組合使用,而且至少要在關鍵位置使用具備紅外線功能的攝像頭,從而實現(xiàn)黑暗環(huán)境下的可視需求。
如何處理這些數(shù)據(jù)
有了這么多數(shù)據(jù)收集點,我們已經(jīng)對數(shù)據(jù)中心有了非常深入可視化監(jiān)控基礎--其監(jiān)控范圍涵蓋機房當中的服務器及其它硬件設備。這些數(shù)據(jù)應該得到良好的維護、追蹤以及引導。利用SNMP(即簡單網(wǎng)絡管理協(xié)議)及Cacti等工具、或者由供應商提供的方案,大家應該能夠在任何時間調出任何一個傳感器的數(shù)據(jù)并加以查看。大家還可以比較幾個月來隨著新設備的增加、環(huán)境溫度是否有所提升,也可以驗證特定機架是否處于開啟狀態(tài)。
說起警示系統(tǒng),我們需要經(jīng)過一段時間的實際應用來為某些傳感器找到合理的警報閾值,并通過電子郵件及文本形式交付警報消息。對于高流量數(shù)據(jù)中心來說,大家可能不希望每次有人走進機房就收到警示;但在很多低流量數(shù)據(jù)中心內,這樣的設定就非常必要。無論何時,只要傳感器被觸發(fā)、攝像頭應該立即開始記錄圖片或者視頻,這些圖片及視頻應該被發(fā)送到存儲服務器當中--最理想的狀態(tài)是將結果同步到離線系統(tǒng)當中。
確保自己擁有至少一條模擬電話線路也是個不錯的主意。將這條線路與Linux設備相對接,或者采用3G/4G/LTE數(shù)據(jù)連接能夠在緊急狀態(tài)下自動啟用并發(fā)揮作用。一旦數(shù)據(jù)傳輸線路無法連通,這可能會成為我們檢查數(shù)據(jù)中心的惟一途徑。
如果大家感覺這樣的處理方式太過夸張,不妨問問那些曾經(jīng)在紐約及新澤西的數(shù)據(jù)中心里經(jīng)歷過颶風桑迪的悲催同行們。他們會揭示這樣的真理:即使這種影響巨大、意料之外的環(huán)境災難只發(fā)生一次,也足以證明我們數(shù)據(jù)中心監(jiān)控系統(tǒng)存在的合理性與必要性。我希望大家永遠不要經(jīng)歷同樣的嚴峻考驗,但與此同時,請各位自己不要抱有這樣的僥幸心理。
北京金恒智能系統(tǒng)工程技術有限責任公司 版權所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.
法律聲明:未經(jīng)許可,任何模仿本站模板、轉載本站內容等行為者,本站保留追究其法律責任的權利!
電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號-2網(wǎng)站XML
智慧機房
在線體驗