成功的基礎建設監控使得IT團隊能夠確保其公司系統的持續正常運行時間和性能。機器學習(machine learning,ML) 和人工智能 (artificial intelligence,AI) 等技術通過更快地收集和分析來自IT堆疊 (IT stack) 的所有硬體和軟體組件的數據,有利於基礎設施監控。基礎設施的變化比以往任何時候都快,但複雜的系統、應用程序的獨特性和IT技能的缺乏可能會在與這些新技術整合時帶來挑戰。然而,比以往任何時候都更重要的是,系統管理員和DevOps團隊了解機器學習和人工智能如何緩解這些障礙,支持他們掌握基礎設施性能並快速解決出現的問題。
複雜系統的智能監控支持
智能基礎設施監控工具和流程最切實的產出是近乎即時的性能和正常運行時的問題警報,然後可以以高效和有效的方式解決,因此不會發生業務中斷。如果,不使用機器學習和人工智能而仍然依靠手動監控協議,複雜的系統可能會阻礙這些好處。
使用機器學習和人工智能的工具極大地減輕了IT員工的工作量,釋放了關鍵的業務資源並有助於提高整體生產力。這兩種技術都可以自動識別和更新構成企業基礎架構的所有IT堆疊,以使系統保持最新並與既定的關鍵績效指標 (key performance indicators,KPI) 保持一致。此外,即使在IT堆疊不斷變化的情況下,智能產品可以根據設定的標準檢測和考慮這些指標,以便可以識別出基礎設施“不健康”部分並提供早期警報。這大大加快了故障排除工作。
應用差異化
由各種IT堆疊支持的不同應用程序通常會針對其性能和正常運行時間制定獨特的服務水平協議 (service-level agreements,SLA),以及在未達到這些服務水平時的補救措施或處罰。此外,對底層基礎設施造成壓力的系統負載經常發生變化。由於這些原因,重要的是要確定什麼構成了“健康”的IT堆疊,這樣基礎設施的微小部分就不會因為變化而被忽視。
可以對機器學習和人工智能進行編程來跟踪支持“健康”IT堆疊的系統基線。這些技術特別擅長在數據中發現新穎和不尋常的模式。時間推移下,隨著開發人員構建應用程序和系統的方式發生實際變化,監控和可觀察性環境變得越來越複雜,發現和檢測數據中此類模式的能力對於幫助理解數據至關重要,從而進一步減少手動操作搜索,偵探工作和“儀表板凍結”,過去都曾有過類似的經歷。
用智能技術支持IT團隊技能
系統管理員的角色——在更大程度上是開發人員——在過去幾年中發生了變化,變得幾乎和他們所監管的基礎設施一樣複雜。如今,似乎要求開發人員具備基礎設施各個方面的專業知識,從尋常監控到Kubernetes再到機器學習。這可能會對擁有這些技能的開發人員造成相當大的影響,但從更現實的意義上說,能夠做到所有這些事情的開發人員非常難得。行業普遍缺乏這些技能,這就是為什麼機器學習和人工智能可以被視為支持技術的原因——它們可以在一定程度上填補這些空白。
借助內置的智能和自動化功能,機器學習和人工智能甚至可以讓最缺乏經驗的系統管理員或DevOps人員,像專業人員一樣監控複雜的基礎設施,承擔大部分時間密集型工作,圍繞收集和分析數據以及確定故障排除位置。主要目標是讓人坐在駕駛座上,利用機器學習和人工智能來細度地發現系統問題,在IT員工對系統進行故障排除時提供可能與他們最相關的指標或圖表,並減少開發人員的認知負擔。
憑藉智能技術所擁有的巨大優勢,將它們集成到您的IT堆疊中可以幫助緩解複雜系統、應用程序差異化和IT團隊所面臨的技能不足所面臨的挑戰。使機器學習和人工智能在基礎設施監控中有效的重要因素是,使用包含正確公式、算法和自動化的工具,這些工具可以最好地幫助確定您想要的結果是否成功。
2021.07.14 DevOps.com/Blogs/by Andrew Maguire