©2022Dynatrace 實現大規模可觀測性所面臨的5大挑戰 利用自動化和智慧型解決方案來克服障礙 團隊面臨哪些問題 介紹 做好雲端運作 挑戰1 動態多重雲端環境的複雜性 挑戰2 即時監控動態微服務和容器 挑戰4 彼此孤立的Infra、Dev、Ops、Apps和Biz團隊 挑戰5 了解哪些方面的工作能對業務產生正面的影響 結論 需要自動和智慧型可觀測性 挑戰3 實現大規模可觀測性所面臨的挑戰|2 資料和警示的數量、速度和種類 實現大規模可觀測性所面臨的挑戰|3 介紹 做好雲端運作 成功的數位轉型需要每個應用程式和數位服務,以及他們執行所在的動態多重雲端平台彼此之間的完美運作。我們稱之為「做好雲端運作」(CloudDoneRight)。 但是這些動態的高分散式雲端原生科技與其先前的版本,在本質上卻不盡相同。微服務、容器和以軟體定義的雲端基礎結構在網路規模上帶來壓倒性的複雜性。這一切都超出了人工團隊自行管理和擴展的極限。 要了解在這些不斷變化的環境中每時每刻發生的一切,就需要擴展可觀測性。 做好雲端運作 的多監控解決方案使得最佳化基礎 的IT領導人認為,跨多重雲端環境 結構效能和資源消耗變得困難。 —2022年Dynatrace全球資訊長報告 增加工具並不是解決之道 某些團隊錯誤地試圖採用更為孤立的監控工具來解決「大規模可觀測性」問題;並且花了更多時間在手動設定上,因而積累更多科技債務,同時還得設法找出問題所在,並且不得不優先考慮影響最大的工作。 隨著雲端複雜性繼續存在,即使對經驗最豐富的團隊來說,這種方法也變得越來越無法持續,他們不斷地陷入人工密集型的工作當中,因此降低實現最重要目標的效率。 轉變為智慧型可觀測性 為了擴展可觀測性,企業組織必須從根本上改變他們的工作方式,以便加速創新,跟上日新月異的技術堆疊,並且降低團隊間的風險。 當團隊從簡單的觀測和只有在發生問題時才做出反應,轉變為主動理解和積極最佳化的態度時,就能擴展可觀測性。這就釋放出企業預測,甚至自動糾正對業務最重要的問題的能力,並且隨著公司加快發行週期而左移(shiftleft),預生產環境中也自然而然具備這些能力。 公司在決定如何加速數位化轉型時需要了解到,每一個決策都是為了實現可觀測性的最初目標而進行的投資,即主動有效地改善能推動業務成長的使用者體驗。 實現大規模可觀測性所面臨的挑戰|4 做好雲端運作 自動化和智慧缺一不可 無論是選擇DIY,還是買另一個便宜的工具,或是投資於策略性平台,都需要花時間、金錢、人力和品質。為了在這個動態的多重雲端世界獲得成功,優先考慮向業務和客戶交付的價值和速度是十分重要的。 自動化和智慧對於轉變團隊工作方式以快速高效地實現企業規模的可觀測性至關重要。 需求結果 全面涵蓋提高生產力並將更多時間投入創新 自動化無處不在更優質的發行 即時回饋改善客戶體驗 精確的答案降低風險 大規模加速實現業務成果 實現大規模可觀測性所面臨的挑戰|5 實現大規模可觀測性所面臨的挑戰|6 挑戰1 動態多重雲端環境的複雜性 新型科技的可用和實施速度在不斷提高,使得動態環境高速產生的大量資料難以管理導致的複雜性加劇。 這使得IT團隊幾乎不可能在所有的時間都靠人力理解目標環境中資料的關聯方式。因此,團隊必須找到自動化理解這些資料和資料背景的方法,以加速大規模數位轉型。 動態多重雲端環境的複雜性 IT團隊有將近一半的時間花在手動的例 產力流失,並且由於創新延誤而錯 「正常運作」,這導致重大的生 行工作上,以保持雲端環境的 —2022年Dynatrace全球資訊長報告 失一些收入機會。 團隊往往在數位轉型時失敗,因為他們: •被彼此隔絕的資料孤島所阻礙,使他們難以理解不同實體之間的相互依存關係 •對上下游系統發生潛在變化所產生的影響缺乏理解和背景知識 •被迫優先處理手動檢測和普通的工作,而非開發新功能 這些缺點不僅產生不必要的風險,也導致開發人員需要重複勞動,最終給數位化轉型工作和推動創新發展帶來不利的影響。 如何克服難題 自動化對於處理企業生態系統中每個元件的大規模可觀測性以及理解實體之間的依存關係都是絕對必要的。 不可能以人工的方式實現大規模可觀測性。理解動態多雲端環境需要採取自動化方式,以成倍提高現有團隊的生產力,並將精力重點從手動工作轉向能推動實現有形的業務成果。 實現大規模可觀測性所面臨的挑戰|7 動態多重雲端環境的複雜性 為了在日益複雜和不斷擴張的環境中擴展可觀測性並消除盲點,團隊需要由以下技術驅動的自動化方式: 拓撲映射,持續映射元件、雲端服務和潛在的數十億組相互依存的實體之間不斷變化的關係 自動發現新元件,以即時防止覆蓋出現遺漏無原始碼方法,以便在主動最佳化工作和業務驅動創新專案中更好地利用熟練開發人員 這種持續的自動化和永遠在線上的環境使團隊有信心跟上動態技術堆疊,以便更快速實現數位轉型,而無需為了緩慢擴大覆蓋面和增加理解而進行持續部署和手動維護。 實現大規模可觀測性所面臨的挑戰|8 實現大規模可觀測性所面臨的挑戰|9 挑戰2 即時監控動態微服務和容器 短期容器和微服務(如在Kubernetes中管理的那些)提供成功實現現代化所需的速度和敏捷性。然而,科技可能在短短幾秒鐘內上下翻轉的動態特性,為擴展這些科技的可觀測性帶來幾個重大問題。 這些都會導致對應用程式的內部狀態、微服務所依賴的其他相互依存的元件、甚至對科技對使用者產生的影響缺乏理解。 即時監控動態微服務和容器 的IT負責人認為,他們環境中的可觀 的風險,因為團隊發現他們缺乏一種端 測性盲點正在對其數位轉型造成更大 對端監控其技術的簡便方法。 —2022年Dynatrace全球資訊長報告 IT團隊仍然對動態環境中發生的事情視而不見,並且根據不完整的資料採取行動,因為他們: •不了解容器和可能影響容器的上游和下游元件之間的關係 •無法將存取這些微服務的真實使用者的端到端追蹤連接到其執行所在的節點、服務和容器 •缺乏對容器中究竟在執行什麼工作負載的即時可見性 如何克服難題 企業需要跨越多重雲端(包括雲端、舊版系統和混合環境)擴展可觀測性,以應對Kubernetes和容器的動態特性。 實現大規模可觀測性所面臨的挑戰|10 即時監控動態微服務和容器 為了確保將每個微服務和容器都考慮在內,無論其應用時間長短, 團隊都需要即時智慧和自動化功能,包括: 啟動時自動發現容器,以及在每個工作負載中執行的所有內容。 容器外部的拓撲環境,因為異常往往發生在Kubernetes節點、pod、容器和叢集外部。 完整堆疊可見性,從pod,穿過雲端供應商和應用程式,一直到使用者,以了解端對端業務影響。 將自動化和環境以這種速度應用於容器和微服務, IT團隊可以持續理解系統行為,並且可以在大規模之下隔離並精確定位異常的真正源頭。 實現大規模可觀測性所面臨的挑戰|11 實現大規模可觀測性所面臨的挑戰|12 挑戰3 資料和警示的數量、速度和種類 動態多重雲端環境正在成倍地增加發出的遙測資料量,而不堪重負的團隊卻仍在試圖監控每個資料點,然後設法把它搞清楚。 在已經影響到使用者和業務目標之後,已經受到限制的IT資源根本無力應對每個新問題,試圖藉由手動組建、維護和持續觀察潛在的數千個儀表板來了解具體情況。 即時監控動態微服務和容器 然而,這種方法無法擴展,並且仍然面臨著相同的挑戰,而且也無法以同樣的人工密集型理念來解決這些挑戰。 •定義以及重新定義隨動態環境和季節不斷變化的異常閾值對應的「正常值」 •監控「未知的未知」——沒有意識到,不理解,也未監控的問題 •孤立的資料送出混合信號增加警示風暴,加劇團隊疲勞,增加不必要的作戰室 •多個團隊設法透過不同的工具找出問題,以推測根本原因,結果導致更多的指責和抱怨 所有這些都迫使團隊花更多的時間去猜測問題所在、優先順序和根本原因來「保持正常運作」,而不是在使用者受到影響之前持續最佳化和解決問題。 如何克服難題 很顯然,需要使用人工智慧(AI)持續和即時了解異常發生的時間和原因。但從被動轉變為主動的唯一方法是擁有一個不需要學習或訓練的AI。 由於動態多重雲端環境可以在幾秒鐘內發生變化,AI需要知道準確的答案,並且能在業務受到影響之前預測和自動糾正問題。 實現大規模可觀測性所面臨的挑戰|13 即時監控動態微服務和容器 能實現大規模可觀測性的幾個關鍵AI能力: 自動調整閾值基線用於異常偵測,以優先考慮真正重要的事情。 將相關的異常智慧分組為單一問題,以消除團隊間的冗餘工作。 基於因果關係的AI持續運作,提供原始碼層級的分析,可處理數十億組依存關係,並透過完整的故障樹分析立即提供答案。 將答案與外部系統環境 (如ServiceNow和其他ITSM) 整合,以擴展跨越多個團隊的工作流程自動化。 基於因果關係的AI的目標是為工程、基礎結構、營運和應用團隊提供答案,並使他們能專注於處理重要的事情。為每個人都理解的問題提供精確的答案,可以使團隊從相互指責轉變高效跨團隊協作,推動業務成果的實現。 實現大規模可觀測性所面臨的挑戰|14 實現大規模可觀測性所面臨的挑戰|15 彼Inf此ra孤、立De的v、Ops、Apps和 挑戰4 Biz團隊 新型雲端原生科技需要更多的解決方案來測量和監控,但團隊已經深陷於工具擴展的泥淖之中。這種工具擴展加劇了影響創新、降低軟體品質且影響協作的孤島。 彼此孤立的INFRA、DEV、OPS、APPS和BIZ團隊 每個不同的工具和點解決方案都會加大這些孤島 負面影響會擴散到每個繼續努力識別和解決影響最大的問題和優先事項的團隊中。 •資料:缺乏結締組織會導致不同資料模型的連接費時且容易出錯 •環境:對於DevOps和SRE團隊來說,在預生產環境和生產環境中,孤立的可觀測性和監控會影響 「左移」(shift-left)工作的速度和品質 •平台:針對多重雲端平台或混合雲端平台的多種工具為基礎結構和平台營運商帶來可觀測性盲點 •團隊:當每個團隊都在真空中收到警示和症狀提示時,問題和指責就會「翻過牆」轉嫁給其他團隊 如何克服難題 要消除這些彼此孤立的困境,不能只是簡單地把它們拼接在一起。必須透過某一種共同語言將團隊凝聚在一起。使用單一資訊來源彌合這些差距,不但能消除困惑,還能提高各個團隊的生產力。 這種跨團隊協作和更高效的工作環境不只能提高增值產品特色化和最佳化的速度,也能促進更良好的使用者體驗。 實現大規模可觀測性所面臨的挑戰|16 彼此孤立的INFRA、DEV、OPS、APPS和BIZ團隊 幾個關鍵需求使團隊能更高效地協作以實現共同的技術和業務SLIs/SLO: 單一資料模型,可以跨越整個技術堆疊的所有層和元件擴展可觀測性 促進團隊間協作的共用環境,能夠靈活地跨越基礎結構、應用程式、操作和業務資料進行分析 從功能開發’、測試、發行、持續最佳化,到更優質的快速創新,順暢地銜接整個軟體生命週期 實現大規模可觀測性所面臨的挑戰|17 實現大規模可觀測性所面臨的挑戰|18 挑戰5 了面解的哪影些響工作能對業務產生正 即使可以全面觀察並了解後端元件,但是若缺乏前端的使用者視角,還是會大幅削減組織希望藉由擴展可觀測性來創造的有形價值。 了解哪些工作能對業務產生正面的影響 如果前端應用程式效能不佳,就會暴露出理解使用者體驗相關的主要風險: •將前端和後端視角隔斷會導致團隊無法準確地理解科技對使用者和業務目標的影響 •手機應用程式當機、第三方服務、CDN和前端錯誤的關鍵盲點仍然存在 •嘗試使用不同的方案來解決行動和邊緣裝置管道的可觀測性問題,導致團隊不得不忽略某些應用程式 •沒有考慮到在家辦公的員工,可能會損及他們存取必要資源以提供順暢的客戶體驗的能力 忽視應用程式的終端使用者體驗會阻礙團隊根據業務影響程度確定最佳化和問題優先順序的能力。當團隊只關注科技