本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
準備
要為卓越營運做好準備,您必須了解您的工作負載及其預期行為。然後,您就能將其設計出來,以了解它們的狀態並建置可提供支援的程序。
設計您的工作負載,使其提供必要資訊,讓您了解所有元件的內部狀態 (例如,指標、日誌、事件和追蹤),以支援可觀測性和調查問題。可觀測性不僅是單純的監控,還可根據系統的外部輸出全面了解系統的內部運作狀況。基於指標、日誌和追蹤,可觀測性為系統行為和動態提供深刻的見解。透過有效的可觀測性,團隊可以辨別模式、異常情況和趨勢,讓他們能夠主動解決潛在問題並維持最佳的系統運作狀態。識別關鍵績效指標 (KPIs) 至關重要,以確保監控活動與業務目標之間保持一致。這種一致性可確保團隊使用真正重要的指標來做出資料驅動的決策,從而最佳化系統效能和業務成果。此外,可觀測性使企業能夠主動出擊,而不是被動應對。團隊可以了解 cause-and-effect其系統內的關係,預測和預防問題,而不只是對問題做出反應。隨著工作負載的演進,務必重新檢視並改進可觀測性策略,以保持相關性和有效性。
採用的方法需能夠改善變更進入生產環境的流程,並實現重構、快速品質意見回饋及錯誤修復。這會加快有助益的變更進入生產環境的速度、限制部署問題,並快速識別和修復部署活動所導致或在您的環境中所發現的問題。
採用可快速提供品質意見回饋,並從成果不盡理想的改變中快速復原的方法。使用這些實務可緩解部署變更所帶來問題的影響。為變更失敗做好規劃,以便在必要時能夠快速回應,同時測試並驗證所做變更。了解環境中的計劃內活動,以便管理會影響計劃內活動的變更風險。強調頻繁、細微、可逆的變更,以限制變更範圍。透過回復變更,可以更快地進行疑難排解和修復。這也表示您從有價值變更中受益的頻率會提高。
評估工作負載、流程、程序及人員的營運準備度,以了解與工作負載相關的營運風險。使用一致的程序 (包括手動或自動檢查清單) 來獲悉工作負載或變更執行就緒的時間。這樣也有助於尋找您必須制定計畫以解決問題的任何領域。具備可記錄例行活動的執行手冊,以及可指引問題解決程序的程序手冊。了解收益和風險,以做出明智決策,讓變更順利進入生產環境。
AWS 可讓您將整個工作負載 (應用程式、基礎設施、政策、治理和操作) 檢視為程式碼。這表示您可以將用於應用程式程式碼的相同工程規則套用到堆疊的每個元素,並在團隊或組織之間分享這些元素,以擴大開發工作的優勢。在雲端以程式碼執行營運,並利用安全進行試驗的能力,開發工作負載、營運程序以及實務失敗案例。使用 AWS CloudFormation 可讓您擁有一致、範本化、沙盒開發、測試和生產環境,並提高操作控制層級。
下列問題著重於卓越營運方面的這些考量。
OPS 4:如何在工作負載中實作可觀測性? |
---|
在工作負載中實作可觀測性,以便了解其狀態,並根據業務需求做出資料驅動的決策。 |
OPS 5:如何減少瑕疵、簡化修復並改善進入生產的流程? |
---|
採用可改進生產變更流程的方法,從而重構快速的品質回饋及錯誤修復。這些方法會加快有助益的改變發揮作用的速度、限制部署問題,並快速識別和修復部署活動造成的問題。 |
OPS 6:如何降低部署風險? |
---|
採用可快速提供品質意見回饋,並從成果不盡理想的改變中快速復原的方法。使用這些實務可緩解部署變更所帶來問題的影響。 |
OPS 7:您如何知道自己已準備好支援工作負載? |
---|
評估工作負載、流程和程序及人員的營運準備度,了解工作負載相關營運風險。 |
對以程式碼形式實作營運活動進行投資,從而最大程度地提高營運人員的生產力,將錯誤率降至最低以及實現自動回應。使用「事前剖析」可預測失敗並適時建立程序。使用 Resource Tags 套用中繼資料,並 AWS Resource Groups 遵循一致的標記策略來識別您的資源。標記您的資源,以用於組織、成本會計、存取控制,以及將自動執行營運活動設為目標。採用可利用雲端彈性的部署實務,以促進開發活動和系統的預部署,進而加快實作速度。變更您用於評估工作負載的檢查清單時,請計劃如何處理不再合規的即時系統。