CloudWatch 警示選項 - AWS 規定指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

CloudWatch 警示選項

對重要指標執行一次性自動分析可幫助您在問題影響您的工作負載之前檢測和解決問題。 CloudWatch 可以通過在特定時間段內使用多個統計信息來輕鬆繪製和比較多個指標。您可以使用 CloudWatch 以搜索具有所需維度值的所有量度,以查找分析所需的指標。

我們建議您通過包含一組初始衡量指標和維度來開始衡量指標捕獲方法,以便用作監視工作負載的基線。隨着時間的推移,工作負載逐漸成熟,您可以添加其他指標和維度來幫助您進一步分析和支持它。應用程序或工作負載可能會使用多個AWS資源並擁有自己的自定義指標,則應將這些資源分組在命名空間下,以便更易於識別這些資源。

您還應該考慮日誌記錄和監控數據的關聯方式,以便您可以快速識別相關的日誌記錄和監控數據,以診斷特定問題。您可以使用CloudWatch ServiceLens以關聯跟蹤、指標、日誌和警報以診斷問題。您還應考慮在工作負載日誌中的指標和標識符中包含其他維度,以幫助您快速搜索和識別跨系統和服務的問題。

使用 CloudWatch 警示來監控和警示

您可以使用CloudWatch 警示以減少工作負載或應用程序中的手動監控。首先,您應該查看為每個工作負載組件捕獲的度量,並確定每個度量的適當閾值。確保您確定在違反閾值時必須通知哪些團隊成員。您應該建立和定位通訊組,而不是單個團隊成員。

CloudWatch 警報可以與您的服務管理解決方案集成,以自動創建新票證並運行操作工作流程。例如:AWS提供AWSService Management ConnectorServiceNowJira ServiceLens,以協助您快速設定集成。此方法對於確保發出的警報得到確認並與可能已在這些產品中定義的現有操作工作流程保持一致至關重要。

您還可以為具有不同閾值和評估週期的同一指標創建多個警報,這有助於建立升級過程。例如,如果您有OrderQueueDepth衡量指標,您可以在短時間內定義一個較低的閾值,通過電子郵件或Slack。您還可以在相同閾值的 15 分鐘內為同一指標定義另一個警報,並通知應用團隊和應用程序團隊的負責人。最後,您可以為 30 分鐘內的硬平均閾值定義第三個警報,通知上層管理層並通知所有團隊成員之前通知。創建多個警報可幫助您針對不同條件採取不同的操作。您可以從一個簡單的通知流程開始,然後根據需要進行調整和改進。

使用 CloudWatch 用於監控和報警的異常檢測

您可以使用CloudWatch 異常偵測如果您不確定要應用於特定指標的閾值,或者您希望警報根據觀察到的歷史值自動調整閾值。 CloudWatch 異常檢測對於可能具有定期、可預測的活動變化的指標尤其有用,例如,當天交貨的每日採購訂單在截止時間之前增加。異常檢測可實現自動調整的閾值,並有助於減少誤報。您可以為每個指標和統計信息啟用異常檢測,並配置 CloudWatch 以基於異常值進行警報。

例如,您可以啟用異常檢測CPUUtilization指標和AVGEC2 執行個體的統計資料。然後,異常檢測使用長達 14 天的歷史數據來創建機器學習 (ML) 模型。您可以創建具有不同異常檢測頻段的多個警報,以建立警報升級過程,類似於創建具有不同閾值的多個標準警報。

如需此章節的詳細資訊,請參建立以異常偵測為基礎的 CloudWatch 警示中的 CloudWatch 文件中)。

跨多個區域和帳户執行個體警示

應用程序和工作負載所有者應為跨多個區域的工作負載創建應用程序級別的警報。我們建議在部署工作負載的每個帳户和區域中創建單獨的警報。您可以通過使用帳户和地區不可知的方式簡化和自動化此過程AWS CloudFormation StackSets 和模板來部署具有所需警報的應用程序資源。模板您可以將警報操作配置為針對常見的 Amazon SSimple Notification Service (Amazon SNS) 主題,這意味着使用相同的通知或修正操作,而不管賬户或區域如何。

在多賬户和多區域環境中,我們建議您為您的帳户和地區創建聚合警報,以便通過使用AWS CloudFormation StackSets 和聚合衡量指標,如平均CPUUtilization跨所有 EC2 執行個體。

您還應該考慮為每個配置為標準 CloudWatch 指標和日誌。例如,您可以為每個 EC2 實例創建一個單獨的警報,以監控 CPU 利用率指標,並在每天平均 CPU 使用率超過 80% 時通知中央運營團隊。您還可以創建標準警報,每天監控平均 CPU 使用率低於 10%。這些警報可幫助中央運營團隊與特定的工作負載所有者合作,以便在需要時更改 EC2 實例的大小。

使用 EC2 實例標籤自動創建警報

為 EC2 實例創建一組標準警報可能非常耗時、不一致且容易出錯。您可以通過使用亞馬遜雲監視自動報警解決方案為 EC2 實例自動創建一組標準的 CloudWatch 警報,並根據 EC2 實例標籤創建自定義警報。該解決方案無需手動創建標準警報,並且在使用 CloudEndure 等工具的 EC2 實例的大規模遷移期間非常有用。您也可以將此解決方案與AWS CloudFormation StackSets 以支持多個區域和帳號。如需詳細資訊,請參閱「」使用標籤創建和維護亞馬遜 CloudWatch Amazon EC2 執行個體的警示在AWS部落格。