OPS08-BP01 分析工作負載指標 - 卓越運作支柱

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

OPS08-BP01 分析工作負載指標

實作應用程式遙測之後,請定期分析收集到的指標。雖然延遲、請求、錯誤和容量 (或配額) 可提供深入了解系統效能的洞見,但務必將檢閱業務成果指標視為優先事項。這樣做可確保您所做的資料驅動決策符合您的業務目標。

預期成果:獲得深入工作負載效能的精確洞見,有助於做出資料驅動的決策,確保與業務目標保持一致。

常見的反模式:

  • 單獨分析指標,未能考慮到其對業務目標的影響。

  • 過度依賴技術指標,而輕忽業務指標。

  • 未能時常檢閱指標,而錯失即時決策的機會。

建立此最佳實務的優勢:

  • 增進對於技術表現與業務成果之間相互關聯的了解。

  • 透過即時資料改善了決策過程。

  • 主動識別並緩解問題,不讓問題影響業務成果。

未建立此最佳實務時的曝險等級:

實作指引

利用 Amazon 等工具 CloudWatch 執行指標分析。 CloudWatch 異常偵測和 Amazon DevOpsGuru 等 AWS 服務可用於偵測異常,特別是靜態閾值未知或行為模式更適合異常偵測時。

實作步驟

  1. 分析與檢閱:定期檢閱和解讀您的工作負載指標。

    1. 將業務成果指標視為優先於純粹技術指標的事項。

    2. 了解資料中峰值、下降或模式的重要性。

  2. 使用 Amazon CloudWatch:使用 Amazon CloudWatch 進行集中式檢視和深入分析。

    1. 設定 CloudWatch 儀表板以視覺化您的指標,並隨著時間比較它們。

    2. 使用 中的百分位數 CloudWatch來清楚了解指標分佈,這有助於定義SLAs和理解異常值。

    3. 設定CloudWatch 異常偵測以識別異常模式,而不依賴靜態閾值。

    4. 實作CloudWatch 跨帳戶可觀測性,以監控和疑難排解跨 區域內多個帳戶的應用程式。

    5. 使用 CloudWatch Metric Insights 查詢和分析帳戶和區域的指標資料,識別趨勢和異常。

    6. 套用CloudWatch 指標數學來轉換、彙總或執行指標的計算,以取得更深入的洞見。

  3. 使用 Amazon DevOpsGuru:Amazon DevOpsGuru 納入其機器學習增強型異常偵測,以識別無伺服器應用程式的早期操作問題跡象,並在影響客戶之前對其進行修復。

  4. 根據洞見最佳化:根據您的指標分析做出明智的決策,以調整和改善您的工作負載。

實作計劃的工作量:

資源

相關的最佳實務:

相關文件:

相關影片:

相關範例: