OPS04-BP04 實作相依性遙測 - AWS 建構良好的架構

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

OPS04-BP04 實作相依性遙測

對於監控工作負載所依賴的外部服務和元件運作狀況與效能,相依性遙測至關重要,它提供與相依性相關的可連線性、逾時和其他重要事件的寶貴洞見DNS,例如 、 資料庫或第三方 APIs。檢測應用程式以產生有關這些相依性的指標、日誌和追蹤,便可更清楚了解可能影響工作負載的潛在瓶頸、效能問題或故障。

預期成果:確保工作負載所依賴的相依性如預期般正常運作,讓您能夠主動解決問題並確保最佳的工作負載效能。

常見的反模式:

  • 忽略外部相依性:僅關注內部應用程式指標,而忽略與外部相依性相關的指標。

  • 缺乏主動監控:等待問題出現,而非持續監控相依性的運作狀況與效能。

  • 單獨運作的監控:使用多種分散的監控工具,如此可能導致僅片段掌握相依性運作狀況且獲得的資訊不一致。

建立此最佳實務的優勢:

  • 改善工作負載可靠性:確保外部相依性穩定運作並保持最佳效能。

  • 更快偵測並解決問題:主動找出並解決相依性相關問題,不讓問題影響工作負載。

  • 全方位視角:獲得全方位視角,有效掌握影響工作負載運作狀況的內部和外部元件。

  • 增強工作負載可擴展性:了解外部相依性的可擴展性限制與效能特性。

未建立此最佳實務時的曝險等級:

實作指引

從識別您的工作負載所依賴的服務、基礎設施和程序開始,實作相依性遙測。將相依性正常運作時的良好條件量化,然後判斷衡量時所需的資料。有了這些資訊,您就可以打造儀表板並設定警示,以便為營運團隊提供這些相依性狀態的洞見。使用 AWS 工具來探索和量化相依性無法視需要交付時的影響。持續重新檢視您的策略,以考量優先順序、目標和獲得的洞見的變化。

實作步驟

若要有效實作相依性遙測:

  1. 識別外部相依性:與利益相關者協作,共同找出工作負載所依賴的外部相依性。外部相依性可以涵蓋外部資料庫、第三方 APIs、其他環境的網路連線路由,以及 DNS服務等服務。實現有效相依性遙測的第一步,就是徹底了解這些相依性。

  2. 擬訂監控策略:清楚了解外部相依性之後,就可以為其量身打造監控策略。這涉及了解每個相依性的重要性、其預期行為,以及任何相關聯的服務層級協議或目標 (SLA 或 SLTs)。設定主動警示,以便在發生狀態變更或效能偏差時通知您。

  3. 使用網路監控使用網際網路監控網路監控,全面了解全球網際網路和網路狀況。這些工具可協助您了解並回應影響外部相依性的停機、中斷或效能降低。

  4. 透過 隨時掌握最新資訊AWS Health Dashboard它在 AWS 遇到可能會影響您服務的事件時提供提醒和修復指引。

    1. AWS Health 使用 Amazon EventBridge 規則 監控事件,或以程式設計方式與 AWS Health API 整合,以便在接收 AWS Health 事件時自動執行動作。這些動作可以是一般動作 (例如將所有規劃的生命週期事件訊息傳送至聊天介面) 或是特定動作 (例如在 IT 服務管理工具中啟動工作流程)。

    2. 如果您使用 AWS Organizations,請在帳戶之間彙總 AWS Health 事件

  5. 透過 AWS X-Ray:提供應用程式及其基礎相依性執行方式的洞見,為您的應用程式進行測試 AWS X-Ray 。透過從頭到尾追蹤請求,您就可以找出應用程式所依賴的外部服務或元件的瓶頸或故障。

  6. 使用 Amazon DevOpsGuru 此機器學習驅動服務可識別操作問題、預測可能發生重大問題的時間,並建議要採取的特定動作。對於獲得相依性洞見並確保其不是造成操作問題的根源來說,這項服務非常寶貴。

  7. 定期監控:持續監控與外部相依性相關的指標和日誌。針對非預期的行為或效能降低的情況設定警示。

  8. 變更後驗證:每當有任何外部相依性更新或變更,便驗證其效能並檢查是否符合您的應用程式需求。

實作計劃的工作量:

資源

相關的最佳實務:

相關文件:

相關影片:

相關範例: