REL06-BP07 透過您的系統監控請求的端對端追蹤
在透過服務元件處理請求時追蹤請求,讓產品團隊可以更輕鬆地分析和偵錯問題,並改善效能。
預期成果:對所有元件進行全面追蹤的工作負載易於偵錯,透過簡化根本原因探查,提高了錯誤和延遲的平均解決時間 (MTTR)。端對端追蹤可縮短探索受影響的元件時間,並詳細剖析錯誤或延遲的根本原因。
常見的反模式:
-
追蹤可用於某些元件,但不適用於所有元件。例如,在未追蹤 AWS Lambda 的情況下,團隊可能無法清楚了解尖峰工作負載中的冷啟動所造成的延遲。
-
未對追蹤設定綜合 Canary 或實際使用者監控 (RUM)。若沒有 Canary 或 RUM,追蹤分析就會省略用戶端互動遙測,而產生不完整的效能設定檔。
-
混合式工作負載同時包含雲端原生和第三方追蹤工具,但未採取相關步驟來選擇及完全整合單一追蹤解決方案。根據選擇的追蹤解決方案,應使用雲端原生追蹤 SDK 來檢測不是雲端原生的元件,或使用第三方工具來擷取雲端原生追蹤遙測。
建立此最佳實務的優勢:當開發團隊收到問題的提醒時,他們可以看到系統元件互動的全貌,包括個別元件與日誌記錄、效能和失敗的關聯性。由於追蹤可讓您輕鬆地以視覺化方式識別根本原因,調查根本原因的所需時間將可縮短。詳細了解元件互動的團隊,可在解決問題時做出更明智、更快速的決策。諸如何時應調用災難復原 (DR) 容錯移轉,或何處最適合實作自我修復策略之類的決策,可藉由分析系統追蹤來改善,最終提升客戶對服務的滿意度。
未建立此最佳實務時的曝險等級:中
實作指引
操作分散式應用程式的團隊,可使用追蹤工具來建立關聯性識別碼、收集請求追蹤,以及建置連網元件的服務圖。所有應用程式元件均應包含在請求追蹤中,包括服務用戶端、中介軟體閘道和事件匯流排、運算元件和儲存體 (包括鍵值存放區和資料庫)。在端對端追蹤組態中包含綜合 Canary 和實際使用者監控,以測量遠端用戶端互動和延遲,以便您根據服務水準協議和目標正確評估系統效能。
您可以使用 AWS X-Ray 和 Amazon CloudWatch 應用程式監控檢測服務,在請求透過您的應用程式傳送時提供完整檢視。X-Ray 會收集應用程式遙測,並可讓您跨承載、函數、追蹤、服務、API 進行視覺化和篩選,並可針對無程式碼或低程式碼的系統元件開啟。CloudWatch 應用程式監控包括 ServiceLens,可將您的追蹤與指標、記錄和警示整合。CloudWatch 應用程式監控也包含用來監控端點和 API 的綜合功能,以及用來檢測 Web 應用程式用戶端的實際使用者監控。
實作步驟
-
在所有受支援的原生服務 (例如 Amazon S3、AWS Lambda 和 Amazon API Gateway) 上使用 AWS X-Ray。這些 AWS 服務可使用基礎設施即程式碼、AWS SDK 或 AWS Management Console 來啟用具有組態切換的 X-Ray。
-
檢測應用程式 AWS Distro for Open Telemetry 和 X-Ray 或第三方收集代理程式。
-
檢閱 AWS X-Ray 開發人員指南,了解程式設計語言特定實作。這些文件章節會詳細說明如何檢測 HTTP 請求、SQL 查詢,以及應用程式設計語言特有的其他程序。
-
使用適用於 Amazon CloudWatch Synthetics Canary 和 Amazon CloudWatch RUM 的 X-Ray 追蹤,分析從最終使用者用戶端到下游 AWS 基礎設施的請求路徑。
-
根據資源運作狀態和 Canary 遙測來設定 CloudWatch 指標和警示,以便團隊快速收到問題的提醒,然後可使用 ServiceLens 深入探討追蹤和服務圖。
-
如果將第三方工具用於主要追蹤解決方案,請為第三方追蹤工具 (例如 Datadog
、New Relic 或 Dynatrace ) 啟用 X-Ray 整合。
資源
相關的最佳實務:
相關文件:
相關範例:
相關影片:
相關工具: