使用可觀測性儀表板監控叢集 - Amazon EKS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用可觀測性儀表板監控叢集

Amazon EKS 主控台包含可觀測性儀表板,可讓您掌握叢集的效能。此儀表板中的資訊可協助您快速偵測、疑難排解和修復問題。您可以在運作狀態和效能摘要中選擇項目,開啟儀表板的適用區段。此摘要包含在數個位置,包括可觀測性索引標籤。

儀表板分為數個索引標籤。

Summary

運作狀態和效能摘要列出各種類別的項目數量。每個數字都充當儀表板中具有該類別清單位置的超連結。

叢集運作狀態問題

叢集運作狀態問題是需要注意的重要通知,其中有些可能需要儘快採取行動。透過此清單,您可以查看描述和受影響的資源。若要重新整理狀態,請選擇重新整理按鈕 ( ↻ )。

如需詳細資訊,請參閱具有解析路徑的叢集運作狀態 FAQs 和錯誤碼

控制平面監控

控制平面監控索引標籤分為三個區段,每個區段都可協助您監控叢集的控制平面並進行疑難排解。

指標

指標區段顯示針對各種控制平面元件收集的數個指標圖表。此特定功能僅適用於平台版本與下表相同或更新版本的新叢集和先前的叢集。

Kubernetes 版本 平台版本

1.31

eks.12

1.30

eks.20

1.29

eks.23

1.28

eks.29

您可以在區段頂端進行選擇,以設定每個圖形的 X 軸所使用的時段。您可以使用重新整理按鈕重新整理資料 ( ↻ )。對於每個單獨的圖形,垂直省略號按鈕 ( ⋮ ) 會開啟具有 CloudWatch 選項的選單。

這些指標等會自動作為AWS/EKS命名空間下 in CloudWatch 的基本監控指標。如需詳細資訊,請參閱 Amazon CloudWatch 使用者指南中的基本監控和詳細監控。若要取得更詳細的指標、視覺化和洞見,請參閱 Amazon CloudWatch 使用者指南中的 Container Insights。或者,如果您偏好 Prometheus 型監控,請參閱 使用 Prometheus 監控叢集指標

下表說明可用的指標。

指標 描述

APIServer請求

對 API 伺服器發出的每分鐘請求。

APIServer 請求總數 4XX

具有 API 4XX 回應碼 (用戶端錯誤) 的每分鐘 HTTP 伺服器請求計數。

APIServer 請求總數 5XX

具有 API 5XX 回應碼 (伺服器端錯誤) 的每分鐘 HTTP 伺服器請求計數。

APIServer 請求總數 429

具有 API 429 回應碼 (太多請求) 的每分鐘 HTTP 伺服器請求計數。

儲存體大小

儲存資料庫 (etcd) 大小。

排程器嘗試

依結果 "unschedulable" "error" 和 "scheduled" 排程 Pod 的嘗試次數。

待定 Pod

依「作用中」、「退避」、「不可排程」和「門控」佇列類型的待處理 Pod 數量。

API 伺服器請求延遲

API 伺服器請求的延遲。

API 伺服器目前的機上請求

API 伺服器目前的進行中請求。

Webhook 請求

Webhook 每分鐘請求數。

Webhook 請求拒絕

被拒絕的 webhook 請求計數。

Webhook 請求延遲 P99

外部第三方 Webhook 請求的第 99 百分位數延遲。

CloudWatch Log Insights

CloudWatch Log Insights 區段會根據控制平面稽核日誌顯示各種清單。需要開啟 Amazon EKS 控制平面日誌才能使用此功能,您可以從 CloudWatch 的檢視控制平面日誌區段中執行此操作。

當已過足夠的時間收集資料時,您可以執行所有查詢,或一次為單一清單選擇執行查詢。每當您執行查詢時, CloudWatch 都會產生額外的成本。選擇您要在區段頂端檢視的結果時段。如果您想要對任何查詢進行更進階的控制,您可以選擇檢視 in CloudWatch。這可讓您更新 in CloudWatch 查詢,以符合您的需求。

如需詳細資訊,請參閱 Amazon CloudWatch Logs 使用者指南中的使用 CloudWatch Logs Insights 分析日誌資料

檢視 in CloudWatch 的控制平面日誌

選擇管理日誌來更新可用的日誌類型。啟用記錄後,日誌需要幾分鐘才會出現在 CloudWatch Logs 中。經過足夠的時間後,請選擇本節中的任何檢視連結,以導覽至適用的日誌。

如需詳細資訊,請參閱將控制平面日誌傳送至 CloudWatch Logs

叢集洞察

升級洞見會同時列出問題並建議修正動作,加速升級至新 Kubernetes 版本的驗證程序。Amazon EKS 會根據影響問題的潛在 Kubernetes 版本升級清單自動掃描叢集。升級洞見表列出 Amazon EKS 針對此叢集執行的洞見檢查,以及其相關聯的狀態。

Amazon EKS 會根據 Kubernetes 專案的變更評估,以及與新版本綁定的 Amazon EKS 服務變更,維護並定期重新整理要執行的洞見檢查清單。Amazon EKS 主控台會自動重新整理每個洞見的狀態,這可以在上次重新整理時間欄中看到。

如需詳細資訊,請參閱使用叢集洞察為 Kubernetes 版本升級做好準備