選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

使用 Amazon CloudWatch 監控叢集資料

焦點模式
使用 Amazon CloudWatch 監控叢集資料 - Amazon EKS

協助改善此頁面

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

若要提供此使用者指南,請選擇位於每個頁面右窗格的在 GitHub 上編輯此頁面連結。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

協助改善此頁面

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

若要提供此使用者指南,請選擇位於每個頁面右窗格的在 GitHub 上編輯此頁面連結。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon CloudWatch 是一種監控服務,可從雲端資源收集指標和日誌。CloudWatch 使用版本 1.28和更新版本的新叢集時,可免費提供一些基本的 Amazon EKS 指標。不過,使用 CloudWatch 可觀測性運算子做為 Amazon EKS 附加元件時,您可以取得增強的可觀測性功能。

Amazon CloudWatch 中的基本指標

對於 Kubernetes 版本 1.28 及更高版本的叢集,您可以在 AWS/EKS 命名空間中免費取得 CloudWatch 已販賣的指標。下表提供適用於支援版本的基本指標清單。列出的每個指標的頻率為一分鐘。

指標名稱 描述

scheduler_schedule_attempts_total

排程器在指定期間內排程叢集中 Pod 的嘗試次數。此指標有助於監控排程器的工作負載,並可能指出排程壓力或 Pod 放置的潛在問題。

單位:計數

有效統計資料:總和

scheduler_schedule_attempts_SCHEDULED

排程器在指定期間內將 Pod 排程到叢集中節點的成功嘗試次數。

單位:計數

有效統計資料:總和

scheduler_schedule_attempts_UNSCHEDULABLE

由於有效限制,例如節點上的 CPU 或記憶體不足,在指定期間內無法排程的 Pod 嘗試次數。

單位:計數

有效統計資料:總和

scheduler_schedule_attempts_ERROR

由於排程器本身的內部問題,例如 API Server 連線問題,在指定期間內失敗的 Pod 嘗試次數。

單位:計數

有效統計資料:總和

scheduler_pending_pods

叢集中排程器在指定期間內要排程的待處理 Pod 總數。

單位:計數

有效統計資料:總和

scheduler_pending_pods_ACTIVEQ

activeQ 中等待在叢集中排程一段指定期間的待處理 Pod 數量。

單位:計數

有效統計資料:總和

scheduler_pending_pods_UNSCHEDULABLE

排程器嘗試排程和失敗的待定 Pod 數量,並維持在無法排程的狀態以供重試。

單位:計數

有效統計資料:總和

scheduler_pending_pods_BACKOFF

backoffQ 處於退避狀態且等待退避期間過期的 中的待定 Pod 數量。

單位:計數

有效統計資料:總和

scheduler_pending_pods_GATED

目前等待處於鎖定狀態的待定 Pod 數量,因為在符合必要條件之前無法排程。

單位:計數

有效統計資料:總和

apiserver_request_total

叢集中所有 API 伺服器提出的 HTTP 請求數量。

單位:計數

有效統計資料:總和

apiserver_request_total_4XX

對叢集中產生 4XX(用戶端錯誤) 狀態碼的所有 API 伺服器提出的 HTTP 請求數量。

單位:計數

有效統計資料:總和

apiserver_request_total_429

對叢集中所有 API 伺服器提出的 HTTP 請求數量,這些請求會產生429狀態碼,當用戶端超過速率限制閾值時就會發生。

單位:計數

有效統計資料:總和

apiserver_request_total_5XX

對叢集中產生 5XX(伺服器錯誤) 狀態碼的所有 API 伺服器提出的 HTTP 請求數量。

單位:計數

有效統計資料:總和

apiserver_request_total_LIST_PODS

對叢集中所有 API 伺服器提出的 LIST Pod 請求數量。

單位:計數

有效統計資料:總和

apiserver_request_duration_seconds_PUT_P99

從叢集中所有 API 伺服器的所有PUT請求計算的請求的第 99 個百分位數。代表低於 99% 的所有PUT請求完成的回應時間。

單位:

有效統計資料:平均

apiserver_request_duration_seconds_PATCH_P99

從叢集中所有 API 伺服器的所有PATCH請求計算的請求的第 99 個百分位數延遲。代表低於 99% 的所有PATCH請求完成的回應時間。

單位:

有效統計資料:平均

apiserver_request_duration_seconds_POST_P99

從叢集中所有 API 伺服器的所有POST請求計算的請求的第 99 個百分位數延遲。代表低於 99% 的所有POST請求完成的回應時間。

單位:

有效統計資料:平均

apiserver_request_duration_seconds_GET_P99

從叢集中所有 API 伺服器的所有GET請求計算的請求的第 99 個百分位數延遲。代表低於 99% 的所有GET請求完成的回應時間。

單位:

有效統計資料:平均

apiserver_request_duration_seconds_LIST_P99

從叢集中所有 API 伺服器的所有LIST請求計算的請求的第 99 個百分位數延遲。代表低於 99% 的所有LIST請求完成的回應時間。

單位:

有效統計資料:平均

apiserver_request_duration_seconds_DELETE_P99

從叢集中所有 API 伺服器的所有DELETE請求計算的請求的第 99 個百分位數延遲。代表低於 99% 的所有DELETE請求完成的回應時間。

單位:

有效統計資料:平均

apiserver_current_inflight_requests_MUTATING

叢集中所有 API 伺服器目前正在處理的變動請求數量 (POSTPUTDELETE、、PATCH)。此指標代表正在進行中且尚未完成處理的請求。

單位:計數

有效統計資料:總和

apiserver_current_inflight_requests_READONLY

叢集中所有 API 伺服器目前正在處理的唯讀請求 (GETLIST) 數量。此指標代表正在進行中且尚未完成處理的請求。

單位:計數

有效統計資料:總和

apiserver_admission_webhook_request_total

叢集中所有 API 伺服器發出的許可 Webhook 請求數目。

單位:計數

有效統計資料:總和

apiserver_admission_webhook_request_total_ADMIT

叢集中所有 API 伺服器之間發出的變動許可 Webhook 請求數目。

單位:計數

有效統計資料:總和

apiserver_admission_webhook_request_total_VALIDATING

驗證叢集中所有 API 伺服器發出的許可 Webhook 請求數目。

單位:計數

有效統計資料:總和

apiserver_admission_webhook_rejection_count

在叢集中所有 API 伺服器之間提出的許可 Webhook 請求數量已被拒絕。

單位:計數

有效統計資料:總和

apiserver_admission_webhook_rejection_count_ADMIT

在叢集中所有 API 伺服器之間發出且已拒絕的變動許可 Webhook 請求數目。

單位:計數

有效統計資料:總和

apiserver_admission_webhook_rejection_count_VALIDATING

驗證叢集中所有 API 伺服器之間所提出的許可 Webhook 請求數量,已遭到拒絕。

單位:計數

有效統計資料:總和

apiserver_admission_webhook_admission_duration_seconds

第三方許可 Webhook 請求的第 99 個百分位數,從叢集中所有 API 伺服器的所有請求計算得出。代表低於 99% 的第三方許可 Webhook 請求完成的回應時間。

單位:

有效統計資料:平均

apiserver_admission_webhook_admission_duration_seconds_ADMIT_P99

第三方變動許可 Webhook 請求的延遲第 99 個百分位數,從叢集中所有 API 伺服器的所有請求計算。代表回應時間低於 99% 的第三方變動許可 Webhook 請求完成的時間。

單位:

有效統計資料:平均

apiserver_admission_webhook_admission_duration_seconds_VALIDATING_P99

第三方驗證從叢集中所有 API 伺服器的所有請求計算的許可 Webhook 請求的延遲第 99 個百分位數。代表回應時間低於 99% 的所有驗證許可 Webhook 請求的第三方完成時間。

單位:

有效統計資料:平均

apiserver_storage_size_bytes

叢集中 API 伺服器所使用的已壓縮儲存資料庫檔案的實體大小,以位元組為單位。此指標代表為儲存配置的實際磁碟空間。

單位:位元組

有效統計資料:上限

Amazon CloudWatch 可觀測性運算子

Amazon CloudWatch Observability 會收集即時日誌、指標和追蹤資料。它會將其傳送至 Amazon CloudWatchAWS X-Ray。您可以安裝此附加元件來啟用 CloudWatch Application Signals 和 CloudWatch Container Insights,搭配 Amazon EKS 的增強可觀測性。這有助於監控基礎設施和容器化應用程式的運作狀態與效能。Amazon CloudWatch Observability Operator 旨在安裝和設定必要的元件。

Amazon EKS 支援 CloudWatch 可觀測性運算子做為 Amazon EKS 附加元件。附加元件可在叢集中的 Linux 和 Windows 工作者節點上允許 Container Insights。若要在 Windows 上啟用 Container Insights,Amazon EKS 附加元件版本必須為 1.5.0或更高版本。Amazon EKS Windows 目前不支援 CloudWatch Application Signals。

以下主題說明如何開始使用適用於 Amazon EKS 叢集的 CloudWatch Observability Operator。

下一個主題:

控制平面日誌

上一個主題:

控制平台
隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。