本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
監控 Amazon SageMaker 與 Amazon CloudWatch
您可以 SageMaker 使用 Amazon 監控 Amazon CloudWatch,該 Amazon 會收集原始資料並將其處理為可讀且接近即時的指標。這些統計資料會保留 15 個月,以便您存取歷史資訊,並更清楚 Web 應用程式或服務的執行效能。不過,Amazon CloudWatch 主控台會將搜尋限制為過去 2 週更新的指標。此限制可確保您的命名空間顯示最新的任務。若要繪製指標圖形,但不使用搜尋,請在來源檢視中指定其確切名稱。您也可以設定留意特定閾值的警示,當滿足這些閾值時傳送通知或採取動作。如需詳細資訊,請參閱 Amazon CloudWatch 使用者指南。
SageMaker 量度和維度
SageMaker 端點呼叫測量結果
AWS/SageMaker
命名空間包含從呼叫到的下列要求測量結果 InvokeEndpoint。
指標是以 1 分鐘的頻率提供。
下圖顯示 SageMaker 端點如何與 Amazon SageMaker 執行階段 API 互動。發送請求到端點和接收回應之間的總時間,取決於下列三個要素。
-
網路延遲 — 向執行階段執行階段 API 發出要求,以及從執行 SageMaker 階段執行階 SageMaker 段 API 接收回應所需的時間。
-
額外負荷延遲 — 將要求從 SageMaker 執行階段執行階段 API 傳輸到模型容器,並將回應傳送回 SageMaker 執行階段 API 所需的時間。
-
模型延遲 — 模型容器處理請求,並傳回回應所花費的時間。
![顯示總延遲為網路、額外負荷和模型延遲之總和的範例。](images/cloudwatch-latency-types.png)
如需有關總延遲的詳細資訊,請參閱負載測試 Amazon SageMaker 即時推論端點的最佳實務
端點調用指標
指標 | 描述 |
---|---|
Invocation4XXErrors |
單位:無 有效的統計資訊:平均、總和 |
Invocation5XXErrors |
單位:無 有效的統計資訊:平均、總和 |
InvocationModelErrors |
未產生 2XX HTTP 回應的模型調用請求數。這包含 4XX/5XX 狀態碼、低階插槽錯誤、格式錯誤的 HTTP 回應,以及要求逾時。對於每個錯誤回應,將傳送 1,否則傳送 0。 單位:無 有效的統計資訊:平均、總和 |
Invocations |
傳送到模型端點的 若要取得傳送至模型端點的請求總數量,請使用總和統計。 單位:無 有效的統計資訊:總和 |
InvocationsPerCopy |
由推論元件的每個副本標準化的呼叫數目。 有效的統計資訊:總和 |
InvocationsPerInstance |
傳送至模型的呼叫數目 ( 單位:無 有效的統計資訊:總和 |
ModelLatency |
模型回應 SageMaker 執行階段 API 要求所花費的時間間隔。這個間隔包含傳送請求和從模型容器擷取回應的本機通訊時間,以及在容器中完成推論的時間。 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelSetupTime |
為無伺服器端點啟動新運算資源的所需時間。時間可能有所差異,取決於模型大小、下載模型的所需時間以及容器的啟動時間。 單位:微秒 有效的統計資料:平均、下限、上限、樣本計數與百分位數 |
OverheadLatency |
增加至透 SageMaker 過製造費用回應用戶端要求所花費的時間間隔。此間隔是從 SageMaker 接收請求的時間開始測量,直到它返回響應給客戶端,減去 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
端點調用指標的維度
維度 | 描述 |
---|---|
EndpointName, VariantName |
針對指定端點與變體的 |
InferenceComponentName |
篩選推論元件叫用量度。 |
SageMaker 推論元件測量結果
/aws/sagemaker/InferenceComponents
命名空間包含從主控推論元件之端點呼叫到 InvokeEndpoint的下列測量結果。
指標是以 1 分鐘的頻率提供。
指標 | 描述 |
---|---|
CPUUtilizationNormalized |
每個推論元件副本所報告的 |
GPUMemoryUtilizationNormalized |
每個推論元件副本所報告的 |
GPUUtilizationNormalized |
每個推論元件副本所報告的 |
MemoryUtilizationNormalized |
推論元件的每個副本所 |
推論元件量度的維度
維度 | 描述 |
---|---|
InferenceComponentName |
篩選推論元件量度。 |
SageMaker 多模型端點指標
命AWS/SageMaker
名空間包含下列從呼叫到的模型載入量度 InvokeEndpoint。
指標是以 1 分鐘的頻率提供。
如需有關 CloudWatch 指標保留多久的資訊,請參閱 Amazon CloudWatch API 參考GetMetricStatistics中的。
多模型端點的模型載入指標
指標 | 描述 |
---|---|
ModelLoadingWaitTime |
調用請求為了執行推斷而等候目標模型下載或載入 (或這兩項作業) 的時間間隔。 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelUnloadingTime |
透過容器 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelDownloadingTime |
從 Amazon Simple Storage Service (Amazon S3) 下載模型所花費的時間間隔。 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelLoadingTime |
透過容器 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelCacheHit |
傳送到已載入模型之多模型端點的 平均統計資料會顯示已載入模型的請求比率。 單位:無 有效的統計資料:平均、總和、範例計數 |
多模型端點的模型載入指標維度
維度 | 描述 |
---|---|
EndpointName, VariantName |
針對指定端點與變體的 |
/aws/sagemaker/Endpoints
命名空間包含下列呼叫的執行處理測量結果。 InvokeEndpoint
指標是以 1 分鐘的頻率提供。
如需有關 CloudWatch 指標保留多久的資訊,請參閱 Amazon CloudWatch API 參考GetMetricStatistics中的。
多模型端點的模型執行個體指標
指標 | 描述 |
---|---|
LoadedModelCount |
多模型端點的容器中所載入的模型數目。此指標會按每個執行個體發出。 週期為 1 分鐘的平均統計資料會說明每個執行個體載入的模型平均數目。 總和統計資料會說明端點的所有執行個體中所載入的模型總數目。 此指標追蹤的模型不一定是唯一的,因為模型可能會在端點的多個容器中載入。 單位:無 有效的統計資訊:平均、總和、下限、上限與範例計數 |
多模型端點的模型載入指標維度
維度 | 描述 |
---|---|
EndpointName, VariantName |
針對指定端點與變體的 |
SageMaker 工作和端點指標
/aws/sagemaker/ProcessingJobs
、/aws/sagemaker/TrainingJobs
、/aws/sagemaker/TransformJobs
和 /aws/sagemaker/Endpoints
命名空間包含以下關於訓練任務和端點執行個體的指標。
指標是以 1 分鐘的頻率提供。
注意
Amazon CloudWatch 支援高解析度自訂指標,其最佳解析度為 1 秒。但是,分辨率越細,指標的壽命就越短。 CloudWatch 對於 1 秒頻率解析度,指 CloudWatch 標可使用 3 小時。如需有關 CloudWatch 指標解析度和壽命的詳細資訊,請參閱 Amazon CloudWatch API 參考GetMetricStatistics中的。
提示
如果您想要以更精細的解析度 (最小到 100 毫秒) (0.1 秒) 的精細度來分析訓練任務,並隨時在 Amazon S3 中無限期存放訓練指標以進行自訂分析,請考慮使用 Amazon Debug。 SageMaker SageMaker 偵錯工具提供內建規則,可自動偵測常見的訓練問題;它可偵測硬體資源使用率問題 (例如 CPU、GPU 和 I/O 瓶頸) 和非融合模型問題 (例如過度適應、消失漸層和爆炸的張量)。 SageMaker 調試器還通過工作室經典及其分析報告提供可視化。若要探索偵錯工具視覺效果,請參閱SageMaker 偵錯工具見解儀表板逐步解說、偵錯工具分析報告逐步解說和使用 SMDebug 用戶端程式庫分
處理任務、訓練任務、批次轉換任務和端點執行個體指標
指標 | 描述 |
---|---|
CPUReservation |
執行個體上容器保留的 CPU 總和。該值的範圍介於 0% — 100% 之間。在推論元件的設定中,您可以使用 |
CPUUtilization |
每個個別 CPU 核心使用率的總和。每個核心範圍的 CPU 利用率為 0 到 100。例如,如果有四個 CPU,則 CPUUtilization 的範圍為 0% 到 400%。針對處理任務,值為執行個體上處理容器的 CPU 使用率。針對訓練任務,值為執行個體上演算法容器的 CPU 利用率總和。 針對批次轉換任務,值為執行個體上轉換容器的 CPU 利用率總和。 對於端點變體,值為執行個體上主要容器與輔助容器的 CPU 利用率總和。 注意若為多執行個體任務,則每個執行個體會報告 CPU 利用率指標。不過,中的預設檢視 CloudWatch 會顯示所有執行個體的平均 CPU 使用率。 單位:百分比 |
CPUUtilizationNormalized |
每個個別 CPU 核心使用率的標準化總和。該值的範圍介於 0% — 100% 之間。例如,如果有四個 CPU,而 |
DiskUtilization |
執行個體所用容器使用的磁碟空間百分比。此值範圍為 0%–100%。批次轉換任務不支援這個指標。 針對處理任務,值為執行個體上處理容器的磁碟空間使用率。針對訓練任務,值為執行個體上演算法容器的磁碟空間利用率總和。 針對端點變體,值為執行個體上主要容器與輔助容器的磁碟空間利用率總和。 單位:百分比 注意若為多執行個體任務,則每個執行個體會報告磁碟使用率指標。不過,中的預設檢視 CloudWatch 會顯示所有執行個體的平均磁碟使用率。 |
GPUMemoryUtilization |
執行個體上的容器使用的 GPU 記憶體的百分比。取值為 0 - 100 ,並乘以 GPU 數量。例如,如有四個 GPU, 針對訓練任務,值為執行個體上演算法容器的 GPU 記憶體利用率總和。 針對批次轉換任務,值為執行個體上轉換容器的 GPU 記憶體利用率總和。 對於端點變體,值為執行個體上主要容器與輔助容器的 GPU 記憶體利用率總和。 注意若為多執行個體任務,則每個執行個體會報告 GPU 記憶體使用率指標。不過,中的預設檢視 CloudWatch 會顯示所有執行個體的平均 GPU 記憶體使用率。 單位:百分比 |
GPUMemoryUtilizationNormalized |
執行個體上容器使用的標準化 GPU 記憶體百分比。該值的範圍介於 0% — 100% 之間。例如,如果有四個 GPU,而 |
GPUReservation |
執行個體上容器保留的 GPU 總和。該值的範圍介於 0% — 100% 之間。在推論元件的設定中,您可以依據 |
GPUUtilization |
執行個體上的容器使用的 GPU 單位的百分比。此值的範圍可介於 0—100 之間,並乘以 GPU 數目。例如,如有四個 GPU, 針對訓練任務,值為執行個體上演算法容器的 GPU 利用率總和。 針對批次轉換任務,值為執行個體上轉換容器的 GPU 利用率總和。 對於端點變體,值為執行個體上主要容器與輔助容器的 GPU 利用率總和。 注意若為多執行個體任務,則每個執行個體會報告 GPU 使用率指標。不過,中的預設檢視 CloudWatch 會顯示所有執行個體的平均 GPU 使用率。 單位:百分比 |
GPUUtilizationNormalized |
執行個體上容器所使用的 GPU 單元標準化百分比。該值的範圍介於 0% — 100% 之間。例如,如果有四個 GPU,而 |
MemoryReservation |
執行個體上容器保留的記憶體總和。該值的範圍介於 0% — 100% 之間。在推論元件的設定中,您可以使用 |
MemoryUtilization |
執行個體上的容器使用的記憶體的百分比。此值範圍為 0%–100%。 針對處理任務,值為執行個體上處理容器的記憶體使用率。針對訓練任務,值為執行個體上演算法容器的記憶體利用率總和。 針對批次轉換任務,值為執行個體上轉換容器的記憶體利用率總和。 對於端點變體,值為執行個體上主要容器與輔助容器的記憶體利用率總和。 單位:百分比 注意若為多執行個體任務,則每個執行個體會報告記憶體使用率指標。不過,中的預設檢視 CloudWatch 會顯示所有執行個體的平均記憶體使用率。 |
處理任務、訓練任務、批次轉換任務和執行個體指標的維度
維度 | 描述 |
---|---|
Host |
針對訓練任務,此維度的值格式為 對於訓練任務,此維度的值格式為 針對批次轉換任務,此維度的值格式為 |
SageMaker 推論推薦工作量度
/aws/sagemaker/InferenceRecommendationsJobs
命名空間包含下列推論建議程式的任務指標。
推論建議程式指標
指標 | 描述 |
---|---|
ClientInvocations |
根據推論建議程式觀察所得,傳送至模型端點的 單位:無 有效的統計資訊:總和 |
ClientInvocationErrors |
根據推論建議程式觀察所得,傳送至模型端點的失敗 單位:無 有效的統計資訊:總和 |
ClientLatency |
推論建議程式所觀察到的傳送 單位:毫秒 有效的統計資料:平均、總和、下限、上限、樣本計數與百分位數 |
NumberOfUsers |
傳送 單位:無 有效的統計資料:上限、下限、平均 |
推論建議程式任務指標的維度
維度 | 描述 |
---|---|
JobName |
篩選推論建議程式任務的指定推論建議程式任務指標。 |
EndpointName |
篩選指定端點的推論建議程式任務指標。 |
SageMaker Ground Truth 度量
Ground Truth 指標
指標 | 描述 |
---|---|
ActiveWorkers |
私有工作團隊中,單一使用中工作者已提交、釋放或拒絕任務。若要取得使用中工作者的總數,請使用總和統計資料。Ground Truth 嘗試提供每個個別的 單位:無 有效統計資訊:總和、範例數量 |
DatasetObjectsAutoAnnotated |
標籤工作中自動註釋的資料集物件數量。這個指標只會在啟用自動化標籤時發出。請使用上限指標檢視標籤工作進度。 單位:無 有效統計資訊:Max |
DatasetObjectsHumanAnnotated |
標籤工作中人工註釋的資料集物件數量。請使用上限指標檢視標籤工作進度。 單位:無 有效統計資訊:Max |
DatasetObjectsLabelingFailed |
標籤工作中無法標籤的資料集物件數量。請使用上限指標檢視標籤工作進度。 單位:無 有效統計資訊:Max |
JobsFailed |
單一標籤工作失敗。請使用總和統計資料取得失敗的標籤工作總數量。 單位:無 有效統計資訊:總和、範例數量 |
JobsSucceeded |
單一標籤工作成功。請使用總和統計資料取得成功的標籤工作總數量。 單位:無 有效統計資訊:總和、範例數量 |
JobsStopped |
單一標籤工作已停止。請使用總和統計資料取得已停止的標籤工作總數量。 單位:無 有效統計資訊:總和、範例數量 |
TasksAccepted |
工作者接受了單一任務。若要取得工作者接受的任務數量,請使用總和的統計資料。Ground Truth 嘗試提供每個個別的 單位:無 有效統計資訊:總和、範例數量 |
TasksDeclined |
工作者拒絕了單一任務。若要取得工作者拒絕的任務數量,請使用總和的統計資料。Ground Truth 嘗試提供每個個別的 單位:無 有效統計資訊:總和、範例數量 |
TasksReturned |
傳回單一任務。若要取得工作者已傳回的任務數量,請使用總和統計資料。Ground Truth 嘗試提供每個個別的 單位:無 有效統計資訊:總和、範例數量 |
TasksSubmitted |
單一任務是由私有工作者提交/完成的。若要取得工作者已提交的任務數量,請使用總和的統計資料。Ground Truth 嘗試提供每個個別的 單位:無 有效統計資訊:總和、範例數量 |
TimeSpent |
私有工作者完成任務所花費的時間。此量度不包含工作者暫停或休息的時間。Ground Truth 嘗試傳遞 單位:秒 有效統計資訊:總和、範例數量 |
TotalDatasetObjectsLabeled |
標籤工作中成功標籤的資料集物件數量。請使用上限指標檢視標籤工作進度。 單位:無 有效統計資訊:Max |
資料集物件指標的維度
維度 | 描述 |
---|---|
LabelingJobName |
標籤工作的篩選條件資料集物件計數指標。 |
Amazon SageMaker 功能商店指標
Feature Store 使用量指標
指標 | 描述 |
---|---|
ConsumedReadRequestsUnits |
在指定期間內,消耗的讀取單位數量。您可以擷取 Feature Store 執行期操作,及其對應的特徵群組所消耗的讀取單位。 單位:無 有效的統計資訊:All |
ConsumedWriteRequestsUnits |
在指定期間內,消耗的寫入單位數量。您可以擷取 Feature Store 執行期操作,及其對應特徵群組的所消耗的寫入單位。 單位:無 有效的統計資訊:All |
ConsumedReadCapacityUnits |
指定期間內使用的佈建讀取容量單位數目。您可以擷取功能存放區執行階段作業及其對應圖徵群組的已耗用讀取容量單位。 單位:無 有效的統計資訊:All |
ConsumedWriteCapacityUnits |
指定期間內使用的佈建寫入容量單位數目。您可以擷取圖徵倉庫執行階段作業及其對應圖徵群組的已耗用寫入容量單位。 單位:無 有效的統計資訊:All |
Feature Store 使用量指標的維度
維度 | 描述 |
---|---|
FeatureGroupName , OperationName |
篩選所指定的 Feature Store 執行期使用量指標及特徵群組。 |
Feature Store 操作指標
指標 | 描述 |
---|---|
Invocations |
指定期間內對 Feature Store 執行期操作發出的請求數。 單位:無 有效的統計資訊:總和 |
Operation4XXErrors |
對 Feature Store 執行期操作發出的請求數,其中操作會傳回 4xx HTTP 回應碼。對於每個 4xx 回應,將傳送 1,否則傳送 0。 單位:無 有效的統計資訊:平均、總和 |
Operation5XXErrors |
對 Feature Store 執行期操作發出的請求數,其中操作會傳回 5xx HTTP 回應碼。對於每個 5xx 回應,將傳送 1,否則傳送 0。 單位:無 有效的統計資訊:平均、總和 |
ThrottledRequests |
在 Feature Store 執行期操作中受節制的請求數。對於每個調節請求,將傳送 1,否則傳送 0。 單位:無 有效的統計資訊:平均、總和 |
Latency |
處理對 Feature Store 執行期操作發出請求的時間間隔。此間隔是從 SageMaker 接收請求的時間開始測量,直到它返回給客戶端的響應。 單位:微秒 有效的統計資料:平均、總和、下限、上限、樣本計數與百分位數 |
Feature Store 操作指標的維度
維度 | 描述 |
---|---|
|
篩選所指定的 Feature Store 執行期操作指標及特徵群組。您可以將這些維度用於非批次作業 GetRecord,例如 PutRecord、和 DeleteRecord。 |
OperationName |
篩選指定操作的 Feature Store 執行期操作指標。您可以將此維度用於批次作業,例如 BatchGetRecord。 |
SageMaker 管道指標
AWS/Sagemaker/ModelBuildingPipeline
命名空間包含下列管道執行的指標。
有兩種可用的管道執行指標類別:
-
所有管道執行指標 — 帳戶層級管道執行指標 (適用於目前帳戶中的所有管道)
-
依管道分類的執行指標 — 每個管道的管道執行指標
指標是以 1 分鐘的頻率提供。
管道執行指標
指標 | 描述 |
---|---|
ExecutionStarted |
管道執行啟動的數量。 單位:計數 有效的統計資訊:平均、總和 |
ExecutionFailed |
管道執行失敗的數量。 單位:計數 有效的統計資訊:平均、總和 |
ExecutionSucceeded |
管道執行成功的數量。 單位:計數 有效的統計資訊:平均、總和 |
ExecutionStopped |
管道執行已停止的數量。 單位:計數 有效的統計資訊:平均、總和 |
ExecutionDuration |
管道執行的持續時間 (以毫秒為單位)。 單位:毫秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
根據管道分類的執行指標維度
維度 | 描述 |
---|---|
PipelineName |
篩選指定管道的管道執行指標。 |
管道步驟指標
AWS/Sagemaker/ModelBuildingPipeline
命名空間包含下列管道步驟的指標。
指標是以 1 分鐘的頻率提供。
指標 | 描述 |
---|---|
StepStarted |
已啟動的步驟數。 單位:計數 有效的統計資訊:平均、總和 |
StepFailed |
已失敗的步驟數。 單位:計數 有效的統計資訊:平均、總和 |
StepSucceeded |
已成功的步驟數。 單位:計數 有效的統計資訊:平均、總和 |
StepStopped |
已停止的步驟數。 單位:計數 有效的統計資訊:平均、總和 |
StepDuration |
步驟執行的持續時間 (以毫秒為單位)。 單位:毫秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
管道步驟指標維度
維度 | 描述 |
---|---|
PipelineName , StepName |
篩選指定管道和步驟的步驟指標。 |