本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SageMaker 使用 Amazon 監控 Amazon 的指標 CloudWatch
您可以使用 Amazon 監控 SageMaker Amazon CloudWatch,這會收集原始資料並將其處理為可讀取的近乎即時的指標。這些統計資料會保留 15 個月。使用它們,您可以存取歷史資訊,並更好地了解 Web 應用程式或服務的表現。不過,Amazon CloudWatch 主控台會將搜尋限制為過去 2 週內更新的指標。此限制可確保您的命名空間顯示最新的任務。
若要繪製指標圖形,但不使用搜尋,請在來源檢視中指定其確切名稱。您也可以設定留意特定閾值的警示,當滿足這些閾值時傳送通知或採取動作。如需詳細資訊,請參閱 Amazon CloudWatch 使用者指南 。
SageMaker 指標和維度
SageMaker 端點調用指標
AWS/SageMaker
命名空間包含從呼叫 到 InvokeEndpoint的下列請求指標。
指標是以 1 分鐘的頻率提供。
下圖顯示 SageMaker 端點如何與 Amazon SageMaker Runtime 互動API。發送請求到端點和接收回應之間的總時間,取決於下列三個要素。
-
網路延遲 – 從 SageMaker 執行期 向 發出請求和接收回應之間需要的時間API。
-
額外負荷延遲 – 從模型容器傳輸請求,並將回應傳回 SageMaker 執行期 所需的時間API。
-
模型延遲 — 模型容器處理請求,並傳回回應所花費的時間。
如需總延遲的詳細資訊,請參閱負載測試 Amazon SageMaker 即時推論端點的最佳實務
端點調用指標
指標 | 描述 |
---|---|
ConcurrentRequestsPerCopy |
推論元件接收的並行請求數,由推論元件的每個複本標準化。 有效統計資料:最小值、最大值 |
ConcurrentRequestsPerModel |
模型正在接收的並行請求數目。 有效統計資料:最小值、最大值 |
Invocation4XXErrors |
模型傳回 4xx HTTP回應碼的 單位:無 有效的統計資訊:平均、總和 |
Invocation5XXErrors |
模型傳回 5xx HTTP回應碼的 單位:無 有效的統計資訊:平均、總和 |
InvocationModelErrors |
未導致 2XX HTTP回應的模型調用請求數目。這包括 4XX/5XX 狀態碼、低階通訊端錯誤、格式不正確的HTTP回應和請求逾時。對於每個錯誤回應,將傳送 1,否則傳送 0。 單位:無 有效的統計資訊:平均、總和 |
Invocations |
傳送到模型端點的 若要取得傳送至模型端點的請求總數量,請使用總和統計。 單位:無 有效的統計資訊:總和 |
InvocationsPerCopy |
每個推論元件複本標準化的叫用次數。 有效的統計資訊:總和 |
InvocationsPerInstance |
傳送至模型的叫用次數,由 在每個 單位:無 有效的統計資訊:總和 |
ModelLatency |
模型回應 SageMaker 執行期API請求所花費的時間間隔。此間隔包含傳送請求和從模型容器擷取回應所需的本機通訊時間。它還包括在容器中完成推論所需的時間。 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelSetupTime |
為無伺服器端點啟動新運算資源的所需時間。時間可能有所差異,取決於模型大小、下載模型的所需時間以及容器的啟動時間。 單位:微秒 有效的統計資料:平均、下限、上限、樣本計數與百分位數 |
OverheadLatency |
新增至依 SageMaker 額外負荷回應用戶端請求所需時間的時間間隔。此間隔是從 SageMaker 收到請求的時間開始測量,直到傳回回應給用戶端為止,減去 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
端點調用指標的維度
維度 | 描述 |
---|---|
EndpointName, VariantName |
針對指定端點與變體的 |
InferenceComponentName |
篩選推論元件調用指標。 |
SageMaker 推論元件指標
/aws/sagemaker/InferenceComponents
命名空間包含下列指標,從 呼叫到託管推論元件的 InvokeEndpoint端點。
指標是以 1 分鐘的頻率提供。
指標 | 描述 |
---|---|
CPUUtilizationNormalized |
每個推論元件複本報告的 |
GPUMemoryUtilizationNormalized |
每個推論元件複本報告的 |
GPUUtilizationNormalized |
每個推論元件複本報告的 |
MemoryUtilizationNormalized |
每個推論元件複本所 |
推論元件指標的維度
維度 | 描述 |
---|---|
InferenceComponentName |
篩選推論元件指標。 |
SageMaker 多模型端點指標
AWS/SageMaker
命名空間包含下列模型,從呼叫 載入指標 InvokeEndpoint。
指標是以 1 分鐘的頻率提供。
如需有關 CloudWatch 指標保留多久的資訊,請參閱 Amazon 參考 GetMetricStatistics 中的 。 CloudWatch API
多模型端點的模型載入指標
指標 | 描述 |
---|---|
ModelLoadingWaitTime |
調用請求等待目標模型下載、載入或兩者同時執行推論的時間間隔。 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelUnloadingTime |
透過容器 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelDownloadingTime |
從 Amazon Simple Storage Service (Amazon S3) 下載模型所花費的時間間隔。 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelLoadingTime |
透過容器 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelCacheHit |
傳送到已載入模型之多模型端點的 平均統計資料會顯示已載入模型的請求比率。 單位:無 有效的統計資料:平均、總和、範例計數 |
多模型端點的模型載入指標維度
維度 | 描述 |
---|---|
EndpointName, VariantName |
針對指定端點與變體的 |
/aws/sagemaker/Endpoints
命名空間包含從呼叫 到 InvokeEndpoint的下列執行個體指標。
指標是以 1 分鐘的頻率提供。
如需 CloudWatch 指標保留多久的資訊,請參閱 Amazon 參考 GetMetricStatistics 中的 。 CloudWatch API
多模型端點的模型執行個體指標
指標 | 描述 |
---|---|
LoadedModelCount |
多模型端點的容器中所載入的模型數目。此指標會按每個執行個體發出。 週期為 1 分鐘的平均統計資料會說明每個執行個體載入的模型平均數目。 總和統計資料會說明端點的所有執行個體中所載入的模型總數目。 此指標追蹤的模型不一定是唯一的,因為模型可能會在端點的多個容器中載入。 單位:無 有效的統計資訊:平均、總和、下限、上限與範例計數 |
多模型端點的模型載入指標維度
維度 | 描述 |
---|---|
EndpointName, VariantName |
針對指定端點與變體的 |
SageMaker 任務和端點指標
/aws/sagemaker/ProcessingJobs
、/aws/sagemaker/TransformJobs
、 /aws/sagemaker/TrainingJobs
和 /aws/sagemaker/Endpoints
命名空間包含訓練任務和端點執行個體的下列指標。
指標是以 1 分鐘的頻率提供。
注意
Amazon CloudWatch 支援高解析度自訂指標,其最佳解析度為 1 秒。 https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html不過,解析度越精細, CloudWatch 指標的生命週期越短。對於 1 秒頻率解析度, CloudWatch 指標可使用 3 小時。如需 CloudWatch 指標的解析度和生命週期的詳細資訊,請參閱 Amazon 參考 GetMetricStatistics 中的 。 CloudWatch API
提示
若要以更精細的解析度描述您的訓練任務,直到 100 毫秒 (0.1 秒) 精細度,並無限期地將訓練指標存放在 Amazon S3 中,以便隨時進行自訂分析,請考慮使用 Amazon SageMaker Debugger 。 SageMaker Debugger 提供內建規則,以自動偵測常見的訓練問題。它可偵測硬體資源使用問題 (例如 CPU、 GPU和 I/O 瓶頸)。它也會偵測非聚合模型問題 (例如過度搭配、消除漸層和爆炸張量)。 SageMaker Debugger 也透過 Studio Classic 及其分析報告提供視覺化效果。若要探索偵錯工具視覺化效果,請參閱SageMaker 偵錯工具洞察儀表板演練 、偵錯工具分析報告演練 ,以及使用SMDebug用戶端程式庫 分析資料。
處理任務、訓練任務、批次轉換任務和端點執行個體指標
指標 | 描述 |
---|---|
CPUReservation |
執行個體上容器CPUs預留的 總和。值範圍介於 0%–100% 之間。在推論元件的設定中,您可以使用 |
CPUUtilization |
每個CPU核心使用率的總和。每個核心範圍的使用CPU率為 0–100。例如,如果有四個 CPUs,CPUUtilization 範圍為 0%–400%。對於處理任務,該值是執行個體上處理容器的使用CPU率。對於訓練任務,該值是執行個體上演算法容器的使用CPU率。 對於批次轉換任務,該值是執行個體上轉換容器的使用CPU率。 對於端點變體,該值是執行個體上主要容器和補充容器CPU使用率的總和。 注意對於多執行個體任務,每個執行個體都會報告CPU使用率指標。不過, 中的預設檢視 CloudWatch 會顯示所有執行個體的平均CPU使用率。 單位:百分比 |
CPUUtilizationNormalized |
每個CPU核心使用率的標準化總和。值範圍介於 0%–100% 之間。例如,如果有四個 CPUs,且 |
DiskUtilization |
執行個體所用容器使用的磁碟空間百分比。此值範圍為 0%–100%。批次轉換任務不支援這個指標。 針對處理任務,值為執行個體上處理容器的磁碟空間使用率。針對訓練任務,值為執行個體上演算法容器的磁碟空間利用率總和。 針對端點變體,值為執行個體上主要容器與輔助容器的磁碟空間利用率總和。 單位:百分比 注意若為多執行個體任務,則每個執行個體會報告磁碟使用率指標。不過, 中的預設檢視 CloudWatch 會顯示所有執行個體的平均磁碟使用率。 |
GPUMemoryUtilization |
執行個體上容器使用的GPU記憶體百分比。值範圍為 0–100,乘以 的數量GPUs。例如,如果有四個 GPUs, 對於訓練任務,該值是執行個體上演算法容器的GPU記憶體使用率。 對於批次轉換任務,此值為執行個體上轉換容器的GPU記憶體使用率。 對於端點變體,此值是執行個體上主要容器和補充容器的GPU記憶體使用率總和。 注意對於多執行個體任務,每個執行個體都會報告GPU記憶體使用率指標。不過, 中的預設檢視 CloudWatch 會顯示所有執行個體的平均GPU記憶體使用率。 單位:百分比 |
GPUMemoryUtilizationNormalized |
執行個體上容器GPU使用的記憶體標準化百分比。值的範圍介於 0%–100% 之間。例如,如果有四個 GPUs,且 |
GPUReservation |
執行個體上容器GPUs預留的 總和。值的範圍介於 0%–100% 之間。在推論元件的設定中,您由 設定GPU保留 |
GPUUtilization |
執行個體上容器使用的GPU單位百分比。值的範圍介於 0–100 之間,乘以 的數量GPUs。例如,如果有四個 GPUs, 對於訓練任務,該值是執行個體上演算法容器的使用GPU率。 對於批次轉換任務,此值為執行個體上轉換容器的使用GPU率。 對於端點變體,該值是執行個體上主要容器和補充容器GPU使用率的總和。 注意對於多執行個體任務,每個執行個體都會報告GPU使用率指標。不過, 中的預設檢視 CloudWatch 會顯示所有執行個體的平均GPU使用率。 單位:百分比 |
GPUUtilizationNormalized |
執行個體上容器使用的標準化GPU單位百分比。值的範圍介於 0%–100% 之間。例如,如果有四個 GPUs,且 |
MemoryReservation |
執行個體上容器預留的記憶體總和。值的範圍介於 0%–100% 之間。在推論元件的設定中,您可以使用 |
MemoryUtilization |
執行個體上的容器使用的記憶體的百分比。此值範圍為 0%–100%。 針對處理任務,值為執行個體上處理容器的記憶體使用率。針對訓練任務,值為執行個體上演算法容器的記憶體利用率總和。 針對批次轉換任務,值為執行個體上轉換容器的記憶體利用率總和。 對於端點變體,值為執行個體上主要容器與輔助容器的記憶體利用率總和。 單位:百分比 注意若為多執行個體任務,則每個執行個體會報告記憶體使用率指標。不過, 中的預設檢視 CloudWatch 會顯示所有執行個體的平均記憶體使用率。 |
處理任務、訓練任務、批次轉換任務和執行個體指標的維度
維度 | 描述 |
---|---|
Host |
針對訓練任務,此維度的值格式為 對於訓練任務,此維度的值格式為 針對批次轉換任務,此維度的值格式為 |
SageMaker 推論建議程式任務指標
/aws/sagemaker/InferenceRecommendationsJobs
命名空間包含下列推論建議程式的任務指標。
推論建議程式指標
指標 | 描述 |
---|---|
ClientInvocations |
根據推論建議程式觀察所得,傳送至模型端點的 單位:無 有效的統計資訊:總和 |
ClientInvocationErrors |
根據推論建議程式觀察所得,傳送至模型端點的失敗 單位:無 有效的統計資訊:總和 |
ClientLatency |
推論建議程式所觀察到的傳送 單位:毫秒 有效的統計資料:平均、總和、下限、上限、樣本計數與百分位數 |
NumberOfUsers |
傳送 單位:無 有效的統計資料:上限、下限、平均 |
推論建議程式任務指標的維度
維度 | 描述 |
---|---|
JobName |
篩選推論建議程式任務的指定推論建議程式任務指標。 |
EndpointName |
篩選指定端點的推論建議程式任務指標。 |
SageMaker Ground Truth 指標
Ground Truth 指標
指標 | 描述 |
---|---|
ActiveWorkers |
私有工作團隊中,單一使用中工作者已提交、釋放或拒絕任務。若要取得使用中工作者的總數,請使用總和統計資料。Ground Truth 會嘗試一次交付每個個別 單位:無 有效統計資訊:總和、範例數量 |
DatasetObjectsAutoAnnotated |
標籤工作中自動註釋的資料集物件數量。這個指標只會在啟用自動化標籤時發出。請使用上限指標檢視標籤工作進度。 單位:無 有效統計資訊:Max |
DatasetObjectsHumanAnnotated |
標籤工作中人工註釋的資料集物件數量。請使用上限指標檢視標籤工作進度。 單位:無 有效統計資訊:Max |
DatasetObjectsLabelingFailed |
標籤工作中無法標籤的資料集物件數量。請使用上限指標檢視標籤工作進度。 單位:無 有效統計資訊:Max |
JobsFailed |
單一標籤工作失敗。請使用總和統計資料取得失敗的標籤工作總數量。 單位:無 有效統計資訊:總和、範例數量 |
JobsSucceeded |
單一標籤工作成功。請使用總和統計資料取得成功的標籤工作總數量。 單位:無 有效統計資訊:總和、範例數量 |
JobsStopped |
單一標籤工作已停止。請使用總和統計資料取得已停止的標籤工作總數量。 單位:無 有效統計資訊:總和、範例數量 |
TasksAccepted |
工作者接受了單一任務。若要取得工作者接受的任務數量,請使用總和的統計資料。Ground Truth 嘗試提供每個個別的 單位:無 有效統計資訊:總和、範例數量 |
TasksDeclined |
工作者拒絕了單一任務。若要取得工作者拒絕的任務數量,請使用總和的統計資料。Ground Truth 嘗試提供每個個別的 單位:無 有效統計資訊:總和、範例數量 |
TasksReturned |
傳回單一任務。若要取得工作者已傳回的任務數量,請使用總和統計資料。Ground Truth 嘗試提供每個個別的 單位:無 有效統計資訊:總和、範例數量 |
TasksSubmitted |
單一任務是由私有工作者提交/完成的。若要取得工作者已提交的任務數量,請使用總和的統計資料。Ground Truth 嘗試提供每個個別的 單位:無 有效統計資訊:總和、範例數量 |
TimeSpent |
私有工作者完成任務所花費的時間。此量度不包含工作者暫停或休息的時間。Ground Truth 嘗試傳遞 單位:秒 有效統計資訊:總和、範例數量 |
TotalDatasetObjectsLabeled |
標籤工作中成功標籤的資料集物件數量。請使用上限指標檢視標籤工作進度。 單位:無 有效統計資訊:Max |
資料集物件指標的維度
維度 | 描述 |
---|---|
LabelingJobName |
標籤工作的篩選條件資料集物件計數指標。 |
Amazon SageMaker Feature Store 指標
Feature Store 使用量指標
指標 | 描述 |
---|---|
ConsumedReadRequestsUnits |
在指定期間內,消耗的讀取單位數量。您可以擷取 Feature Store 執行期操作,及其對應的特徵群組所消耗的讀取單位。 單位:無 有效的統計資訊:All |
ConsumedWriteRequestsUnits |
在指定期間內,消耗的寫入單位數量。您可以擷取 Feature Store 執行期操作,及其對應特徵群組的所消耗的寫入單位。 單位:無 有效的統計資訊:All |
ConsumedReadCapacityUnits |
在指定期間內耗用的佈建讀取容量單位數量。您可以擷取特徵存放區執行期操作及其對應特徵群組的已耗用讀取容量單位。 單位:無 有效的統計資訊:All |
ConsumedWriteCapacityUnits |
在指定期間內使用的佈建寫入容量單位數量。您可以擷取特徵存放區執行期操作及其對應特徵群組的取用寫入容量單位。 單位:無 有效的統計資訊:All |
Feature Store 使用量指標的維度
維度 | 描述 |
---|---|
FeatureGroupName , OperationName |
篩選所指定的 Feature Store 執行期使用量指標及特徵群組。 |
Feature Store 操作指標
指標 | 描述 |
---|---|
Invocations |
指定期間內對 Feature Store 執行期操作發出的請求數。 單位:無 有效的統計資訊:總和 |
Operation4XXErrors |
對 Feature Store 執行期操作提出的請求數量,其中操作傳回 4xx HTTP回應碼。對於每個 4xx 回應,會傳送 1;否則,會傳送 0。 單位:無 有效的統計資訊:平均、總和 |
Operation5XXErrors |
對功能存放區執行期操作提出的請求數量,其中操作傳回 5xx HTTP回應碼。對於每個 5xx 回應,會傳送 1;否則,會傳送 0。 單位:無 有效的統計資訊:平均、總和 |
ThrottledRequests |
在 Feature Store 執行期操作中受節制的請求數。對於每個限流請求,會傳送 1;否則,會傳送 0。 單位:無 有效的統計資訊:平均、總和 |
Latency |
處理對 Feature Store 執行期操作發出請求的時間間隔。此間隔是從 SageMaker 收到請求的時間開始測量,直到傳回用戶端的回應為止。 單位:微秒 有效的統計資料:平均、總和、下限、上限、樣本計數與百分位數 |
Feature Store 操作指標的維度
維度 | 描述 |
---|---|
|
篩選所指定的 Feature Store 執行期操作指標及特徵群組。您可以針對非批次操作使用這些維度,例如 GetRecord PutRecord、 和 DeleteRecord。 |
OperationName |
篩選指定操作的 Feature Store 執行期操作指標。您可以將此維度用於批次操作,例如 BatchGetRecord。 |
SageMaker 管道指標
AWS/Sagemaker/ModelBuildingPipeline
命名空間包含下列管道執行的指標。
有兩種可用的管道執行指標類別:
-
所有管道執行指標 — 帳戶層級管道執行指標 (適用於目前帳戶中的所有管道)
-
依管道分類的執行指標 — 每個管道的管道執行指標
指標是以 1 分鐘的頻率提供。
管道執行指標
指標 | 描述 |
---|---|
ExecutionStarted |
管道執行啟動的數量。 單位:計數 有效的統計資訊:平均、總和 |
ExecutionFailed |
管道執行失敗的數量。 單位:計數 有效的統計資訊:平均、總和 |
ExecutionSucceeded |
管道執行成功的數量。 單位:計數 有效的統計資訊:平均、總和 |
ExecutionStopped |
管道執行已停止的數量。 單位:計數 有效的統計資訊:平均、總和 |
ExecutionDuration |
管道執行的持續時間 (以毫秒為單位)。 單位:毫秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
根據管道分類的執行指標維度
維度 | 描述 |
---|---|
PipelineName |
篩選指定管道的管道執行指標。 |
管道步驟指標
AWS/Sagemaker/ModelBuildingPipeline
命名空間包含下列管道步驟的指標。
指標是以 1 分鐘的頻率提供。
指標 | 描述 |
---|---|
StepStarted |
已啟動的步驟數。 單位:計數 有效的統計資訊:平均、總和 |
StepFailed |
已失敗的步驟數。 單位:計數 有效的統計資訊:平均、總和 |
StepSucceeded |
已成功的步驟數。 單位:計數 有效的統計資訊:平均、總和 |
StepStopped |
已停止的步驟數。 單位:計數 有效的統計資訊:平均、總和 |
StepDuration |
步驟執行的持續時間 (以毫秒為單位)。 單位:毫秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
管道步驟指標維度
維度 | 描述 |
---|---|
PipelineName , StepName |
篩選指定管道和步驟的步驟指標。 |