CloudWatch 多模型端點部署的指標 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

CloudWatch 多模型端點部署的指標

Amazon 為端點 SageMaker 提供指標,以便您可以監控快取命中率、載入的模型數量,以及在多模型端點上載入、下載和上傳的模型等待時間。某些指標與CPUGPU支援的多模型端點不同,因此下列各節說明您可以用於每種多模型端點類型的 Amazon CloudWatch 指標。

如需有關指標的詳細資訊,請參閱 SageMaker 使用 Amazon 監控 Amazon 的指標 CloudWatch多模型端點模型載入指標多模型端點模型執行個體指標。不支援依據模型的指標功能。

CloudWatch CPU支援多模型端點的指標

您可以在CPU支援的多模型端點上監控下列指標。

AWS/SageMaker 命名空間包含下列模型,將指標從呼叫載入 InvokeEndpoint

指標是以 1 分鐘的頻率提供。

如需 CloudWatch 指標保留多久的資訊,請參閱 Amazon 參考 GetMetricStatistics 中的 。 CloudWatch API

多模型端點的模型載入指標

指標 描述
ModelLoadingWaitTime

調用請求為了執行推斷而等候目標模型下載或載入 (或這兩項作業) 的時間間隔。

單位:微秒

有效的統計資訊:平均、總和、下限、上限與範例計數

ModelUnloadingTime

透過容器UnloadModelAPI呼叫卸載模型所需的時間間隔。

單位:微秒

有效的統計資訊:平均、總和、下限、上限與範例計數

ModelDownloadingTime

從 Amazon Simple Storage Service (Amazon S3) 下載模型所花費的時間間隔。

單位:微秒

有效的統計資訊:平均、總和、下限、上限與範例計數

ModelLoadingTime

透過容器LoadModelAPI呼叫載入模型所需的時間間隔。

單位:微秒

有效的統計資訊:平均、總和、下限、上限與範例計數

ModelCacheHit

傳送到已載入模型之多模型端點的 InvokeEndpoint 請求數目。

平均統計資料會顯示已載入模型的請求比率。

單位:無

有效的統計資料:平均、總和、範例計數

多模型端點的模型載入指標維度

維度 描述
EndpointName, VariantName

針對指定端點與變體的 ProductionVariant 篩選端點調用指標。

/aws/sagemaker/Endpoints 命名空間包含從呼叫 到 InvokeEndpoint的下列執行個體指標。

指標是以 1 分鐘的頻率提供。

如需 CloudWatch 指標保留多久的資訊,請參閱 Amazon 參考 GetMetricStatistics 中的 。 CloudWatch API

多模型端點的模型執行個體指標

指標 描述
LoadedModelCount

多模型端點的容器中所載入的模型數目。此指標會按每個執行個體發出。

週期為 1 分鐘的平均統計資料會說明每個執行個體載入的模型平均數目。

總和統計資料會說明端點的所有執行個體中所載入的模型總數目。

此指標追蹤的模型不一定是唯一的,因為模型可能會在端點的多個容器中載入。

單位:無

有效的統計資訊:平均、總和、下限、上限與範例計數

CPUUtilization

每個CPU核心使用率的總和。每個核心範圍的使用CPU率為 0–100。例如,如果有四個 CPUs,CPUUtilization範圍為 0%–400%。

對於端點變體,該值是執行個體上主要容器和補充容器CPU使用率的總和。

單位:百分比

MemoryUtilization

執行個體上的容器使用的記憶體的百分比。此值範圍為 0%–100%。

對於端點變體,值為執行個體上主要容器與輔助容器的記憶體利用率總和。

單位:百分比

DiskUtilization

執行個體容器運用的磁碟空間百分比。此值範圍為 0%–100%。

針對端點變體,值為執行個體上主要容器與輔助容器的磁碟空間利用率總和。

單位:百分比

CloudWatch GPU多模型端點部署的指標

您可以在GPU支援的多模型端點上監控下列指標。

AWS/SageMaker 命名空間包含下列模型,從呼叫 載入指標 InvokeEndpoint

指標是以 1 分鐘的頻率提供。

如需有關 CloudWatch 指標保留多久的資訊,請參閱 Amazon 參考 GetMetricStatistics 中的 。 CloudWatch API

多模型端點的模型載入指標

指標 描述
ModelLoadingWaitTime

調用請求為了執行推斷而等候目標模型下載或載入 (或這兩項作業) 的時間間隔。

單位:微秒

有效的統計資訊:平均、總和、下限、上限與範例計數

ModelUnloadingTime

透過容器UnloadModelAPI呼叫卸載模型所需的時間間隔。

單位:微秒

有效的統計資訊:平均、總和、下限、上限與範例計數

ModelDownloadingTime

從 Amazon Simple Storage Service (Amazon S3) 下載模型所花費的時間間隔。

單位:微秒

有效的統計資訊:平均、總和、下限、上限與範例計數

ModelLoadingTime

透過容器LoadModelAPI呼叫載入模型所需的時間間隔。

單位:微秒

有效的統計資訊:平均、總和、下限、上限與範例計數

ModelCacheHit

傳送到已載入模型之多模型端點的 InvokeEndpoint 請求數目。

平均統計資料會顯示已載入模型的請求比率。

單位:無

有效的統計資料:平均、總和、範例計數

多模型端點的模型載入指標維度

維度 描述
EndpointName, VariantName

針對指定端點與變體的 ProductionVariant 篩選端點調用指標。

/aws/sagemaker/Endpoints 命名空間包含從呼叫 到 InvokeEndpoint的下列執行個體指標。

指標是以 1 分鐘的頻率提供。

如需 CloudWatch 指標保留多久的資訊,請參閱 Amazon 參考 GetMetricStatistics 中的 。 CloudWatch API

多模型端點的模型執行個體指標

指標 描述
LoadedModelCount

多模型端點的容器中所載入的模型數目。此指標會按每個執行個體發出。

週期為 1 分鐘的平均統計資料會說明每個執行個體載入的模型平均數目。

總和統計資料會說明端點的所有執行個體中所載入的模型總數目。

此指標追蹤的模型不一定是唯一的,因為模型可能會在端點的多個容器中載入。

單位:無

有效的統計資訊:平均、總和、下限、上限與範例計數

CPUUtilization

每個CPU核心使用率的總和。每個核心範圍的使用CPU率為 0-100。例如,如果有四個 CPUs,CPUUtilization範圍為 0%–400%。

對於端點變體,該值是執行個體上主要容器和補充容器CPU使用率的總和。

單位:百分比

MemoryUtilization

執行個體上的容器使用的記憶體的百分比。此值範圍為 0%-100%。

對於端點變體,值為執行個體上主要容器與輔助容器的記憶體利用率總和。

單位:百分比

GPUUtilization

執行個體上容器使用的GPU單位百分比。值的範圍範圍可以是 0-100,乘以 的數量GPUs。例如,如果有四個 GPUs,GPUUtilization範圍為 0%–400%。

對於端點變體,該值是執行個體上主要容器和補充容器GPU使用率的總和。

單位:百分比

GPUMemoryUtilization

執行個體上容器使用的GPU記憶體百分比。值範圍為 0-100,乘以 的數量GPUs。例如,如果有四個 GPUs,GPUMemoryUtilization範圍為 0%-400%。

對於端點變體,此值是執行個體上主要容器和補充容器的GPU記憶體使用率總和。

單位:百分比

DiskUtilization

執行個體容器運用的磁碟空間百分比。此值範圍為 0%–100%。

針對端點變體,值為執行個體上主要容器與輔助容器的磁碟空間利用率總和。

單位:百分比