本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
CloudWatch 多模型端點部署的指標
Amazon 為端點 SageMaker 提供指標,以便您可以監控快取命中率、載入的模型數量,以及在多模型端點上載入、下載和上傳的模型等待時間。某些指標與CPUGPU支援的多模型端點不同,因此下列各節說明您可以用於每種多模型端點類型的 Amazon CloudWatch 指標。
如需有關指標的詳細資訊,請參閱 SageMaker 使用 Amazon 監控 Amazon 的指標 CloudWatch的多模型端點模型載入指標與多模型端點模型執行個體指標。不支援依據模型的指標功能。
CloudWatch CPU支援多模型端點的指標
您可以在CPU支援的多模型端點上監控下列指標。
AWS/SageMaker
命名空間包含下列模型,將指標從呼叫載入 InvokeEndpoint。
指標是以 1 分鐘的頻率提供。
如需 CloudWatch 指標保留多久的資訊,請參閱 Amazon 參考 GetMetricStatistics 中的 。 CloudWatch API
多模型端點的模型載入指標
指標 | 描述 |
---|---|
ModelLoadingWaitTime |
調用請求為了執行推斷而等候目標模型下載或載入 (或這兩項作業) 的時間間隔。 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelUnloadingTime |
透過容器 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelDownloadingTime |
從 Amazon Simple Storage Service (Amazon S3) 下載模型所花費的時間間隔。 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelLoadingTime |
透過容器 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelCacheHit |
傳送到已載入模型之多模型端點的 平均統計資料會顯示已載入模型的請求比率。 單位:無 有效的統計資料:平均、總和、範例計數 |
多模型端點的模型載入指標維度
維度 | 描述 |
---|---|
EndpointName, VariantName |
針對指定端點與變體的 |
/aws/sagemaker/Endpoints
命名空間包含從呼叫 到 InvokeEndpoint的下列執行個體指標。
指標是以 1 分鐘的頻率提供。
如需 CloudWatch 指標保留多久的資訊,請參閱 Amazon 參考 GetMetricStatistics 中的 。 CloudWatch API
多模型端點的模型執行個體指標
指標 | 描述 |
---|---|
LoadedModelCount |
多模型端點的容器中所載入的模型數目。此指標會按每個執行個體發出。 週期為 1 分鐘的平均統計資料會說明每個執行個體載入的模型平均數目。 總和統計資料會說明端點的所有執行個體中所載入的模型總數目。 此指標追蹤的模型不一定是唯一的,因為模型可能會在端點的多個容器中載入。 單位:無 有效的統計資訊:平均、總和、下限、上限與範例計數 |
CPUUtilization |
每個CPU核心使用率的總和。每個核心範圍的使用CPU率為 0–100。例如,如果有四個 CPUs, 對於端點變體,該值是執行個體上主要容器和補充容器CPU使用率的總和。 單位:百分比 |
MemoryUtilization |
執行個體上的容器使用的記憶體的百分比。此值範圍為 0%–100%。 對於端點變體,值為執行個體上主要容器與輔助容器的記憶體利用率總和。 單位:百分比 |
DiskUtilization |
執行個體容器運用的磁碟空間百分比。此值範圍為 0%–100%。 針對端點變體,值為執行個體上主要容器與輔助容器的磁碟空間利用率總和。 單位:百分比 |
CloudWatch GPU多模型端點部署的指標
您可以在GPU支援的多模型端點上監控下列指標。
AWS/SageMaker
命名空間包含下列模型,從呼叫 載入指標 InvokeEndpoint。
指標是以 1 分鐘的頻率提供。
如需有關 CloudWatch 指標保留多久的資訊,請參閱 Amazon 參考 GetMetricStatistics 中的 。 CloudWatch API
多模型端點的模型載入指標
指標 | 描述 |
---|---|
ModelLoadingWaitTime |
調用請求為了執行推斷而等候目標模型下載或載入 (或這兩項作業) 的時間間隔。 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelUnloadingTime |
透過容器 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelDownloadingTime |
從 Amazon Simple Storage Service (Amazon S3) 下載模型所花費的時間間隔。 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelLoadingTime |
透過容器 單位:微秒 有效的統計資訊:平均、總和、下限、上限與範例計數 |
ModelCacheHit |
傳送到已載入模型之多模型端點的 平均統計資料會顯示已載入模型的請求比率。 單位:無 有效的統計資料:平均、總和、範例計數 |
多模型端點的模型載入指標維度
維度 | 描述 |
---|---|
EndpointName, VariantName |
針對指定端點與變體的 |
/aws/sagemaker/Endpoints
命名空間包含從呼叫 到 InvokeEndpoint的下列執行個體指標。
指標是以 1 分鐘的頻率提供。
如需 CloudWatch 指標保留多久的資訊,請參閱 Amazon 參考 GetMetricStatistics 中的 。 CloudWatch API
多模型端點的模型執行個體指標
指標 | 描述 |
---|---|
LoadedModelCount |
多模型端點的容器中所載入的模型數目。此指標會按每個執行個體發出。 週期為 1 分鐘的平均統計資料會說明每個執行個體載入的模型平均數目。 總和統計資料會說明端點的所有執行個體中所載入的模型總數目。 此指標追蹤的模型不一定是唯一的,因為模型可能會在端點的多個容器中載入。 單位:無 有效的統計資訊:平均、總和、下限、上限與範例計數 |
CPUUtilization |
每個CPU核心使用率的總和。每個核心範圍的使用CPU率為 0-100。例如,如果有四個 CPUs, 對於端點變體,該值是執行個體上主要容器和補充容器CPU使用率的總和。 單位:百分比 |
MemoryUtilization |
執行個體上的容器使用的記憶體的百分比。此值範圍為 0%-100%。 對於端點變體,值為執行個體上主要容器與輔助容器的記憶體利用率總和。 單位:百分比 |
GPUUtilization |
執行個體上容器使用的GPU單位百分比。值的範圍範圍可以是 0-100,乘以 的數量GPUs。例如,如果有四個 GPUs, 對於端點變體,該值是執行個體上主要容器和補充容器GPU使用率的總和。 單位:百分比 |
GPUMemoryUtilization |
執行個體上容器使用的GPU記憶體百分比。值範圍為 0-100,乘以 的數量GPUs。例如,如果有四個 GPUs, 對於端點變體,此值是執行個體上主要容器和補充容器的GPU記憶體使用率總和。 單位:百分比 |
DiskUtilization |
執行個體容器運用的磁碟空間百分比。此值範圍為 0%–100%。 針對端點變體,值為執行個體上主要容器與輔助容器的磁碟空間利用率總和。 單位:百分比 |