CloudWatch CPU支援多模型端點的指標 CloudWatch GPU多模型端點部署的指標

CloudWatch 多模型端點部署的指標

Amazon 為端點 SageMaker 提供指標，以便您可以監控快取命中率、載入的模型數量，以及在多模型端點上載入、下載和上傳的模型等待時間。某些指標與CPUGPU支援的多模型端點不同，因此下列各節說明您可以用於每種多模型端點類型的 Amazon CloudWatch 指標。

如需有關指標的詳細資訊，請參閱 SageMaker 使用 Amazon 監控 Amazon 的指標 CloudWatch的多模型端點模型載入指標與多模型端點模型執行個體指標。不支援依據模型的指標功能。

CloudWatch CPU支援多模型端點的指標

您可以在CPU支援的多模型端點上監控下列指標。

AWS/SageMaker 命名空間包含下列模型，將指標從呼叫載入 InvokeEndpoint。

指標是以 1 分鐘的頻率提供。

如需 CloudWatch 指標保留多久的資訊，請參閱 Amazon 參考 GetMetricStatistics 中的。 CloudWatch API

多模型端點的模型載入指標

指標	描述
`ModelLoadingWaitTime`	調用請求為了執行推斷而等候目標模型下載或載入 (或這兩項作業) 的時間間隔。單位：微秒有效的統計資訊：平均、總和、下限、上限與範例計數
`ModelUnloadingTime`	透過容器`UnloadModel`API呼叫卸載模型所需的時間間隔。單位：微秒有效的統計資訊：平均、總和、下限、上限與範例計數
`ModelDownloadingTime`	從 Amazon Simple Storage Service (Amazon S3) 下載模型所花費的時間間隔。單位：微秒有效的統計資訊：平均、總和、下限、上限與範例計數
`ModelLoadingTime`	透過容器`LoadModel`API呼叫載入模型所需的時間間隔。單位：微秒有效的統計資訊：平均、總和、下限、上限與範例計數
`ModelCacheHit`	傳送到已載入模型之多模型端點的 `InvokeEndpoint` 請求數目。平均統計資料會顯示已載入模型的請求比率。單位：無有效的統計資料：平均、總和、範例計數

多模型端點的模型載入指標維度

維度	描述
`EndpointName, VariantName`	針對指定端點與變體的 `ProductionVariant` 篩選端點調用指標。

/aws/sagemaker/Endpoints 命名空間包含從呼叫到 InvokeEndpoint的下列執行個體指標。

指標是以 1 分鐘的頻率提供。

如需 CloudWatch 指標保留多久的資訊，請參閱 Amazon 參考 GetMetricStatistics 中的。 CloudWatch API

多模型端點的模型執行個體指標

指標	描述
`LoadedModelCount`	多模型端點的容器中所載入的模型數目。此指標會按每個執行個體發出。週期為 1 分鐘的平均統計資料會說明每個執行個體載入的模型平均數目。總和統計資料會說明端點的所有執行個體中所載入的模型總數目。此指標追蹤的模型不一定是唯一的，因為模型可能會在端點的多個容器中載入。單位：無有效的統計資訊：平均、總和、下限、上限與範例計數
`CPUUtilization`	每個CPU核心使用率的總和。每個核心範圍的使用CPU率為 0–100。例如，如果有四個 CPUs，`CPUUtilization`範圍為 0%–400%。對於端點變體，該值是執行個體上主要容器和補充容器CPU使用率的總和。單位：百分比
`MemoryUtilization`	執行個體上的容器使用的記憶體的百分比。此值範圍為 0%–100%。對於端點變體，值為執行個體上主要容器與輔助容器的記憶體利用率總和。單位：百分比
`DiskUtilization`	執行個體容器運用的磁碟空間百分比。此值範圍為 0%–100%。針對端點變體，值為執行個體上主要容器與輔助容器的磁碟空間利用率總和。單位：百分比

CloudWatch GPU多模型端點部署的指標

您可以在GPU支援的多模型端點上監控下列指標。

AWS/SageMaker 命名空間包含下列模型，從呼叫載入指標 InvokeEndpoint。

指標是以 1 分鐘的頻率提供。

如需有關 CloudWatch 指標保留多久的資訊，請參閱 Amazon 參考 GetMetricStatistics 中的。 CloudWatch API

多模型端點的模型載入指標

指標	描述
`ModelLoadingWaitTime`	調用請求為了執行推斷而等候目標模型下載或載入 (或這兩項作業) 的時間間隔。單位：微秒有效的統計資訊：平均、總和、下限、上限與範例計數
`ModelUnloadingTime`	透過容器`UnloadModel`API呼叫卸載模型所需的時間間隔。單位：微秒有效的統計資訊：平均、總和、下限、上限與範例計數
`ModelDownloadingTime`	從 Amazon Simple Storage Service (Amazon S3) 下載模型所花費的時間間隔。單位：微秒有效的統計資訊：平均、總和、下限、上限與範例計數
`ModelLoadingTime`	透過容器`LoadModel`API呼叫載入模型所需的時間間隔。單位：微秒有效的統計資訊：平均、總和、下限、上限與範例計數
`ModelCacheHit`	傳送到已載入模型之多模型端點的 `InvokeEndpoint` 請求數目。平均統計資料會顯示已載入模型的請求比率。單位：無有效的統計資料：平均、總和、範例計數

多模型端點的模型載入指標維度

維度	描述
`EndpointName, VariantName`	針對指定端點與變體的 `ProductionVariant` 篩選端點調用指標。

/aws/sagemaker/Endpoints 命名空間包含從呼叫到 InvokeEndpoint的下列執行個體指標。

指標是以 1 分鐘的頻率提供。

如需 CloudWatch 指標保留多久的資訊，請參閱 Amazon 參考 GetMetricStatistics 中的。 CloudWatch API

多模型端點的模型執行個體指標

指標	描述
`LoadedModelCount`	多模型端點的容器中所載入的模型數目。此指標會按每個執行個體發出。週期為 1 分鐘的平均統計資料會說明每個執行個體載入的模型平均數目。總和統計資料會說明端點的所有執行個體中所載入的模型總數目。此指標追蹤的模型不一定是唯一的，因為模型可能會在端點的多個容器中載入。單位：無有效的統計資訊：平均、總和、下限、上限與範例計數
`CPUUtilization`	每個CPU核心使用率的總和。每個核心範圍的使用CPU率為 0-100。例如，如果有四個 CPUs，`CPUUtilization`範圍為 0%–400%。對於端點變體，該值是執行個體上主要容器和補充容器CPU使用率的總和。單位：百分比
`MemoryUtilization`	執行個體上的容器使用的記憶體的百分比。此值範圍為 0%-100%。對於端點變體，值為執行個體上主要容器與輔助容器的記憶體利用率總和。單位：百分比
`GPUUtilization`	執行個體上容器使用的GPU單位百分比。值的範圍範圍可以是 0-100，乘以的數量GPUs。例如，如果有四個 GPUs，`GPUUtilization`範圍為 0%–400%。對於端點變體，該值是執行個體上主要容器和補充容器GPU使用率的總和。單位：百分比
`GPUMemoryUtilization`	執行個體上容器使用的GPU記憶體百分比。值範圍為 0-100，乘以的數量GPUs。例如，如果有四個 GPUs，`GPUMemoryUtilization`範圍為 0%-400%。對於端點變體，此值是執行個體上主要容器和補充容器的GPU記憶體使用率總和。單位：百分比
`DiskUtilization`	執行個體容器運用的磁碟空間百分比。此值範圍為 0%–100%。針對端點變體，值為執行個體上主要容器與輔助容器的磁碟空間利用率總和。單位：百分比

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

安全

設定 SageMaker 多模型端點模型快取行為