建議結果 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建議結果

每個推論建議任務結果都包含 InstanceTypeInitialInstanceCountEnvironmentParameters,這些參數是針對容器調整的環境變數參數,以改善其延遲和輸送量。結果還包含效能和成本指標,例如 MaxInvocationsModelLatencyCostPerHourCostPerInferenceCpuUtilizationMemoryUtilization

在下表中,我們提供了這些指標的說明。這些指標可協助您縮小搜尋範圍,找出適合您使用案例的最佳端點組態。例如,如果您的動機是強調輸送量的整體價格表現,那麼您應專注於 CostPerInference

指標 描述 使用案例

ModelLatency

模型回應所需的時間間隔,如從 所檢視 SageMaker。這個間隔包含傳送請求和從模型容器擷取回應的本機通訊時間,以及在容器中完成推論的時間。

單位:毫秒

延遲敏感的工作負載,例如廣告投放和醫療診斷

MaximumInvocations

一分鐘內傳送到模型端點的 InvokeEndpoint 請求數上限。

單位:無

以輸送量為中心的工作負載,例如影片處理或批次推論

CostPerHour

即時端點每小時的預估成本。

單位:美元

成本敏感的工作負載,無延遲期限

CostPerInference

即時端點每次推論呼叫的預估成本。

單位:美元

專注於輸送量,將整體價格效能發揮到極致

CpuUtilization

端點執行個體每分鐘調用上限的預期CPU使用率。

單位:百分比

透過掌握執行個體的核心CPU使用率,了解基準測試期間的執行個體運作狀態

MemoryUtilization

端點執行個體每分鐘調用上限時的預期記憶體利用率。

單位:百分比

透過了解執行個體的核心記憶體利用率,掌握基準測試期間的執行個體運作狀態

在某些情況下,您可能想要探索其他SageMaker 端點調用指標,例如 CPUUtilization。每個 Inference Recommender 任務結果都包含負載測試期間啟動的端點名稱。即使端點已刪除,您也可以使用 CloudWatch 來檢閱這些端點的日誌。

下圖是您可以從建議結果中檢閱單一端點的 CloudWatch 指標和圖表範例。此建議結果來自某項預設任務。解讀建議結果中的純量值的方法是,它們是根據調用圖表首次開始向外平整時的時間點。例如,報告的 ModelLatency 值是在 03:00:31 高原的開始處持平。

CloudWatch 指標圖表。

如需上述圖表中使用的 CloudWatch 指標的完整描述,請參閱 SageMaker Endpoint Invocation 指標

您也可以在 /aws/sagemaker/InferenceRecommendationsJobs 命名空間中查看 Inference Recommender 所發佈的效能指標,例如 ClientInvocationsNumberOfUsers。如需 Inference Recommender 所發佈的指標和說明之完整指標清單,請參閱SageMaker 推論建議程式任務指標

如需如何使用 AWS SDK for Python (Boto3) 探索端點 CloudWatch 指標的範例,請參閱 amazon-sagemaker-examples Github 儲存庫中的 Amazon SageMaker Inference Recommender - CloudWatch Metrics Jupyter 筆記本。