本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建議結果
每個推論建議任務結果都包含 InstanceType
、InitialInstanceCount
和 EnvironmentParameters
,這些參數是針對容器調整的環境變數參數,以改善其延遲和輸送量。結果還包含效能和成本指標,例如 MaxInvocations
、ModelLatency
、CostPerHour
、CostPerInference
、CpuUtilization
和 MemoryUtilization
。
在下表中,我們提供了這些指標的說明。這些指標可協助您縮小搜尋範圍,找出適合您使用案例的最佳端點組態。例如,如果您的動機是強調輸送量的整體價格表現,那麼您應專注於 CostPerInference
。
指標 | 描述 | 使用案例 |
---|---|---|
|
模型回應所需的時間間隔,如從 所檢視 SageMaker。這個間隔包含傳送請求和從模型容器擷取回應的本機通訊時間,以及在容器中完成推論的時間。 單位:毫秒 |
延遲敏感的工作負載,例如廣告投放和醫療診斷 |
|
一分鐘內傳送到模型端點的 單位:無 |
以輸送量為中心的工作負載,例如影片處理或批次推論 |
|
即時端點每小時的預估成本。 單位:美元 |
成本敏感的工作負載,無延遲期限 |
|
即時端點每次推論呼叫的預估成本。 單位:美元 |
專注於輸送量,將整體價格效能發揮到極致 |
|
端點執行個體每分鐘調用上限的預期CPU使用率。 單位:百分比 |
透過掌握執行個體的核心CPU使用率,了解基準測試期間的執行個體運作狀態 |
|
端點執行個體每分鐘調用上限時的預期記憶體利用率。 單位:百分比 |
透過了解執行個體的核心記憶體利用率,掌握基準測試期間的執行個體運作狀態 |
在某些情況下,您可能想要探索其他SageMaker 端點調用指標,例如 CPUUtilization
。每個 Inference Recommender 任務結果都包含負載測試期間啟動的端點名稱。即使端點已刪除,您也可以使用 CloudWatch 來檢閱這些端點的日誌。
下圖是您可以從建議結果中檢閱單一端點的 CloudWatch 指標和圖表範例。此建議結果來自某項預設任務。解讀建議結果中的純量值的方法是,它們是根據調用圖表首次開始向外平整時的時間點。例如,報告的 ModelLatency
值是在 03:00:31
高原的開始處持平。
如需上述圖表中使用的 CloudWatch 指標的完整描述,請參閱 SageMaker Endpoint Invocation 指標 。
您也可以在 /aws/sagemaker/InferenceRecommendationsJobs
命名空間中查看 Inference Recommender 所發佈的效能指標,例如 ClientInvocations
和 NumberOfUsers
。如需 Inference Recommender 所發佈的指標和說明之完整指標清單,請參閱SageMaker 推論建議程式任務指標。
如需如何使用 AWS SDK for Python (Boto3) 探索端點 CloudWatch 指標的範例,請參閱 amazon-sagemaker-examples