本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
取得現有端點的推論建議
推論建議任務會針對建議的執行個體類型和現有端點執行一組負載測試。推論建議任務會使用效能指標,這些指標是以您在模型版本註冊期間提供的範例資料為基礎的負載測試。
您可以為現有的 SageMaker AI 推論端點建立基準並獲得推論建議,以協助您改善端點的效能。取得現有 SageMaker AI 推論端點建議的程序類似於取得沒有端點的推論建議的程序。在對現有端點進行基準測試時,需要注意幾項功能排除事項:
警告
強烈建議您不要在處理即時流量的生產端點上執行 Inference Recommender 任務。基準測試期間的綜合負載可能會影響您的生產端點,並導致調節或提供不正確的基準結果。建議您使用非生產或開發人員端點進行比較。
下列各節示範如何使用 Amazon SageMaker Inference Recommender,根據使用適用於 Python 的 AWS SDK (Boto3) 和 的模型類型,為現有端點建立推論建議 AWS CLI。
注意
在建立 Inference Recommender 建議任務之前,請確定您已符合 使用 Amazon SageMaker 推論建議的先決條件。
必要條件
如果您還沒有 SageMaker AI 推論端點,您可以取得沒有端點的推論建議,也可以遵循建立端點和部署模型中的指示來建立即時推論端點。
為現有端點建立推論建議任務
使用 或 AWS SDK for Python (Boto3)以程式設計方式建立推論建議 AWS CLI。為您的推論建議指定任務名稱、現有 SageMaker AI 推論端點的名稱、IAM AWS 角色 ARN、輸入組態,以及當您向模型登錄檔註冊模型時的模型套件 ARN。
取得您的推論建議任務結果
您可以使用與標準推論建議任務相同的程序,以程式設計方式收集推論建議任務的結果。如需詳細資訊,請參閱取得您的推論建議任務結果。
當您取得現有端點的推論建議任務結果時,您應該會收到類似下列內容的 JSON 回應:
{ "JobName":
"job-name"
, "JobType": "Default", "JobArn": "arn:aws:sagemaker:region
:account-id
:inference-recommendations-job/resource-id
", "RoleArn":"iam-role-arn"
, "Status": "COMPLETED", "CreationTime": 1664922919.2, "LastModifiedTime": 1664924208.291, "InputConfig": { "ModelPackageVersionArn": "arn:aws:sagemaker:region
:account-id
:model-package/resource-id
", "Endpoints": [ { "EndpointName":"endpoint-name"
} ] }, "InferenceRecommendations": [ { "Metrics": { "CostPerHour": 0.7360000014305115, "CostPerInference": 7.456940238625975e-06, "MaxInvocations": 1645, "ModelLatency": 171 }, "EndpointConfiguration": { "EndpointName":"sm-endpoint-name"
, "VariantName":"variant-name"
, "InstanceType": "ml.g4dn.xlarge", "InitialInstanceCount": 1 }, "ModelConfiguration": { "EnvironmentParameters": [ { "Key": "TS_DEFAULT_WORKERS_PER_MODEL", "ValueType": "string", "Value": "4" } ] } } ], "EndpointPerformances": [ { "Metrics": { "MaxInvocations": 184, "ModelLatency": 1312 }, "EndpointConfiguration": { "EndpointName":"endpoint-name"
} } ] }
前幾行提供推論建議任務本身的相關資訊。其中包含任務名稱、角色 ARN 以及建立和最新修改時間。
InferenceRecommendations
字典包含 Inference Recommender 推論建議的清單。
EndpointConfiguration
巢狀字典包含執行個體類型 (InstanceType
) 建議,以及建議任務期間使用的端點和變體名稱 (部署的 AWS 機器學習模型)。
Metrics
巢狀字典包含有關即時端點每小時預估成本 (CostPerHour
) 以美元為單位的資訊、即時端點的預估每推論成本 (CostPerInference
) 以美元為單位的資訊、每分鐘傳送至端點的預期InvokeEndpoint
請求數上限 (MaxInvocations
),以及模型延遲 (ModelLatency
),這是模型回應 SageMaker AI 所需的時間間隔 (以毫秒為單位)。模型延遲包含傳送請求和從模型容器擷取回應的本機通訊時間,以及在容器中完成推論的時間。
EndpointPerformances
巢狀字典包含執行建議任務的現有端點名稱 (EndpointName
) 以及端點的效能指標 (MaxInvocations
和 ModelLatency
)。