本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
自動擴展多容器端點
如果您想要使用 InvocationsPerInstance
指標為多容器端點設定自動擴展,建議每個容器中的模型在每個推論請求上顯示類似的CPU使用率和延遲。建議這樣做,因為如果多容器端點的流量從低CPU使用率模型轉移到高CPU使用率模型,但整體呼叫量保持不變,端點不會橫向擴展,並且可能沒有足夠的執行個體來處理高CPU使用率模型的所有請求。如需設定自動擴展端點的資訊,請參閱Amazon SageMaker 模型的自動擴展。