本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用主控台設定模型自動擴展
設定模型的自動擴展 (主控台)
在 https://console.aws.amazon.com/sagemaker/
:// 開啟 Amazon SageMaker AI 主控台。 -
在導覽窗格中,選擇推論,然後選擇端點。
-
選擇您的端點,然後針對端點執行期設定,選擇變體。
-
選擇設定自動擴展。
-
在設定變體自動擴展頁面上,針對變體自動擴展,執行下列動作:
-
針對執行個體計數下限,輸入您希望擴展政策維持的執行個體數目下限。必須設定至少 1 個執行個體。
-
針對執行個體計數上限,輸入您希望擴展政策維持的執行個體數量上限。
-
-
對於內建擴展政策,請執行下列動作:
-
對於目標指標,
SageMakerVariantInvocationsPerInstance
會自動為指標選取,且無法變更。 -
針對目標值,輸入模型每分鐘每個執行個體的平均叫用次數。若要決定此值,請遵循 負載測試 中的準則。
-
(選用) 對於縮減冷卻時間 (秒) 和縮減冷卻時間 (秒),輸入每個冷卻時間的時間量,以秒為單位。
-
(選用) 如果您不希望自動擴展在流量減少時終止執行個體,請選取停用縮減。
-
-
選擇 Save (儲存)。
此程序會向 Application Auto Scaling 登錄模型,將變體作為可擴展的目標。當您登錄模型時,Application Auto Scaling 會進行驗證檢查,以確定符合下列條件:
-
模型已存在
-
權限足夠
-
變體的執行個體如果是具有爆量效能執行個體 (例如 T2),則您不能登錄此等變體
注意
SageMaker AI 不支援 T2 等爆量執行個體的自動擴展,因為它們已在增加的工作負載下允許增加容量。如需爆量效能執行個體的詳細資訊,請參閱 Amazon EC2 執行個體類型
。