使用主控台設定模型自動擴展

在 https://console.aws.amazon.com/sagemaker/：// 開啟 Amazon SageMaker AI 主控台。
在導覽窗格中，選擇推論，然後選擇端點。
選擇您的端點，然後針對端點執行期設定，選擇變體。
選擇設定自動擴展。
在設定變體自動擴展頁面上，針對變體自動擴展，執行下列動作：
1. 針對執行個體計數下限，輸入您希望擴展政策維持的執行個體數目下限。必須設定至少 1 個執行個體。
2. 針對執行個體計數上限，輸入您希望擴展政策維持的執行個體數量上限。
對於內建擴展政策，請執行下列動作：
1. 對於目標指標， SageMakerVariantInvocationsPerInstance 會自動為指標選取，且無法變更。
2. 針對目標值，輸入模型每分鐘每個執行個體的平均叫用次數。若要決定此值，請遵循負載測試中的準則。
3. （選用）對於縮減冷卻時間（秒） 和縮減冷卻時間（秒），輸入每個冷卻時間的時間量，以秒為單位。
4. （選用）如果您不希望自動擴展在流量減少時終止執行個體，請選取停用縮減。
選擇 Save (儲存)。

此程序會向 Application Auto Scaling 登錄模型，將變體作為可擴展的目標。當您登錄模型時，Application Auto Scaling 會進行驗證檢查，以確定符合下列條件：

模型已存在
權限足夠
變體的執行個體如果是具有爆量效能執行個體 (例如 T2)，則您不能登錄此等變體

注意
SageMaker AI 不支援 T2 等爆量執行個體的自動擴展，因為它們已在增加的工作負載下允許增加容量。如需爆量效能執行個體的詳細資訊，請參閱 Amazon EC2 執行個體類型。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

先決條件

註冊模型