本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
若要使用自動擴展,您可以定義擴展政策,以新增和移除生產變體的執行個體數量,以回應實際的工作負載。
若要在工作負載變更發生時自動擴展,您有兩個選項:目標追蹤和步進擴展政策。
在大多數情況下,我們建議使用目標追蹤擴展政策。透過目標追蹤,您可以選擇 Amazon CloudWatch 指標和目標值。自動擴展會建立和管理擴展政策的 CloudWatch 警示,並根據指標和目標值計算擴展調整。政策會視需要新增和移除執行個體數量,以保持指標位於或接近指定的目標值。例如,擴展政策如果使用預先定義的 InvocationsPerInstance
指標和 70 的目標值,可將 InvocationsPerInstance
保持在等於或接近 70。如需詳細資訊,請參閱《Application Auto Scaling 使用者指南》中的目標追蹤擴展政策。
您可以在需要進階組態時使用步驟擴展,例如指定在何種情況下要部署的執行個體數目。例如,如果您想要讓端點從零作用中執行個體向外擴展,則必須使用步驟擴展。如需步驟擴展政策及其運作方式的概觀,請參閱《Application Auto Scaling 使用者指南》中的步驟擴展政策。
如要建立目標追蹤擴展政策,您必須指定以下項目:
-
指標 — 要追蹤的 CloudWatch 指標,例如每個執行個體的平均調用次數。
-
目標值 — 指標的目標值,例如每分鐘每個執行個體 70 次調用。
您可以使用預先定義的指標或自訂指標建立目標追蹤擴展政策。預先定義的指標是在列舉中定義,因此您可以在程式碼中依名稱指定,或在 SageMaker AI 主控台中使用它。或者,您可以使用 AWS CLI 或 Application Auto Scaling API,根據預先定義的或自訂指標來套用目標追蹤擴展政策。
請注意,擴展活動會在它們之間執行冷卻時間,以防止容量快速波動。您可自行選擇是否設定擴展政策的冷卻時間。
如需自動擴展關鍵概念的詳細資訊,請參閱下一節。
排程型擴展
您也可以建立排程動作,在特定時間執行擴展活動。您可以建立僅擴展一次或依週期性排程擴展的排程動作。排程動作執行後,您的擴展政策可以繼續決定是否在工作負載變更發生時動態擴展。排程擴展只能從 AWS CLI 或 Application Auto Scaling API 管理。如需詳細資訊,請參閱《Application Auto Scaling 使用者指南》中的排程擴展。
最小和最大擴展限制
設定自動擴展時,您必須先指定擴展限制,才能建立擴展政策。您可以分別設定最小值和最大值的限制。
最小值必須至少為 1,且等於或小於為最大值指定的值。
最大值必須等於或大於為最小值指定的值。SageMaker AI 自動擴展不會強制執行此值的限制。
若要判斷典型流量所需的擴展限制,請使用預期流量速率測試您的自動擴展組態,以到達模型。
如果變體的流量變成零,SageMaker AI 會自動縮減至指定的執行個體數量下限。在此情況下,SageMaker AI 會發出值為零的指標。
指定容量下限和上限有三個選項:
-
使用 主控台更新執行個體計數下限和執行個體計數上限設定。
-
執行 register-scalable-target 命令時,請使用 AWS CLI 和 包含
--min-capacity
和--max-capacity
選項。 -
呼叫 RegisterScalableTarget API 並指定
MinCapacity
和MaxCapacity
參數。
提示
您可以透過增加最小值來手動擴展,或透過減少最大值來手動擴展。
冷卻時間
當您的模型向內擴展 (減少容量) 或向外擴展 (增加容量) 時,冷卻時間可用來防止過度擴展。它會減慢後續擴展活動,直到期間過期為止。具體而言,它會封鎖縮減請求的執行個體刪除,並限制縮減請求的執行個體建立。如需詳細資訊,請參閱《Application Auto Scaling 使用者指南》中的定義冷卻時間。
您可以在擴展政策中設定冷卻時間。
如果您未指定縮減或縮減冷卻時間,則擴展政策會使用預設值,每個預設值為 300 秒。
如果在測試擴展組態時,執行個體的新增或移除速度太快,請考慮增加此值。如果到模型的流量有大量峰值,或者您為變體定義了多個擴展政策,則可能會看到此行為。
如果執行個體新增的速度不夠快,沒辦法因應增加的傳輸流量,請考慮減少此值。
相關資源
如需設定自動擴展的詳細資訊,請參閱下列資源:
-
AWS CLI 命令參考中的應用程式自動擴展一節
注意
SageMaker AI 最近推出了以即時推論端點為基礎的新推論功能。您可以使用定義端點的執行個體類型和初始執行個體計數的端點組態來建立 SageMaker AI 端點。然後,建立推論元件,這是 SageMaker AI 託管物件,可用來將模型部署至端點。如需有關擴展推論元件的資訊,請參閱 AWS 部落格上的 SageMaker AI 新增了新的推論功能,以協助降低基礎模型部署成本和延遲