自動擴展政策概觀 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

自動擴展政策概觀

若要使用自動擴展,您可以定義擴展政策,以新增和移除生產變體的執行個體數量,以回應實際工作負載。

若要在工作負載變更發生時自動擴展,有兩個選項:目標追蹤和步進擴展政策。

建議使用目標追蹤擴展政策。透過目標追蹤,您可以選擇 Amazon CloudWatch 指標和目標值。自動擴展會建立和管理擴展政策的 CloudWatch 警示,並根據指標和目標值計算擴展調整。政策會視需要新增和移除執行個體數量,以保持指標處於或接近指定的目標值。例如,擴展政策如果使用預先定義的 InvocationsPerInstance 指標和 70 的目標值,可將 InvocationsPerInstance 保持在等於或接近 70。如需詳細資訊,請參閱《Application Auto Scaling 使用者指南》中的目標追蹤擴展政策

您可以在需要進階組態時使用步驟擴展,例如指定在何種情況下要部署的執行個體數目。否則,建議使用目標追蹤擴展,因為它將全自動化。請注意,只能從 AWS CLI 或 Application Auto Scaling 管理步進擴展API。如需步驟擴展政策及其運作方式的概觀,請參閱 Application Auto Scaling 使用者指南中的步驟擴展政策

如要建立目標追蹤擴展政策,您必須指定以下項目:

  • 指標 — 要追蹤的 CloudWatch 指標,例如每個執行個體的平均叫用次數。

  • 目標值 — 指標的目標值,例如每分鐘每個執行個體 70 次調用。

您可以使用預先定義的指標或自訂指標建立目標追蹤擴展政策。預先定義的指標是在列舉中定義,因此您可以在程式碼中依名稱指定,或在 SageMaker 主控台中使用它。或者,您可以使用 AWS CLI 或 Application Auto ScalingAPI,根據預先定義的或自訂指標來套用目標追蹤擴展政策。

請注意,擴展活動會在它們之間執行冷卻期,以防止容量快速波動。您可自行選擇是否設定擴展政策的冷卻時間。

如需自動擴展關鍵概念的詳細資訊,請參閱下一節。

排程型擴展

您也可以建立排程動作,在特定時間執行擴展活動。您可以建立僅擴展一次或依週期性排程擴展的排程動作。排程動作執行後,擴展政策可以繼續決定是否在工作負載變更發生時動態擴展。排程擴展只能從 AWS CLI 或 Application Auto Scaling 管理API。如需詳細資訊,請參閱《Application Auto Scaling 使用者指南》中的排程擴展

最小和最大擴展限制

設定自動擴展時,您必須先指定擴展限制,才能建立擴展政策。您可以分別設定最小值和最大值的限制。

最小值必須至少為 1,且等於或小於為最大值指定的值。

最大值必須等於或大於為最小值指定的值。 SageMaker 自動擴展不會強制執行此值的限制。

若要判斷一般流量所需的擴展限制,請使用對模型的預期流量速率來測試您的自動擴展組態。

如果變體的流量變為零, SageMaker 會自動擴展至指定的執行個體數量下限。在此情況下, 會 SageMaker 發出值為零的指標。

指定最小和最大容量有三個選項:

  1. 使用主控台更新執行個體計數下限和執行個體計數上限設定。

  2. 執行 register-scalable-target命令時,請使用 AWS CLI 和 包含 --min-capacity--max-capacity選項。

  3. 呼叫 RegisterScalableTargetAPI並指定 MinCapacityMaxCapacity 參數。

提示

您可以增加最小值來手動橫向擴展,也可以透過減少最大值來手動橫向擴展。

冷卻時間

當您的模型擴展 (減少容量) 或擴展 (增加容量) 時,冷卻時間可用來防止過度擴展。它透過在期間到期之前減慢後續擴展活動來實現此目標。具體而言,它會封鎖縮減請求的執行個體刪除,並限制縮減請求的執行個體建立。如需詳細資訊,請參閱 Application Auto Scaling 使用者指南中的定義冷卻期間

您可以在擴展政策中設定冷卻時間。

如果您未指定縮減或縮減冷卻期,擴展政策會使用預設值,每個預設值為 300 秒。

如果在測試擴展組態時過快新增或移除執行個體,請考慮增加此值。如果到模型的流量有大量尖峰,或者您有多個為變體定義的擴展政策,則可能會看到此行為。

如果執行個體新增的速度不夠快,沒辦法因應增加的傳輸流量,請考慮減少此值。

如需設定自動擴展的詳細資訊,請參閱下列資源:

注意

SageMaker 最近推出以即時推論端點為基礎的新推論功能。您可以使用 SageMaker 定義端點的執行個體類型和初始執行個體計數的端點組態來建立端點。然後,建立推論元件,這是您可以用來將模型部署至端點的 SageMaker 託管物件。如需有關擴展推論元件的資訊,請參閱 SageMaker 新增推論功能,以協助降低基礎模型部署成本和延遲,並使用 AWS 部落格上的最新功能平均降低模型部署成本 50% SageMaker