本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon SageMaker 和 Application Auto Scaling
您可以使用目標追蹤擴展政策、步驟擴展政策和排程擴展來擴展端點變體、為無伺服器端點佈建並行,以及推論元件。 SageMaker
請使用下列資訊來協助您整合「應 SageMaker 用程式自動調整」。
為 SageMaker 建立的服務連結角色
使 Application Auto Scaling caling 將 SageMaker 資源註冊為可擴展目標 AWS 帳戶 時,會在您的中自動建立下列服務連結角色。此角色可讓 Application Auto Scaling 在您的帳戶內執行支援的操作。如需詳細資訊,請參閱 Application Auto Scaling 的服務連結角色。
-
AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint
服務連結角色所使用的服務委託人
上一節中的服務連結角色,只能由依據角色定義的信任關係所授權的服務委託人來擔任。Application Auto Scaling 使用的服務連結角色會將存取權授予下列服務委託人:
-
sagemaker.application-autoscaling.amazonaws.com
使 Application Auto Scaling 整將 SageMaker 端點變體註冊為可擴充
Application Auto Scaling 需要可擴展的目標,才能為 SageMaker 模型 (變體) 建立擴展政策或排程動作。可擴展的目標是 Application Auto Scaling 可水平擴展和縮減的資源。可擴展的目標是由資源 ID、可擴展的維度和命名空間的組合來唯一識別。
如果您使用 SageMaker 控制台配置 auto 動擴展,則 SageMaker 會自動為您註冊可擴展的目標。
如果您想要使用 AWS CLI 或其中一個 AWS SDK 來設定 auto 調整規模,可以使用下列選項:
-
AWS CLI:
呼叫產品子類選項的register-scalable-target指令。以下範例會為
my-endpoint
端點上執行名為my-variant
的產品變體註冊所需的執行個體計數,容量下限為 1 個執行個體,容量上限為 8 個執行個體。aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:variant:DesiredInstanceCount \ --resource-id endpoint/
my-endpoint
/variant/my-variant
\ --min-capacity1
\ --max-capacity8
如果成功,此命令會傳回可擴展目標的 ARN。
{ "ScalableTargetARN": "arn:aws:application-autoscaling:
region
:account-id
:scalable-target/1234abcd56ab78cd901ef1234567890ab123" } -
AWS 開發套件:
呼叫 RegisterScalableTarget 操作並提供
ResourceId
、ScalableDimension
、ServiceNamespace
、MinCapacity
及MaxCapacity
作為參數。
向 Application Auto Scaling 將無伺服器端點的佈建並行註冊為可擴展的目標
Application Auto Scaling 還需要先有可擴展的目標,您才能為無伺服器端點的佈建並行建立擴展政策或排定的動作。
如果您使用 SageMaker 控制台配置 auto 動擴展,則 SageMaker 會自動為您註冊可擴展的目標。
否則,使用下列其中一種方法來註冊可擴展的目標:
-
AWS CLI:
呼叫產品子類選項的register-scalable-target指令。以下範例會為
my-endpoint
端點上執行名為my-variant
的產品變體註冊佈建並行,容量下限為一,容量上限為十。aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \ --resource-id endpoint/
my-endpoint
/variant/my-variant
\ --min-capacity1
\ --max-capacity10
如果成功,此命令會傳回可擴展目標的 ARN。
{ "ScalableTargetARN": "arn:aws:application-autoscaling:
region
:account-id
:scalable-target/1234abcd56ab78cd901ef1234567890ab123" } -
AWS 開發套件:
呼叫 RegisterScalableTarget 操作並提供
ResourceId
、ScalableDimension
、ServiceNamespace
、MinCapacity
及MaxCapacity
作為參數。
在 Application Auto Scaling 中將推論元件註冊為可擴展的目標
Application Auto Scaling 需要先有可擴展的目標,您才能為推論元件建立擴展政策或排定的動作。
-
AWS CLI:
呼叫推論元件的register-scalable-target指令。下列範例會替名為的推論元件註冊所需的複本計數量
my-inference-component
,容量下限為 0,上限為 3。aws application-autoscaling register-scalable-target \ --service-namespace sagemaker \ --scalable-dimension sagemaker:inference-component:DesiredCopyCount \ --resource-id inference-component/
my-inference-component
\ --min-capacity0
\ --max-capacity3
如果成功,此命令會傳回可擴展目標的 ARN。
{ "ScalableTargetARN": "arn:aws:application-autoscaling:
region
:account-id
:scalable-target/1234abcd56ab78cd901ef1234567890ab123" } -
AWS 開發套件:
呼叫 RegisterScalableTarget 操作並提供
ResourceId
、ScalableDimension
、ServiceNamespace
、MinCapacity
及MaxCapacity
作為參數。
相關資源
如果您剛開始使用應用程式 Auto Scaling,可以在 Amazon 開 SageMaker 發人員指南中找到有關擴展 SageMaker 資源的其他有用資訊:
注意
在 2023 年,推 SageMaker 出以即時推論端點為基礎的新推論功能。您可以使用 SageMaker 端點組態建立端點,該端點設定會定義執行個體類型和初始執行個體計數。然後,創建一個推論組件,它是一個 SageMaker 託管對象,您可以用來部署模型到端點。如需擴展推論元件的相關資訊,請參閱 Amazon 新 SageMaker 增新的推論功能,協助降低基礎模型部署成本和延遲