自動スケーリング設定の負荷テスト

負荷テストを実行して、意図した通りに動作するスケーリング設定を選択します。

次の負荷テスト用のガイドラインでは、事前定義されたターゲットメトリクス SageMakerVariantInvocationsPerInstance を使用するスケーリングポリシーの使用を想定しています。

トピック

パフォーマンス特性を明確にする
ターゲットの負荷を計算する

パフォーマンス特性を明確にする

負荷テストを実行し、モデルの本番稼働用バリアントが処理できる InvocationsPerInstance のピーク、および同時実行数の増加に伴うリクエストのレイテンシーを探し出します。

この値は選択したインスタンスタイプ、モデルのクライアントが通常送信するペイロード、モデルのすべての外部依存関係のパフォーマンスに依存します。

モデルの本番稼働用バリアントが処理できるピーク requests-per-second (RPS) とリクエストのレイテンシーを見つけるには

単一のインスタンスを使用してモデルにエンドポイントを設定します。エンドポイントの設定方法の詳細については、「 SageMaker AI ホスティングサービスにモデルをデプロイする」を参照してください。
負荷テストツールを使用して、並列リクエストの数を増やし、負荷テストツールから出て RPSおよびモデルのレイテンシーをモニタリングします。

注記
の代わりにをモニタリング requests-per-minuteすることもできますRPS。その場合、式に 60 を乗算して以下に示す SageMakerVariantInvocationsPerInstance を計算しないでください。

モデルのレイテンシーが増加したり、成功したトランザクションの割合が減少したりすると、モデルRPSが処理できるピークになります。

ターゲットの負荷を計算する

バリアントのパフォーマンス特性がわかったら、インスタンスへの送信RPSを許可する最大数を決定できます。スケーリングに使用されるしきい値はこの最大値より小さくする必要があります。次の式を負荷テストと組み合わせて使用することで、スケーリング設定の SageMakerVariantInvocationsPerInstance ターゲットメトリクスの正しい値を決定できます。


SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60

ここで、 MAX_RPS は以前に決定RPSした最大値、 SAFETY_FACTORはクライアントが最大を超えないように選択した安全係数ですRPS。AI が自動スケーリングの実装 SageMaker に使用する分単位の CloudWatch メトリクスに合わせて、からに変換RPS invocations-per-minuteするには、60 を乗算します ( requests-per-minuteの代わりにを計測した場合は、これを行う必要はありません requests-per-second）。

注記

SageMaker AI では、0.5 SAFETY_FACTORのでテストを開始することを推奨しています。スケーリング設定をテストし、エンドポイント上のお客様のトラフィックの増減がモデルで期待したとおりに動作することを確認します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

エンドポイントをゼロインスタンスにスケールする

AWS CloudFormation を使用してスケーリングポリシーを作成する