マルチコンテナエンドポイントをオートスケーリングする

InvocationsPerInstance メトリクスを使用してマルチコンテナエンドポイントの自動スケーリングを設定する場合は、各コンテナのモデルが各推論リクエストで同様のCPU使用率とレイテンシーを示すことをお勧めします。マルチコンテナエンドポイントへのトラフィックが低CPU使用率モデルから高CPU使用率モデルに移行しても、全体的な呼び出しボリュームが同じままである場合、エンドポイントはスケールアウトされず、高CPU使用率モデルへのすべてのリクエストを処理するのに十分なインスタンスがない可能性があるため、これは推奨されます。エンドポイントをオートスケーリングする方法については、「Amazon SageMaker モデルの自動スケーリング」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

直接呼び出しが設定されたマルチコンテナエンドポイントのメトリクス

マルチコンテナエンドポイントをトラブルシューティングする