翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
マルチコンテナエンドポイントをオートスケーリングする
InvocationsPerInstance
メトリクスを使用してマルチコンテナエンドポイントの自動スケーリングを設定する場合は、各コンテナのモデルが各推論リクエストで同様のCPU使用率とレイテンシーを示すことをお勧めします。マルチコンテナエンドポイントへのトラフィックが低CPU使用率モデルから高CPU使用率モデルに移行しても、全体的な呼び出しボリュームが同じままである場合、エンドポイントはスケールアウトされず、高CPU使用率モデルへのすべてのリクエストを処理するのに十分なインスタンスがない可能性があるため、これは推奨されます。エンドポイントをオートスケーリングする方法については、「Amazon SageMaker モデルの自動スケーリング」を参照してください。