非同期推論

Amazon SageMaker 非同期推論は、受信リクエストをキューに入れ、非同期的に処理する SageMaker AI の機能です。このオプションは、ペイロードサイズが大きく (最大 1 GB)、処理時間が長い (最大 1 時間)、ほぼリアルタイムのレイテンシー要件があるリクエストに最適です。非同期推論では、処理するリクエストがない場合、インスタンスカウントをゼロにオートスケーリングすることによりコストを節約できるため、エンドポイントがリクエストを処理している場合にのみ料金が発生します。

仕組み

非同期推論エンドポイントの作成は、リアルタイムの推論エンドポイントの作成に似ています。既存の SageMaker AI モデルを使用でき、CreateEndpointConfigAPI の EndpointConfigフィールドを使用してエンドポイント設定を作成するAsyncInferenceConfigときにオブジェクトを指定するだけで済みます。次の図は、非同期推論のアーキテクチャとワークフローを示しています。

ユーザーがどのようにエンドポイントを呼び出すかを示す非同期推論のアーキテクチャ図。

エンドポイントを呼び出すには、リクエストペイロードを Amazon S3 に配置する必要があります。また、このペイロードへのポインタを InvokeEndpointAsync リクエストの一部として指定する必要があります。呼び出し時に、SageMaker AI は処理リクエストをキューに入れ、識別子と出力場所をレスポンスとして返します。処理時、SageMaker AI は結果を Amazon S3 の場所に配置します。成功またはエラー通知を Amazon SNS で受け取るようにオプションで選択することもできます。非同期通知の設定方法の詳細については、「予測結果をチェックする」を参照してください。

注記

エンドポイント設定に非同期推論の設定 (AsyncInferenceConfig) オブジェクトが含まれているということは、エンドポイントで受け取ることができるのは非同期呼び出しのみということを意味します。

使用を開始する方法をお知りになりたいですか?

Amazon SageMaker 非同期推論を初めて使用する場合は、次のことを行うことをお勧めします。

非同期エンドポイントを作成、呼び出し、更新、削除する方法の詳細については、「非同期エンドポイントオペレーション」を参照してください。
aws/amazon-sagemaker-examples GitHub リポジトリで、非同期推論のサンプルノートブックを詳しく見てください。

この Exclusions ページにリストされているいずれかの機能をエンドポイントで使用する場合は、非同期推論を使用できないことにご注意ください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

トラブルシューティング

非同期エンドポイントオペレーション