サポートされている機能

Amazon SageMaker AI には、推論用のモデルをデプロイするための次の 4 つのオプションがあります。

リアルタイム、インタラクティブ、低レイテンシーを必要とする推論ワークロードのためのリアルタイム推論。
大規模なデータセットを使用したオフライン推論のためのバッチ変換。
前処理時間が長い大きな入力の推論のための near-real-time非同期推論。
トラフィックのスパート間にアイドル期間がある推論ワークロード向けのサーバーレス推論。

次の表は、各推論オプションでサポートされているコアプラットフォーム機能をまとめたものです。フレームワーク、カスタム Docker コンテナ、または異なる AWS のサービスのチェーンを連結することで提供できる機能は示されていません。

機能	リアルタイム推論	バッチ変換	非同期推論	サーバーレス推論	Docker コンテナ
自動スケーリングのサポート	✓	該当なし	✓	✓	該当なし
GPU サポート	✓¹	✓¹	✓¹		1P、構築済み、 BYOC
シングルモデル	✓	✓	✓	✓	該当なし
マルチモデルエンドポイント	✓				k-NN、XGBoost、線形学習、RCF TensorFlow、ApacheMXNet、 PyTorchscikit-learn ²
マルチコンテナエンドポイント	✓				1P、構築済み、構築済み拡張、 BYOC
シリアル推論パイプライン	✓	✓			1P、構築済み、構築済み拡張、 BYOC
推論レコメンダー	✓				1P、構築済み、構築済み拡張、 BYOC
プライベートリンクのサポート	✓	✓	✓		該当なし
データキャプチャ/モデルモニターサポート	✓	✓			該当なし
DLCs サポート	1P、構築済み、構築済み拡張、 BYOC	1P、構築済み、構築済み拡張、 BYOC	1P、構築済み、構築済み拡張、 BYOC	1P、構築済み、構築済み拡張、 BYOC	該当なし
サポートされるプロトコル	HTTP(S)	HTTP(S)	HTTP(S)	HTTP(S)	該当なし
ペイロードサイズ	< 6 MB	≤ 100 MB	≤ 1 GB	≤ 4 MB
HTTP チャンクエンコーディング	フレームワーク依存、1P はサポート外	該当なし	フレームワーク依存、1P はサポート外	フレームワーク依存、1P はサポート外	該当なし
リクエストのタイムアウト	< 60 秒	日間	< 1 時間	< 60 秒	該当なし
デプロイガードレール: Blue/Green デプロイ	✓	該当なし	✓		該当なし
デプロイガードレール: ローリングデプロイ	✓	該当なし	✓		該当なし
シャドウテスト	✓				該当なし
ゼロにスケール		該当なし	✓	✓	該当なし
マーケットプレイスモデルパッケージのサポート	✓	✓			該当なし
仮想プライベートクラウドのサポート	✓	✓	✓		該当なし
複数の量産バリアントのサポート	✓				該当なし
ネットワークの隔離	✓		✓		該当なし
モデル並列サービングのサポート	✓³	✓	✓³		✓³
ボリュームの暗号化	✓	✓	✓	✓	該当なし
顧客 AWS KMS	✓	✓	✓	✓	該当なし
d インスタンスのサポート	✓	✓	✓		該当なし
inf1 のサポート	✓				✓

SageMaker AI を使用すると、1 つのモデル、または 1 つの推論エンドポイントの背後に複数のモデルをデプロイして、リアルタイム推論を行うことができます。以下の表は、リアルタイム推論に付属するさまざまなホスティングオプションでサポートされるコア機能をまとめたものです。

機能	シングルモデルエンドポイント	マルチモデルエンドポイント	シリアル推論パイプライン	マルチコンテナエンドポイント
自動スケーリングのサポート	✓	✓	✓	✓
GPU サポート	✓¹	✓	✓
シングルモデル	✓	✓	✓	✓
マルチモデルエンドポイント		✓	✓	該当なし
マルチコンテナエンドポイント	✓			該当なし
シリアル推論パイプライン	✓	✓	該当なし
推論レコメンダー	✓
プライベートリンクのサポート	✓	✓	✓	✓
データキャプチャ/モデルモニターサポート	✓	該当なし	該当なし	該当なし
DLCs サポート	1P、構築済み、構築済み拡張、 BYOC	k-NN、XGBoost、線形学習、RCF TensorFlow、ApacheMXNet、 PyTorchscikit-learn ²	1P、構築済み、構築済み拡張、 BYOC	1P、構築済み、構築済み拡張、 BYOC
サポートされるプロトコル	HTTP(S)	HTTP(S)	HTTP(S)	HTTP(S)
ペイロードサイズ	< 6 MB	< 6 MB	< 6 MB	< 6 MB
リクエストのタイムアウト	< 60 秒	< 60 秒	< 60 秒	< 60 秒
デプロイガードレール: Blue/Green デプロイ	✓	✓	✓	✓
デプロイガードレール: ローリングデプロイ	✓	✓	✓	✓
シャドウテスト	✓
マーケットプレイスモデルパッケージのサポート	✓
仮想プライベートクラウドのサポート	✓	✓	✓	✓
複数の量産バリアントのサポート	✓		✓	✓
ネットワークの隔離	✓	✓	✓	✓
モデル並列サービングのサポート	✓ ³		✓ ³
ボリュームの暗号化	✓	✓	✓	✓
顧客 AWS KMS	✓	✓	✓	✓
d インスタンスのサポート	✓	✓	✓	✓
inf1 のサポート	✓

¹ Amazon EC2インスタンスタイプの可用性は、 AWS リージョンによって異なります。固有のインスタンスの可用性については AWS、「Amazon SageMaker AI 料金表」を参照してください。

² 他のフレームワークまたはアルゴリズムを使用するには、 SageMaker AI 推論ツールキットを使用して、マルチモデルエンドポイントをサポートするコンテナを構築します。

³ SageMaker AI を使用すると、推論のために大規模なモデル (最大 500 GB) をデプロイできます。コンテナのヘルスチェックおよびダウンロードのタイムアウトクォータを最大 60 分まで設定できます。これにより、モデルおよび関連リソースのダウンロードとロードに余裕をもたせることができます。詳細については、「SageMaker 大規模モデル推論の AI エンドポイントパラメータ」を参照してください。 SageMaker AI 互換の大規模モデル推論コンテナを使用できます。また、 FasterTransformer およびで Triton などのサードパーティーのモデル並列化ライブラリを使用することもできます DeepSpeed。AI と互換性があることを確認する必要があります SageMaker 。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

エンドポイントセキュリティのベストプラクティス

リソース