SageMaker 推論
カスタム Amazon Nova モデルが SageMaker 推論で利用可能になりました。SageMaker の Amazon Nova を使用すると、トレーニングされたカスタム Amazon Nova モデルから予測または推論の取得を開始できます。SageMaker の広範な ML インフラストラクチャとモデルデプロイオプションは、ML 推論のあらゆるニーズを満たすのに役立ちます。SageMaker 推論を使用すると、モデルのデプロイをスケールし、本番環境でモデルをより効果的に管理して、運用上の負担を軽減できます。
SageMaker には、低遅延推論を取得するためのリアルタイムエンドポイント、リクエストのバッチ用の非同期エンドポイントなど、さまざまな推論オプションが用意されています。ユースケースに適した推論オプションを活用することで、効率的なモデルのデプロイと推論を確保できます。SageMaker 推論の詳細については、「推論のためのモデルをデプロイする」を参照してください。
重要
SageMaker 推論では、フルランクのカスタムモデルと LoRA マージモデルのみがサポートされています。マージされていない LoRA モデルとベースモデルの場合は、Amazon Bedrock を使用します。
機能
SageMaker 推論の Amazon Nova モデルでは、以下の機能を使用できます。
モデル機能
-
テキスト生成
デプロイとスケーリング
-
カスタムインスタンス選択によるリアルタイムエンドポイント
-
Auto Scaling – トラフィックパターンに基づいてキャパシティを自動的に調整し、コストと GPU 使用率を最適化します。詳細については、「Amazon SageMaker モデルを自動スケーリングする」を参照してください。
-
リアルタイムトークン生成のためのストリーミング API サポート
モニタリングと最適化
-
モニタリングとアラートのための Amazon CloudWatch 統合
-
VPC 設定によるアベイラビリティーゾーンを考慮したレイテンシー最適化
開発用ツール
-
AWS CLI サポート – 詳細については、「SageMaker の AWS CLI コマンドリファレンス」を参照してください。
-
SDK サポートによるノートブックの統合
サポートされているモデルとインスタンス
SageMaker 推論エンドポイントを作成するときに、CONTEXT_LENGTH と MAX_CONCURRENCY の 2 つの環境変数を設定してデプロイを設定できます。
-
CONTEXT_LENGTH– リクエストあたりのトークンの最大合計長 (入力 + 出力) -
MAX_CONCURRENCY– エンドポイントが処理する同時リクエストの最大数
以下の表に、サポートされている Amazon Nova モデル、インスタンスタイプ、およびサポートされている設定を示します。MAX_CONCURRENCY 値は、各 CONTEXT_LENGTH 設定でサポートされている最大同時実行数を表します。
| モデル | インスタンスタイプ | サポートされる設定 | FP8 量子化が必要 |
|---|---|---|---|
| Amazon Nova Micro | ml.g5.12xlarge |
CONTEXT_LENGTH: 4000、MAX_CONCURRENCY: 12 CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 6 |
いいえ |
| ml.g5.24xlarge | CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 8 | いいえ | |
| ml.g6e.xlarge |
CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 2 |
いいえ | |
| ml.g6e.2xlarge |
CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 2 |
いいえ | |
| ml.g6e.4xlarge |
CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 4 |
いいえ | |
| ml.g6.12xlarge |
CONTEXT_LENGTH: 4000、MAX_CONCURRENCY: 12 CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 6 |
いいえ | |
| ml.g6.24xlarge | CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 8 | いいえ | |
| ml.g6.48xlarge | CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 12 | いいえ | |
| ml.p5.48xlarge |
CONTEXT_LENGTH: 16000、MAX_CONCURRENCY: 128 CONTEXT_LENGTH: 64000、MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 128000、MAX_CONCURRENCY: 8 |
いいえ | |
| Amazon Nova Lite | ml.g6.12xlarge |
CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 2 |
はい - デフォルトで有効 |
| ml.g6.24xlarge |
CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 4 |
はい - デフォルトで有効 | |
| ml.g6.48xlarge |
CONTEXT_LENGTH: 4000、MAX_CONCURRENCY: 16 CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 8 |
いいえ | |
| ml.p5.48xlarge |
CONTEXT_LENGTH: 16000、MAX_CONCURRENCY: 128 CONTEXT_LENGTH: 60000、MAX_CONCURRENCY: 8 |
いいえ | |
| Nova 2 Lite | ml.g6.48xlarge |
CONTEXT_LENGTH: 8000、MAX_CONCURRENCY: 8 |
はい - デフォルトで有効 |
| ml.p5.48xlarge |
CONTEXT_LENGTH: 16000、MAX_CONCURRENCY: 128 CONTEXT_LENGTH: 64000、MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 128000、MAX_CONCURRENCY: 8 |
いいえ |
注記
FP8 量子化が必要なインスタンスでは、デフォルトで有効になります。
表示される MAX_CONCURRENCY 値は、各 CONTEXT_LENGTH 設定の上限です。同じ同時実行性でより短いコンテキスト長を使用することもできますが、これらの値を超えると、SageMaker エンドポイントの作成が失敗します。
例えば、Amazon Nova Micro を ml.g5.12xlarge で使用する場合:
-
CONTEXT_LENGTH=2000、MAX_CONCURRENCY=12→ 有効 -
CONTEXT_LENGTH=8000、MAX_CONCURRENCY=12→ 拒否 (コンテキスト長 8000 の場合、同時実行制限は 6 です) -
CONTEXT_LENGTH=8000、MAX_CONCURRENCY=4→ 有効 -
CONTEXT_LENGTH=8000、MAX_CONCURRENCY=6→ 有効 -
CONTEXT_LENGTH=10000→ 拒否 (このインスタンスの最大コンテキスト長は 8000 であるため)
サポート対象の AWS リージョン
以下の表に、Amazon Nova モデルが SageMaker 推論で使用できる AWS リージョンを示します。
| リージョン名 | リージョンコード | 可用性 |
|---|---|---|
| 米国東部 (バージニア北部) | us-east-1 | 使用可能 |
| 米国西部 (オレゴン) | us-west-2 | 使用可能 |
サポートされているコンテナイメージ
以下の表に、SageMaker 推論の Amazon Nova モデルのコンテナイメージ URI をリージョン別に一覧表示します。
| リージョン | コンテナイメージ URI |
|---|---|
| us-east-1 | 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest |
| us-west-2 | 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest |
ベストプラクティス
SageMaker でのモデルのデプロイと管理に関するベストプラクティスについては、「SageMaker のベストプラクティス」を参照してください。
サポート
SageMaker 推論における Amazon Nova モデルの問題とサポートについては、コンソールまたは AWS アカウントマネージャーを通じて AWS サポートにお問い合わせください。