Amazon Bedrock 推論

Amazon Nova モデルをトレーニングしてテストしたら、本番環境の推論のために Amazon Bedrock にデプロイできます。デプロイプロセスでは、CreateCustomModel API を使用して Amazon Bedrock モデルを作成し、マネージド Amazon S3 バケットからモデルアーティファクトをエクスポートします。モデルのステータスが ACTIVE になった後、オンデマンドまたはプロビジョンドスループット推論を使用してエンドポイントを設定します。

SageMaker でカスタムモデルを作成したら、CreateCustomModel API を使用して SageMaker エスクローから Amazon Bedrock にデプロイし、推論を実行できます。その後、CreateCustomModelDeployment を使用して OD 推論エンドポイントを作成するか、パラメータ効率の高いファインチューニング (PEFT) モデルのプロビジョンドスループット推論を設定できます。フルランクカスタムモデルのプロビジョンドスループット推論を設定できます。

Amazon Nova Forge SDK を使用して、カスタマイズされた Amazon Nova モデルをデプロイすることもできます。Amazon Nova Forge SDK は、トレーニングジョブまたは S3 モデルチェックポイントから関連情報を抽出し、Amazon Bedrock に公開するための効率的なエクスペリエンスを提供します。詳細については、Amazon Nova Forge SDK を参照してください。

カスタムモデルの Amazon Bedrock 推論を設定する詳細な手順については、「カスタマイズされた Amazon Nova モデルを Amazon Bedrock にデプロイする」を参照してください。

次のセクションでは、カスタムモデルでのオンデマンド推論について詳しく説明します。

カスタムモデルでのオンデマンド推論

オンデマンド (OD) 推論を使用すると、プロビジョニングされたスループットエンドポイントを維持することなく、カスタムの Amazon Nova モデルで推論を実行できます。これにより、コストを最適化し、効率的にスケールできるようになります。オンデマンド推論では、入出力の両方のトークンで測定された使用量に基づいて課金されます。

互換性の要件

次の互換性の要件が適用されます。

OD 推論は、Amazon Nova Pro、Lite、および Micro のカスタム理解モデルでサポートされています。OD 推論は、Nova カスタムコンテンツ生成モデルではサポートされていません。
OD 推論は、2025 年 7 月 16 日以降にトレーニングされた Amazon Nova カスタム理解モデルでサポートされています。2025 年 7 月 16 日より前にトレーニングされたカスタムモデルは、OD 推論と互換性がありません。
Amazon Bedrock カスタマイズ: OD 推論は、Amazon Bedrock カスタマイズでカスタマイズされたモデルと、Amazon Bedrock で教師モデルから蒸留された学生モデルでサポートされています。
SageMaker AI カスタマイズ: SageMaker AI でカスタマイズされたモデルの場合、OD 推論は、モデルが Amazon Bedrock でホストされているときのパラメータ効率の高いファインチューニング (PEFT) モデルでのみサポートされます。これには、直接選好最適化と PEFT が含まれます。OD 推論は、フルランクのファインチューニングされたモデルではサポートされていません。

モデルトレーニングおよび推論

2025 年 7 月 16 日以降、PEFT を使用して Amazon Bedrock または SageMaker AI で新しいカスタム Amazon Nova Pro、Lite、または Micro モデルをトレーニングすると、モデルはプロビジョニングされた推論オプションとオンデマンド推論オプションの両方と自動的に互換性を持つようになります。モデルをデプロイする際、お好みの推論方法を選択できます。

2025 年 7 月 16 日以降にトレーニングされたモデルで OD 推論を使用するには、次の手順を実行します。

Amazon Bedrock カスタマイズ API または SageMaker AI カスタマイズ API を使用して、新しいファインチューニングジョブを作成します。
CreateCustomModel API を使用して、新しくトレーニングされたモデルを Amazon Bedrock にデプロイします。
CustomModelDeployment API を使用してオンデマンド推論用にデプロイします。

レート制限

オンデマンド推論リクエストには、次の 1 分あたりのリクエスト数 (RPM) と 1 分あたりのトークン数 (TPM) の制限が適用されます。

Base Model for Custom Model	RPM per Custom Model Deployment	TPM per Custom Model Deployment
Nova 2 Lite	2,000	4,000,000

Amazon Nova で使用できるクォータの詳細については、「Amazon Nova のクォータ」を参照してください。

レイテンシー

ベースモデル呼び出しとアダプター間では、エンドツーエンドのレイテンシー差 (つまり、Time to First Token (TTFT)) が 20～55% になることが予想されます。正確なレイテンシー値はモデルサイズによって異なり、業界標準に準拠しています。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Amazon Nova Forge の不正検出

オンデマンド推論用のカスタムモデルをデプロイする