コア推論

推論は、Amazon Nova モデルにリクエストを送信し、生成されたレスポンスを受信するプロセスです。Amazon Nova モデルは、次の 2 つの API オプションによる推論をサポートしています。

Converse API (Converse、ConverseStream): さまざまなモデル間で一貫したインターフェイスを提供するため、モデル間の切り替えや、複数のモデルで動作するアプリケーションの構築が容易になります。ほとんどのユースケースに推奨されます。
Invoke API (InvokeModel、InvokeModelWithResponseStream): リクエストペイロードは、各モデルのネイティブ形式専用に構造化されています。リクエスト本文で指定されたプロンプトと推論パラメータを使用して推論を実行します。

どちらの API も、以下を含む同じコア機能をサポートしています。

マルチターンの会話
マルチモーダル入力 (テキスト、画像、動画、オーディオ)
ツール使用
ガードレール
ストリーミングレスポンス

リクエスト構造は 2 つの API 間でほぼ同じで、バイトデータ (ドキュメント、画像、動画、オーディオ) のエンコード方法のみ異なります。reasoningConfig や TopK などの Amazon Nova モデルに固有のモデルリクエストパラメータの場合、これらは additionalModelRequestFields 内の追加の inferenceConfig オブジェクトに配置されます。これらは、InvokeModel および InvokeModelWithResponseStream の最上位パラメータです。

注記

Nova 2 モデルを使用したコードサンプルのリストについては、「コードサンプルとトラブルシューティング」を参照してください。

modelId を次のいずれかに設定して、Amazon Nova モデルを使用します。

モデル	モデル ID
Nova 2 Lite	global.amazon.nova-2-lite-v1:0 us.amazon.nova-2-lite-v1:0
Nova 2 Sonic	global.amazon.nova-2-sonic-v1:0 us.amazon.nova-2-sonic-v1:0
Nova Multimodal Embeddings	amazon.nova-2-multimodal-embeddings-v1:0

重要: タイムアウト設定

重要

Amazon Nova 推論リクエストが完了するまでに最大 60 分かかる場合があります。クライアントのタイムアウト設定を適宜設定します。

次の例では Python コードを使用しています。ユーザーは、希望する SDK 言語バージョンのドキュメントを、その SDK の API ドキュメントで確認できます。


from botocore.config import Config

bedrock = boto3.client(
    'bedrock-runtime',
    region_name='us-east-1',
    config=Config(
        read_timeout=3600  # 60 minutes
    )
)

コア推論トピック

このセクションでは、次のトピックについて説明します。

Converse API の使用: ほとんどの Bedrock モデル間で互換性を提供する一貫したインターフェイス
Invoke API の使用: Nova モデルに固有で、他の Bedrock モデルには移植できないインターフェイス
ストリーミングレスポンス: リアルタイムのレスポンス生成
Amazon Nova 埋め込みの使用: テキスト埋め込み機能
オンデマンド推論: 従量課金制の推論モデル

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

API の開始方法

Converse API の使用