コア推論
推論は、Amazon Nova モデルにリクエストを送信し、生成されたレスポンスを受信するプロセスです。Amazon Nova モデルは、次の 2 つの API オプションによる推論をサポートしています。
-
Converse API (Converse、ConverseStream): さまざまなモデル間で一貫したインターフェイスを提供するため、モデル間の切り替えや、複数のモデルで動作するアプリケーションの構築が容易になります。ほとんどのユースケースに推奨されます。
-
Invoke API (InvokeModel、InvokeModelWithResponseStream): リクエストペイロードは、各モデルのネイティブ形式専用に構造化されています。リクエスト本文で指定されたプロンプトと推論パラメータを使用して推論を実行します。
どちらの API も、以下を含む同じコア機能をサポートしています。
-
マルチターンの会話
-
マルチモーダル入力 (テキスト、画像、動画、オーディオ)
-
ツール使用
-
ガードレール
-
ストリーミングレスポンス
リクエスト構造は 2 つの API 間でほぼ同じで、バイトデータ (ドキュメント、画像、動画、オーディオ) のエンコード方法のみ異なります。reasoningConfig や TopK などの Amazon Nova モデルに固有のモデルリクエストパラメータの場合、これらは additionalModelRequestFields 内の追加の inferenceConfig オブジェクトに配置されます。これらは、InvokeModel および InvokeModelWithResponseStream の最上位パラメータです。
注記
Nova 2 モデルを使用したコードサンプルのリストについては、「コードサンプルとトラブルシューティング」を参照してください。
modelId を次のいずれかに設定して、Amazon Nova モデルを使用します。
モデル |
モデル ID |
|---|---|
| Nova 2 Lite |
|
Nova 2 Sonic |
|
Nova Multimodal Embeddings |
amazon.nova-2-multimodal-embeddings-v1:0 |
重要: タイムアウト設定
重要
Amazon Nova 推論リクエストが完了するまでに最大 60 分かかる場合があります。クライアントのタイムアウト設定を適宜設定します。
次の例では Python コードを使用しています。ユーザーは、希望する SDK 言語バージョンのドキュメントを、その SDK の API ドキュメントで確認できます。
from botocore.config import Config bedrock = boto3.client( 'bedrock-runtime', region_name='us-east-1', config=Config( read_timeout=3600 # 60 minutes ) )
コア推論トピック
このセクションでは、次のトピックについて説明します。
-
Converse API の使用: ほとんどの Bedrock モデル間で互換性を提供する一貫したインターフェイス
-
Invoke API の使用: Nova モデルに固有で、他の Bedrock モデルには移植できないインターフェイス
-
ストリーミングレスポンス: リアルタイムのレスポンス生成
-
Amazon Nova 埋め込みの使用: テキスト埋め込み機能
-
オンデマンド推論: 従量課金制の推論モデル