推論モデルと考慮事項のレスポンス生成を設定する

フォーカスモード

推論モデルと考慮事項のレスポンス生成を設定する - Amazon Bedrock

推論モデル Claude 3.7 Sonnet のモデル推論の使用一般的な考慮事項 API の取得と生成に関する考慮事項

特定の基盤モデルでは、モデル推論を実行できます。そこでは、より大きく複雑なタスクを引き受け、より小さくてシンプルなステップに分割します。このプロセスは、多くの場合、思考連鎖 (CoT) 推論と呼ばれ、モデルが応答する前に考える機会を与えることで、モデルの精度を向上させることができます。モデル推論は、複数ステップ分析、数学の問題、複雑な推論タスクなどのタスクに最も役立ちます。詳細については、「モデル推論を使用してモデルレスポンスを強化する」を参照してください。

モデル推論を有効にすると、精度が向上し、引用結果が向上しますが、レイテンシーが増加する可能性があります。以下は、Amazon Bedrock ナレッジベースで推論モデルを使用してデータソースをクエリし、レスポンスを生成する際の考慮事項です。

推論モデル

モデル推論は、次のモデルで使用できます。

基盤モデル	モデル ID	トークンの数	推論設定
Anthropic Claude 3.7 Sonnet	anthropic.claude-3-7-sonnet-20250219-v1:0	このモデルには、出力トークンと推論トークンの両方を含む 8192 トークンが含まれます。Claude 3.7 Sonnet モデルの出力トークンのデフォルト数は 4096 です。	このモデルでは、設定可能なトークン予算を使用して、推論を有効または無効にできます。デフォルトでは、推論は無効になっています。
DeepSeek DeepSeek-R1	deepseek.r1-v1:0	このモデルには、出力トークンと推論トークンの両方を含む 8192 トークンが含まれます。思考トークンの数は設定できず、出力トークンの最大数は 8192 以下にする必要があります。	このモデルでは、推論は常に有効になっています。このモデルは、推論機能のオンとオフの切り替えをサポートしていません。

Claude 3.7 Sonnet のモデル推論の使用

注記

DeepSeek-R1 モデルでは、モデル推論は常に有効になっています。このモデルは、推論機能のオンとオフの切り替えをサポートしていません。

Claude 3.7 Sonnet モデルを使用する場合、 RetrieveAndGenerate API の additionalModelRequestFieldsパラメータを使用してモデルの推論を有効または無効にできます。このパラメータは、すべてのキーと値のペアを受け入れます。たとえば、次に示すように、reasoningConfigフィールドを追加し、typeキーを使用して推論を有効または無効にできます。


{
   "input": { 
      "text": "string",
      "retrieveAndGenerateConfiguration": { 
      "knowledgeBaseConfiguration": { 
         "generationConfiguration": { 
            "additionalModelRequestFields": {
                "reasoningConfig" : {
                    "type": "enabled",
                    "budget": INT_VAL, #required when enabled
                }
            }
         },
         "knowledgeBaseId": "string",
      },
      "type": "string"
   },
   "sessionId": "string"
}

一般的な考慮事項

以下は、ナレッジベースの推論モデルを使用する際の一般的な考慮事項です。

推論モデルは、クエリに応答するのに最大 5 分かかります。モデルがクエリに応答するのに 5 分以上かかる場合、タイムアウトが発生します。
5 分間のタイムアウトを超えないように、モデル推論は、クエリとレスポンスの生成を設定する生成ステップでのみ有効になります。オーケストレーションステップにモデル推論を含めることはできません。
推論モデルは、最大 8192 個のトークンを使用してクエリに応答できます。これには、出力トークンと思考トークンの両方が含まれます。この制限を超える出力トークンの最大数をリクエストするリクエストは、エラーになります。

API の取得と生成に関する考慮事項

以下は、推論モデルに RetrieveAndGenerate API を使用する場合の考慮事項です。

デフォルトでは、Claude 3.7 Sonnet を含むすべてのモデルで推論が無効になっている場合、温度はゼロに設定されます。推論が有効になっている場合は、温度を 1 に設定する必要があります。
```
"inferenceConfig": {
    "textInferenceConfig": {
        "maxTokens": 8192,
        "temperature": 1
    }
}
```
Claude 3.7 Sonnet モデルで推論が有効になっている場合、パラメータ Top P を無効にする必要があります。Top P は、生成時に選択するトークンのパーセンタイルを決定する追加のモデルリクエストフィールドです。デフォルトでは、他の Anthropic Claude モデルの Top P 値は 1 です。Claude 3.7 Sonnet モデルの場合、この値はデフォルトで無効になります。
モデル推論を使用すると、レイテンシーが増加する可能性があります。この API オペレーションと RetrieveAndGenerateStream API オペレーションを使用すると、API からのレスポンスの受信が遅れることがあります。