翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
特定の基盤モデルでは、モデル推論を実行できます。モデル推論では、より大きく複雑なタスクを取り、より小さくてシンプルなステップに分割します。このプロセスは、多くの場合、思考連鎖 (CoT) 推論と呼ばれ、モデルが応答する前に考える機会を与えることで、モデルの精度を向上させることができます。モデル推論は、複数ステップ分析、数学の問題、複雑な推論タスクなどのタスクに最も役立ちます。詳細については、「モデル推論によるモデルレスポンスの強化」を参照してください。
モデル推論を有効にすると、引用結果が改善され、精度が向上しますが、レイテンシーが増加する可能性があります。以下は、Amazon Bedrock ナレッジベースで推論モデルを使用してデータソースをクエリし、レスポンスを生成する際の考慮事項です。
Amazon Bedrock ナレッジベースでのモデル推論の使用
モデル推論は、 RetrieveAndGenerate
API の additionalModelRequestFields
パラメータを使用して有効または無効にできます。このパラメータは、すべてのキーと値のペアを受け入れます。例えば、次に示すように、 reasoningConfig
フィールドを追加し、type
キーを使用して推論を有効または無効にできます。
{
"input": {
"text": "string",
"retrieveAndGenerateConfiguration": {
"knowledgeBaseConfiguration": {
"generationConfiguration": {
"additionalModelRequestFields": {
"reasoningConfig" : {
"type": "enabled",
"budget": INT_VAL, #required when enabled
}
}
},
"knowledgeBaseId": "string",
},
"type": "string"
},
"sessionId": "string"
}
一般的な考慮事項
以下は、ナレッジベースの推論モデルを使用する際の一般的な考慮事項です。
-
モデル ID を持つ Anthropic Claude 3.7 Sonnet モデルが推論
anthropic.claude-3-7-sonnet-20250219-v1:0
を行うことができます。 -
このモデルでは、設定可能なトークン予算を使用して、推論を有効または無効にできます。デフォルトでは、推論は無効になっており、Claude 3.7 Sonnet モデルの出力トークンのデフォルト数は 4096 です。
-
推論モデルがクエリに応答するまでに最大 5 分かかります。モデルがクエリに応答するのに 5 分以上かかる場合、タイムアウトが発生します。
-
5 分間のタイムアウトを超えないように、モデル推論は、クエリとレスポンスの生成を設定する場合にのみ生成ステップで有効にできます。オーケストレーションステップでは有効にできません。
-
推論モデルは、最大 8192 個のトークンを使用してクエリに応答できます。これには、出力トークンと思考トークンの両方が含まれます。この制限を超える出力トークンの最大数をリクエストしたリクエストは、エラーになります。
API の取得と生成に関する考慮事項
以下は、推論モデルに RetrieveAndGenerate
API を使用する場合の考慮事項です。
-
デフォルトでは、Claude 3.7 Sonnet を含むすべてのモデルで推論が無効になっている場合、温度はゼロに設定されます。推論が有効になっている場合は、温度を 1 に設定する必要があります。
-
Claude 3.7 Sonnet モデルで推論が有効になっている場合は、パラメータ Top P を無効にする必要があります。トップ P は、生成時に選択する可能性のあるトークンのパーセンタイルを決定する追加のモデルリクエストフィールドです。デフォルトでは、他の Anthropic Claude モデルのトップ P 値は 1 です。Claude 3.7 Sonnet モデルの場合、この値はデフォルトで無効になります。
-
モデル推論を有効にすると、レイテンシーが増加する可能性があります。
RetrieveAndGenerateStream
API オペレーションを使用すると、API からのレスポンスの受信に遅延が生じることがあります。