推論パラメータでレスポンスの生成に影響を与える - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

推論パラメータでレスポンスの生成に影響を与える

モデル推論を実行するときは、推論パラメータを調整して、モデルレスポンスに影響を与えることができます。推論パラメータによって、モデルが生成中に検討する出力候補のプールを変更したり、最終レスポンスを制限したりできます。

推論パラメータのデフォルト値と範囲はモデルによって異なります。さまざまなモデルの推論パラメータについては、「Inference request parameters and response fields for foundation models」を参照してください。

以下のカテゴリのパラメータは、さまざまなモデルに共通しています。

ランダム性と多様性

どのシーケンスでも、モデルはシーケンス内の次のトークンのオプションの確率分布を決定します。出力で各トークンを生成するために、モデルはこの分布からサンプリングします。ランダム性と多様性とは、モデルのレスポンスにおける変動量を指します。これらの要因は、分布を制限または調整することで制御できます。基盤モデルでは通常、レスポンスのランダム性と多様性を制御するための以下のパラメータがサポートされています。

  • [温度] — 予測出力の確率分布の形状に影響し、モデルがより確率の低い出力を選択する可能性にも影響します。

    • 確率の高い出力を選択するには、モデルに影響する値を低く設定します。

    • 確率の低い出力を選択するには、モデルに影響する値を高く設定します。

    専門用語で言うと、温度は次のトークンの確率質量関数を変調します。温度が低いほど関数が急勾配になり、レスポンスがより決定論的になります。一方、温度が高いほど関数が平坦になり、ランダムなレスポンスが多くなります。

  • [トップ K] — モデルが次のトークンについて検討する最も可能性の高い候補の数。

    • 小さい値を選択するとプールのサイズが小さくなり、選択肢がより可能性の高い出力に限定されます。

    • 大きい値を選択するとプールのサイズが大きくなり、モデルが可能性の低い出力を考慮できるようになります。

    例えば、[トップ K] に 50 の値を選択した場合、モデルはシーケンスにおいて次に来る可能性が最も高い 50 個のトークンの中から選択します。

  • [トップ P] — モデルが次のトークンについて考慮する最も可能性の高い候補のパーセンテージ。

    • 小さい値を選択するとプールのサイズが小さくなり、選択肢がより可能性の高い出力に限定されます。

    • 大きい値を選択するとプールのサイズが大きくなり、モデルが可能性の低い出力を考慮できるようになります。

    専門用語で言うと、このモデルはレスポンスのセットの累積確率分布を計算し、分布の上位 P% のみを考慮します。

    例えば、[トップ P] に 0.8 の値を選択した場合、モデルはシーケンスにおいて次に来る可能性が最も高い 80% のトークンの確率分布から選択します。

次の表は、これらのパラメータの効果をまとめたものです。

パラメータ 低い値の効果 高い値の効果
温度 高い確率のトークンの可能性を向上する

低い確率のトークンの可能性を低下する

低い確率のトークンの可能性を向上する

高い確率のトークンの可能性を低下する

トップ K 低い確率のトークンを削除する 低い確率のトークンを許可する
トップ P 低い確率のトークンを削除する 低い確率のトークンを許可する

これらのパラメータを理解するための例として、プロンプト I hear the hoof beats of " の例について考えてみましょう。モデルが、次の 3 つの単語を次のトークンの候補として決定したとします。このモデルでは、各単語に確率も割り当てられます。

{ "horses": 0.7, "zebras": 0.2, "unicorns": 0.1 }
  • [温度] を高く設定すると、確率分布が平坦になり、確率の差が小さくなるため、「ユニコーン」を選ぶ確率は上がり、「馬」を選ぶ確率は下がります。

  • [トップ K] を 2 に設定すると、モデルは最も可能性の高い候補の上位 2 つ、つまり「馬」と「シマウマ」のみを考慮します。

  • [トップ P] を 0.7 に設定した場合、モデルは「horses」のみを考慮します。確率分布の上位 70% に入る候補は「horses」だけだからです。[トップ P] を 0.9 に設定した場合は、「horses」と「zebras」が考慮されます。いずれも確率分布の上位 90% に入っているからです。

Length

基盤モデルでは通常、レスポンスの長さを制限するパラメータがサポートされています。これらのパラメータの例を以下に示します。

  • [レスポンスの長さ] — 生成されたレスポンスで返されるトークンの最小数または最大数を指定する正確な値。

  • [ペナルティ] — レスポンス内の出力にどの程度ペナルティを課すかを指定します。次に例を示します。

    • レスポンスの長さ。

    • レスポンスで繰り返されるトークン。

    • レスポンス内のトークンの頻度。

    • レスポンス内のトークンのタイプ。

  • [停止シーケンス] — モデルがそれ以上トークンを生成しないようにする文字シーケンスを指定します。指定した停止シーケンスをモデルが生成すると、そのシーケンスの後に生成が停止します。