翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
推論パラメータでレスポンスの生成に影響を与える
モデル推論を実行するときは、推論パラメータを調整して、モデルレスポンスに影響を与えることができます。推論パラメータによって、モデルが生成中に検討する出力候補のプールを変更したり、最終レスポンスを制限したりできます。
推論パラメータのデフォルト値と範囲はモデルによって異なります。さまざまなモデルの推論パラメータについては、「Inference request parameters and response fields for foundation models」を参照してください。
以下のカテゴリのパラメータは、さまざまなモデルに共通しています。
ランダム性と多様性
どのシーケンスでも、モデルはシーケンス内の次のトークンのオプションの確率分布を決定します。出力で各トークンを生成するために、モデルはこの分布からサンプリングします。ランダム性と多様性とは、モデルのレスポンスにおける変動量を指します。これらの要因は、分布を制限または調整することで制御できます。基盤モデルでは通常、レスポンスのランダム性と多様性を制御するための以下のパラメータがサポートされています。
-
[温度] — 予測出力の確率分布の形状に影響し、モデルがより確率の低い出力を選択する可能性にも影響します。
-
確率の高い出力を選択するには、モデルに影響する値を低く設定します。
-
確率の低い出力を選択するには、モデルに影響する値を高く設定します。
専門用語で言うと、温度は次のトークンの確率質量関数を変調します。温度が低いほど関数が急勾配になり、レスポンスがより決定論的になります。一方、温度が高いほど関数が平坦になり、ランダムなレスポンスが多くなります。
-
-
[トップ K] — モデルが次のトークンについて検討する最も可能性の高い候補の数。
-
小さい値を選択するとプールのサイズが小さくなり、選択肢がより可能性の高い出力に限定されます。
-
大きい値を選択するとプールのサイズが大きくなり、モデルが可能性の低い出力を考慮できるようになります。
例えば、[トップ K] に 50 の値を選択した場合、モデルはシーケンスにおいて次に来る可能性が最も高い 50 個のトークンの中から選択します。
-
-
[トップ P] — モデルが次のトークンについて考慮する最も可能性の高い候補のパーセンテージ。
-
小さい値を選択するとプールのサイズが小さくなり、選択肢がより可能性の高い出力に限定されます。
-
大きい値を選択するとプールのサイズが大きくなり、モデルが可能性の低い出力を考慮できるようになります。
専門用語で言うと、このモデルはレスポンスのセットの累積確率分布を計算し、分布の上位 P% のみを考慮します。
例えば、[トップ P] に 0.8 の値を選択した場合、モデルはシーケンスにおいて次に来る可能性が最も高い 80% のトークンの確率分布から選択します。
-
次の表は、これらのパラメータの効果をまとめたものです。
パラメータ | 低い値の効果 | 高い値の効果 |
---|---|---|
温度 | 高い確率のトークンの可能性を向上する 低い確率のトークンの可能性を低下する |
低い確率のトークンの可能性を向上する 高い確率のトークンの可能性を低下する |
トップ K | 低い確率のトークンを削除する | 低い確率のトークンを許可する |
トップ P | 低い確率のトークンを削除する | 低い確率のトークンを許可する |
これらのパラメータを理解するための例として、プロンプト I hear the hoof beats of "
の例について考えてみましょう。モデルが、次の 3 つの単語を次のトークンの候補として決定したとします。このモデルでは、各単語に確率も割り当てられます。
{ "horses": 0.7, "zebras": 0.2, "unicorns": 0.1 }
-
[温度] を高く設定すると、確率分布が平坦になり、確率の差が小さくなるため、「ユニコーン」を選ぶ確率は上がり、「馬」を選ぶ確率は下がります。
-
[トップ K] を 2 に設定すると、モデルは最も可能性の高い候補の上位 2 つ、つまり「馬」と「シマウマ」のみを考慮します。
-
[トップ P] を 0.7 に設定した場合、モデルは「horses」のみを考慮します。確率分布の上位 70% に入る候補は「horses」だけだからです。[トップ P] を 0.9 に設定した場合は、「horses」と「zebras」が考慮されます。いずれも確率分布の上位 90% に入っているからです。
Length
基盤モデルでは通常、レスポンスの長さを制限するパラメータがサポートされています。これらのパラメータの例を以下に示します。
-
[レスポンスの長さ] — 生成されたレスポンスで返されるトークンの最小数または最大数を指定する正確な値。
-
[ペナルティ] — レスポンス内の出力にどの程度ペナルティを課すかを指定します。次に例を示します。
-
レスポンスの長さ。
-
レスポンスで繰り返されるトークン。
-
レスポンス内のトークンの頻度。
-
レスポンス内のトークンのタイプ。
-
-
[停止シーケンス] — モデルがそれ以上トークンを生成しないようにする文字シーケンスを指定します。指定した停止シーケンスをモデルが生成すると、そのシーケンスの後に生成が停止します。