翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# 推論パラメータでレスポンスの生成に影響を与える
<a name="inference-parameters"></a>

モデル推論を実行するときは、推論パラメータを調整して、モデルレスポンスに影響を与えることができます。推論パラメータによって、モデルが生成中に検討する出力候補のプールを変更したり、最終レスポンスを制限したりできます。

推論パラメータのデフォルト値と範囲はモデルによって異なります。さまざまなモデルの推論パラメータについては、「[Inference request parameters and response fields for foundation models](model-parameters.md)」を参照してください。

以下のカテゴリのパラメータは、さまざまなモデルに共通しています。

**Topics**
+ [ランダム性と多様性](#inference-randomness)
+ [Length](#inference-length)

## ランダム性と多様性
<a name="inference-randomness"></a>

どのシーケンスでも、モデルはシーケンス内の次のトークンのオプションの確率分布を決定します。出力で各トークンを生成するために、モデルはこの分布からサンプリングします。ランダム性と多様性とは、モデルのレスポンスにおける変動量を指します。これらの要因は、分布を制限または調整することで制御できます。基盤モデルでは通常、レスポンスのランダム性と多様性を制御するための以下のパラメータがサポートされています。
+ **[温度]** — 予測出力の確率分布の形状に影響し、モデルがより確率の低い出力を選択する可能性にも影響します。
  + 確率の高い出力を選択するには、モデルに影響する値を低く設定します。
  + 確率の低い出力を選択するには、モデルに影響する値を高く設定します。

  専門用語で言うと、温度は次のトークンの確率質量関数を変調します。温度が低いほど関数が急勾配になり、レスポンスがより決定論的になります。一方、温度が高いほど関数が平坦になり、ランダムなレスポンスが多くなります。
+ **[トップ K]** — モデルが次のトークンについて検討する最も可能性の高い候補の数。
  + 小さい値を選択するとプールのサイズが小さくなり、選択肢がより可能性の高い出力に限定されます。
  + 大きい値を選択するとプールのサイズが大きくなり、モデルが可能性の低い出力を考慮できるようになります。

  例えば、[トップ K] に 50 の値を選択した場合、モデルはシーケンスにおいて次に来る可能性が最も高い 50 個のトークンの中から選択します。
+ **[トップ P]** — モデルが次のトークンについて考慮する最も可能性の高い候補のパーセンテージ。
  + 小さい値を選択するとプールのサイズが小さくなり、選択肢がより可能性の高い出力に限定されます。
  + 大きい値を選択するとプールのサイズが大きくなり、モデルが可能性の低い出力を考慮できるようになります。

  専門用語で言うと、このモデルはレスポンスのセットの累積確率分布を計算し、分布の上位 P% のみを考慮します。

  例えば、[トップ P] に 0.8 の値を選択した場合、モデルはシーケンスにおいて次に来る可能性が最も高い 80% のトークンの確率分布から選択します。

次の表は、これらのパラメータの効果をまとめたものです。


****  

| パラメータ | 低い値の効果 | 高い値の効果 | 
| --- | --- | --- | 
| 温度 | 高い確率のトークンの可能性を向上する 低い確率のトークンの可能性を低下する | 低い確率のトークンの可能性を向上する高い確率のトークンの可能性を低下する | 
| トップ K | 低い確率のトークンを削除する | 低い確率のトークンを許可する | 
| トップ P | 低い確率のトークンを削除する | 低い確率のトークンを許可する | 

これらのパラメータを理解するための例として、プロンプト **I hear the hoof beats of "** の例について考えてみましょう。モデルが、次の 3 つの単語を次のトークンの候補として決定したとします。このモデルでは、各単語に確率も割り当てられます。

```
{
    "horses": 0.7,
    "zebras": 0.2,
    "unicorns": 0.1
}
```
+ **[温度]** を高く設定すると、確率分布が平坦になり、確率の差が小さくなるため、「ユニコーン」を選ぶ確率は上がり、「馬」を選ぶ確率は下がります。
+ **[トップ K]** を 2 に設定すると、モデルは最も可能性の高い候補の上位 2 つ、つまり「馬」と「シマウマ」のみを考慮します。
+ **[トップ P]** を 0.7 に設定した場合、モデルは「horses」のみを考慮します。確率分布の上位 70% に入る候補は「horses」だけだからです。**[トップ P]** を 0.9 に設定した場合は、「horses」と「zebras」が考慮されます。いずれも確率分布の上位 90% に入っているからです。

## Length
<a name="inference-length"></a>

基盤モデルでは通常、レスポンスの長さを制限するパラメータがサポートされています。これらのパラメータの例を以下に示します。
+ **[レスポンスの長さ]** — 生成されたレスポンスで返されるトークンの最小数または最大数を指定する正確な値。
+ **[ペナルティ]** — レスポンス内の出力にどの程度ペナルティを課すかを指定します。次に例を示します。
  + レスポンスの長さ。
  + レスポンスで繰り返されるトークン。
  + レスポンス内のトークンの頻度。
  + レスポンス内のトークンのタイプ。
+ **[停止シーケンス]** — モデルがそれ以上トークンを生成しないようにする文字シーケンスを指定します。指定した停止シーケンスをモデルが生成すると、そのシーケンスの後に生成が停止します。