추론 파라미터를 사용하여 응답 생성에 영향을 주는 방법

모델 추론을 실행할 때 추론 파라미터를 조정하여 모델 응답에 영향을 미칠 수 있습니다. 추론 파라미터는 모델이 생성 과정에서 고려하는 가능한 출력 풀을 변경하거나 최종 응답을 제한할 수 있습니다.

추론 파라미터 기본값 및 범위는 모델에 따라 다릅니다. 여러 모델의 추론 파라미터에 대한 자세한 내용은 파운데이션 모델의 추론 요청 파라미터 및 응답 필드 섹션을 참조하세요.

다음과 같은 카테고리의 파라미터는 여러 모델에서 흔히 볼 수 있습니다.

주제

무작위성 및 다양성
길이

무작위성 및 다양성

주어진 모든 시퀀스의 경우 시퀀스의 다음 토큰에 대한 옵션의 확률 분포를 확인할 수 있습니다. 출력에 각 토큰을 생성하기 위해 모델은 이 분포에서 샘플링합니다. 무작위성과 다양성은 모델 응답의 변수량을 나타냅니다. 분포를 제한하거나 조정하여 이러한 요인을 제어할 수 있습니다. 파운데이션 모델은 일반적으로 다음과 같은 파라미터를 지원하여 응답의 무작위성과 다양성을 제어합니다.

온도 - 예측 출력의 확률 분포 형태에 영향을 미치고 모델이 낮은 확률 출력을 선택할 가능성에 영향을 줍니다.
- 모델이 더 높은 확률의 출력을 선택하도록 영향을 미치려면 더 낮은 값을 선택합니다.
- 모델이 더 낮은 확률의 출력을 선택하도록 영향을 미치려면 더 높은 값을 선택합니다.
전문적 관점에서 온도는 다음 토큰의 확률 질량 함수를 조절합니다. 온도가 낮을수록 함수의 강도가 높아져 결정론적 응답이 나타나고, 온도가 높을수록 함수가 평면화되어 무작위 응답이 더 많아집니다.
Top K - 모델이 다음 토큰을 고려할 가능성이 가장 높은 후보의 수입니다.
- 풀 크기를 줄이고 옵션을 더 가능성이 높은 출력으로 제한하려면 더 낮은 값을 선택합니다.
- 풀 크기를 늘리고 모델에서 더 가능성이 낮은 출력을 고려하도록 하려면 더 높은 값을 선택합니다.
예를 들어 상위 K 값을 50으로 선택하면 모델은 시퀀스에서 다음 토큰이 될 가능성이 가장 높은 50개의 토큰 중에서 선택합니다.
Top P - 모델이 다음 토큰을 고려할 가능성이 가장 높은 후보의 비율입니다.
- 풀 크기를 줄이고 옵션을 더 가능성이 높은 출력으로 제한하려면 더 낮은 값을 선택합니다.
- 풀 크기를 늘리고 모델에서 더 가능성이 낮은 출력을 고려하도록 하려면 더 높은 값을 선택합니다.
전문적 관점에서 모델은 응답 집합에 대한 누적 확률 분포를 계산하고 분포의 상위 P%만 고려합니다.

예를 들어 상위 P 값을 0.8로 선택하면 모델은 시퀀스에서 다음 토큰 확률 분포가 될 가능성이 가장 높은 상위 80%에서 선택합니다.

다음 표에는 이 파라미터의 효과가 요약되어 있습니다.

파라미터	낮은 값에 따른 영향	높은 값에 따른 영향
Temperature	높은 확률 토큰의 가능성 증가 낮은 확률 토큰의 가능성 감소	낮은 확률 토큰의 가능성 증가 높은 확률 토큰의 가능성 감소
Top K	낮은 확률 토큰 삭제	낮은 확률 토큰 허용
Top P	낮은 확률 토큰 삭제	낮은 확률 토큰 허용

이러한 파라미터를 이해하기 위한 예제로 I hear the hoof beats of " 프롬프트를 참조하세요. 모델이 다음 토큰의 후보로 다음 세 단어를 결정한다고 가정해 보겠습니다. 또한 모델은 각 단어에 확률을 할당합니다.


{
    "horses": 0.7,
    "zebras": 0.2,
    "unicorns": 0.1
}

temperature를 높게 설정하면 확률 분포가 평탄해지고 확률의 차이가 줄어들어 ‘unicorns’를 선택할 확률은 높아지고 ‘horses’를 선택할 확률은 낮아집니다.
Top K를 2로 설정하면 모델은 가장 가능성이 높은 상위 2개 후보인 ‘horses’와 ‘zebras’만 고려합니다.
Top P를 0.7로 설정하면 모델에서는 ‘horses’만 고려하는데, 이는 확률 분포의 상위 70% 에 속하는 유일한 후보이기 때문입니다. Top P를 0.9로 설정하면 모델은 확률 분포의 상위 90%에 속하는 ‘horses’와 ‘zebras’를 고려합니다.

길이

일반적으로 파운데이션 모델은 응답의 길이를 제어하는 파라미터를 지원합니다. 이러한 파라미터의 예제가 아래에 나와 있습니다.

응답 길이 - 생성된 응답에서 반환할 최소 또는 최대 토큰 수를 지정하는 정확한 값입니다.
페널티 - 응답의 출력에 페널티 수준을 지정합니다. 예는 다음과 같습니다.
- 응답의 길이입니다.
- 응답에서 토큰이 반복되었습니다.
- 응답에 포함된 토큰의 빈도입니다.
- 응답의 토큰 유형입니다.
중지 시퀀스 - 모델이 더 이상 토큰을 생성하지 못하도록 하는 문자 시퀀스를 지정합니다. 모델에서 지정한 중지 시퀀스를 생성하는 경우 해당 시퀀스 이후에는 생성이 중지됩니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Converse API

구조화된 출력