기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
추론 파라미터를 사용한 영향 응답 생성
모델 추론을 실행할 때 추론 파라미터를 조정하여 모델 응답에 영향을 줄 수 있습니다. 추론 파라미터는 모델이 생성 중에 고려하는 가능한 출력 풀을 변경하거나 최종 응답을 제한할 수 있습니다. 다양한 모델의 추론 파라미터에 대해 알아보려면 을 참조하십시오. 파운데이션 모델의 추론 요청 파라미터 및 응답 필드
다음 범주의 파라미터는 여러 모델에서 흔히 볼 수 있습니다.
무작위성과 다양성
주어진 모든 시퀀스의 경우 시퀀스의 다음 토큰에 대한 옵션의 확률 분포를 확인할 수 있습니다. 출력에 각 토큰을 생성하기 위해 모델은 이 분포에서 샘플링합니다. 무작위성과 다양성은 모델 응답의 변수량을 나타냅니다. 분포를 제한하거나 조정하여 이러한 요인을 제어할 수 있습니다. 파운데이션 모델은 일반적으로 다음과 같은 파라미터를 지원하여 응답의 무작위성과 다양성을 제어합니다.
-
온도 - 예측 출력의 확률 분포 형태에 영향을 미치고 모델이 낮은 확률 출력을 선택할 가능성에 영향을 줍니다.
-
모델이 더 높은 확률의 출력을 선택하도록 영향을 미치려면 더 낮은 값을 선택합니다.
-
모델이 더 낮은 확률의 출력을 선택하도록 영향을 미치려면 더 높은 값을 선택합니다.
전문적 관점에서 온도는 다음 토큰의 확률 질량 함수를 조절합니다. 온도가 낮을수록 함수의 강도가 높아져 결정론적 응답이 나타나고, 온도가 높을수록 함수가 평면화되어 무작위 응답이 더 많아집니다.
-
-
Top K - 모델이 다음 토큰을 고려할 가능성이 가장 높은 후보의 수입니다.
-
풀 크기를 줄이고 옵션을 더 가능성이 높은 출력으로 제한하려면 더 낮은 값을 선택합니다.
-
풀 크기를 늘리고 모델에서 더 가능성이 낮은 출력을 고려하도록 하려면 더 높은 값을 선택합니다.
예를 들어 상위 K 값을 50으로 선택하면 모델은 시퀀스에서 다음 토큰이 될 가능성이 가장 높은 50개의 토큰 중에서 선택합니다.
-
-
Top P - 모델이 다음 토큰을 고려할 가능성이 가장 높은 후보의 비율입니다.
-
풀 크기를 줄이고 옵션을 더 가능성이 높은 출력으로 제한하려면 더 낮은 값을 선택합니다.
-
풀 크기를 늘리고 모델에서 더 가능성이 낮은 출력을 고려하도록 하려면 더 높은 값을 선택합니다.
전문적 관점에서 모델은 응답 집합에 대한 누적 확률 분포를 계산하고 분포의 상위 P%만 고려합니다.
예를 들어 상위 P 값을 0.8로 선택하면 모델은 시퀀스에서 다음 토큰 확률 분포가 될 가능성이 가장 높은 상위 80%에서 선택합니다.
-
다음 표에는 이 파라미터의 효과가 요약되어 있습니다.
파라미터 | 낮은 값에 따른 영향 | 높은 값에 따른 영향 |
---|---|---|
온도 | 높은 확률 토큰의 가능성 증가 낮은 확률 토큰의 가능성 감소 |
낮은 확률 토큰의 가능성 증가 높은 확률 토큰의 가능성 감소 |
Top K | 낮은 확률 토큰 삭제 | 낮은 확률 토큰 허용 |
Top P | 낮은 확률 토큰 삭제 | 낮은 확률 토큰 허용 |
이러한 파라미터를 이해하기 위한 예제로 I hear the hoof beats of "
프롬프트를 참조하세요. 모델이 다음 토큰의 후보로 다음 세 단어를 결정한다고 가정해 보겠습니다. 또한 모델은 각 단어에 확률을 할당합니다.
{ "horses": 0.7, "zebras": 0.2, "unicorns": 0.1 }
-
온도를 높게 설정하면 확률 분포가 평탄해지고 확률의 차이가 줄어들어 ‘유니콘’을 선택할 확률은 높아지고 ‘말’을 선택할 확률은 낮아집니다.
-
Top K를 2로 설정하면 모델은 가장 가능성이 높은 상위 2개 후보인 ‘말’과 ‘얼룩말’만 고려합니다.
-
상위 P를 0.7로 설정하는 경우 모델은 확률 분포의 상위 70% 에 속하는 유일한 후보이므로 “말”만 고려합니다. 상위 P를 0.9로 설정하면 모델은 확률 분포의 상위 90% 에 속하는 “말”과 “얼룩말”을 고려합니다.
길이
일반적으로 파운데이션 모델은 응답의 길이를 제어하는 파라미터를 지원합니다. 이러한 파라미터의 예제가 아래에 나와 있습니다.
-
응답 길이 - 생성된 응답에서 반환할 최소 또는 최대 토큰 수를 지정하는 정확한 값입니다.
-
페널티 - 응답의 출력에 페널티 수준을 지정합니다. 예는 다음과 같습니다.
-
응답의 길이입니다.
-
응답에서 토큰이 반복되었습니다.
-
응답에 포함된 토큰의 빈도입니다.
-
응답의 토큰 유형입니다.
-
-
중지 시퀀스 - 모델이 더 이상 토큰을 생성하지 못하도록 하는 문자 시퀀스를 지정합니다. 모델에서 지정한 중지 시퀀스를 생성하는 경우 해당 시퀀스 이후에는 생성이 중지됩니다.