추론 파라미터를 사용한 영향 응답 생성 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

추론 파라미터를 사용한 영향 응답 생성

모델 추론을 실행할 때 추론 파라미터를 조정하여 모델 응답에 영향을 줄 수 있습니다. 추론 파라미터는 모델이 생성 중에 고려하는 가능한 출력 풀을 변경하거나 최종 응답을 제한할 수 있습니다. 다양한 모델의 추론 파라미터에 대해 알아보려면 을 참조하십시오. 파운데이션 모델의 추론 요청 파라미터 및 응답 필드

다음 범주의 파라미터는 여러 모델에서 흔히 볼 수 있습니다.

무작위성과 다양성

주어진 모든 시퀀스의 경우 시퀀스의 다음 토큰에 대한 옵션의 확률 분포를 확인할 수 있습니다. 출력에 각 토큰을 생성하기 위해 모델은 이 분포에서 샘플링합니다. 무작위성과 다양성은 모델 응답의 변수량을 나타냅니다. 분포를 제한하거나 조정하여 이러한 요인을 제어할 수 있습니다. 파운데이션 모델은 일반적으로 다음과 같은 파라미터를 지원하여 응답의 무작위성과 다양성을 제어합니다.

  • 온도 - 예측 출력의 확률 분포 형태에 영향을 미치고 모델이 낮은 확률 출력을 선택할 가능성에 영향을 줍니다.

    • 모델이 더 높은 확률의 출력을 선택하도록 영향을 미치려면 더 낮은 값을 선택합니다.

    • 모델이 더 낮은 확률의 출력을 선택하도록 영향을 미치려면 더 높은 값을 선택합니다.

    전문적 관점에서 온도는 다음 토큰의 확률 질량 함수를 조절합니다. 온도가 낮을수록 함수의 강도가 높아져 결정론적 응답이 나타나고, 온도가 높을수록 함수가 평면화되어 무작위 응답이 더 많아집니다.

  • Top K - 모델이 다음 토큰을 고려할 가능성이 가장 높은 후보의 수입니다.

    • 풀 크기를 줄이고 옵션을 더 가능성이 높은 출력으로 제한하려면 더 낮은 값을 선택합니다.

    • 풀 크기를 늘리고 모델에서 더 가능성이 낮은 출력을 고려하도록 하려면 더 높은 값을 선택합니다.

    예를 들어 상위 K 값을 50으로 선택하면 모델은 시퀀스에서 다음 토큰이 될 가능성이 가장 높은 50개의 토큰 중에서 선택합니다.

  • Top P - 모델이 다음 토큰을 고려할 가능성이 가장 높은 후보의 비율입니다.

    • 풀 크기를 줄이고 옵션을 더 가능성이 높은 출력으로 제한하려면 더 낮은 값을 선택합니다.

    • 풀 크기를 늘리고 모델에서 더 가능성이 낮은 출력을 고려하도록 하려면 더 높은 값을 선택합니다.

    전문적 관점에서 모델은 응답 집합에 대한 누적 확률 분포를 계산하고 분포의 상위 P%만 고려합니다.

    예를 들어 상위 P 값을 0.8로 선택하면 모델은 시퀀스에서 다음 토큰 확률 분포가 될 가능성이 가장 높은 상위 80%에서 선택합니다.

다음 표에는 이 파라미터의 효과가 요약되어 있습니다.

파라미터 낮은 값에 따른 영향 높은 값에 따른 영향
온도 높은 확률 토큰의 가능성 증가

낮은 확률 토큰의 가능성 감소

낮은 확률 토큰의 가능성 증가

높은 확률 토큰의 가능성 감소

Top K 낮은 확률 토큰 삭제 낮은 확률 토큰 허용
Top P 낮은 확률 토큰 삭제 낮은 확률 토큰 허용

이러한 파라미터를 이해하기 위한 예제로 I hear the hoof beats of " 프롬프트를 참조하세요. 모델이 다음 토큰의 후보로 다음 세 단어를 결정한다고 가정해 보겠습니다. 또한 모델은 각 단어에 확률을 할당합니다.

{ "horses": 0.7, "zebras": 0.2, "unicorns": 0.1 }
  • 온도를 높게 설정하면 확률 분포가 평탄해지고 확률의 차이가 줄어들어 ‘유니콘’을 선택할 확률은 높아지고 ‘말’을 선택할 확률은 낮아집니다.

  • Top K를 2로 설정하면 모델은 가장 가능성이 높은 상위 2개 후보인 ‘말’과 ‘얼룩말’만 고려합니다.

  • 상위 P를 0.7로 설정하는 경우 모델은 확률 분포의 상위 70% 에 속하는 유일한 후보이므로 “말”만 고려합니다. 상위 P를 0.9로 설정하면 모델은 확률 분포의 상위 90% 에 속하는 “말”과 “얼룩말”을 고려합니다.

길이

일반적으로 파운데이션 모델은 응답의 길이를 제어하는 파라미터를 지원합니다. 이러한 파라미터의 예제가 아래에 나와 있습니다.

  • 응답 길이 - 생성된 응답에서 반환할 최소 또는 최대 토큰 수를 지정하는 정확한 값입니다.

  • 페널티 - 응답의 출력에 페널티 수준을 지정합니다. 예는 다음과 같습니다.

    • 응답의 길이입니다.

    • 응답에서 토큰이 반복되었습니다.

    • 응답에 포함된 토큰의 빈도입니다.

    • 응답의 토큰 유형입니다.

  • 중지 시퀀스 - 모델이 더 이상 토큰을 생성하지 못하도록 하는 문자 시퀀스를 지정합니다. 모델에서 지정한 중지 시퀀스를 생성하는 경우 해당 시퀀스 이후에는 생성이 중지됩니다.