기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
다음 섹션에서는 미세 조정된 대규모 언어 모델(LLM)을 이해하는 데 사용할 수 있는 지표를 설명합니다. Autopilot은 데이터세트를 사용하여 대상 LLM을 직접 미세 조정하여 기본 목표 지표인 교차 엔트로피 손실을 개선합니다.
교차 엔트로피 손실은 예측 확률 분포와 훈련 데이터에 있는 단어의 실제 분포 간의 차이를 평가하는 데 널리 사용되는 지표입니다. 교차 엔트로피 손실을 최소화함으로써 모델은 특히 텍스트 생성과 관련된 작업에서 더 정확하고 상황에 맞는 예측을 할 수 있도록 학습합니다.
LLM을 미세 조정한 후에는 다양한 ROUGE 점수를 사용하여 생성된 텍스트의 품질을 평가할 수 있습니다. 또한 평가 프로세스의 일부로 Perplexity와 교차 엔트로피 훈련 및 검증 손실을 분석할 수 있습니다.
-
Perplexity 손실은 모델이 텍스트 시퀀스에서 다음 단어를 얼마나 잘 예측할 수 있는지를 측정하며, 값이 낮을수록 언어와 문맥을 더 잘 이해함을 나타냅니다.
-
Recall-Oriented Understudy for Gisting Evaluation (ROUGE)은 자연어 처리(NLP) 및 기계 학습 분야에서 텍스트 요약 또는 텍스트 생성과 같은 기계 생성 텍스트의 품질을 평가하는 데 사용되는 일련의 지표입니다. 이는 주로 생성된 텍스트와 검증 데이터세트의 기본 진실 참조(인간이 작성한) 텍스트 간의 유사성을 평가합니다. ROUGE 측정값은 시스템에서 생성된 텍스트와 참조 텍스트에서 n그램(단어의 연속 시퀀스)의 정밀도와 회상을 포함하여 텍스트 유사성의 다양한 측면을 평가하도록 설계되었습니다. 목표는 모델이 참조 텍스트에 있는 정보를 얼마나 잘 캡처하는지 평가하는 것입니다.
사용된 n-gram 유형과 평가 대상 텍스트 품질의 특정 측면에 따라 ROUGE 지표에는 여러 가지 변형이 있습니다.
다음 목록에는 Autopilot에서 대규모 언어 모델을 미세 조정한 후 사용할 수 있는 ROUGE 지표의 이름과 설명이 나와 있습니다.
ROUGE-1
,ROUGE-2
-
ROUGE 기본 지표인 ROUGE-N는 시스템 생성 텍스트와 참조 텍스트 간의 n-gram 중복을 측정합니다. ROUGE-N은
n
(여기서1
또는2
)의 다양한 값으로 조정하여 시스템 생성 텍스트가 참조 텍스트에서 n-gram을 얼마나 잘 캡처하는지 평가할 수 있습니다. ROUGE-L
-
ROUGE-L(ROUGE-Longest 공통 서브시퀀스)은 시스템에서 생성된 텍스트와 참조 텍스트 사이의 가장 긴 공통 서브시퀀스를 계산합니다. 이 변형은 내용 겹침 외에도 단어 순서를 고려합니다.
ROUGE-L-Sum
-
ROUGE-L-SUM(요약에 사용되는 가장 긴 공통 하위 시퀀스)은 텍스트 요약 시스템의 평가를 위해 설계되었습니다. 기계 생성 요약과 참조 요약 간의 가장 긴 공통 하위 시퀀스를 측정하는 데 중점을 둡니다. ROUGE-L-SUM은 텍스트 요약 작업에 중요한 텍스트의 단어 순서를 고려합니다.