기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Autopilot에서 대규모 언어 모델을 미세 조정하기 위한 지표
다음 섹션에서는 미세 조정된 대형 언어 모델()을 이해하는 데 사용할 수 있는 지표에 대해 설명합니다LLMs. Autopilot은 데이터 세트를 사용하여 대상을 직접 미세 조정LLM하여 기본 목표 지표인 교차 엔트로피 손실을 개선합니다.
교차 엔트로피 손실은 예측 확률 분포와 훈련 데이터에 있는 단어의 실제 분포 간의 차이를 평가하는 데 널리 사용되는 지표입니다. 교차 엔트로피 손실을 최소화함으로써 모델은 특히 텍스트 생성과 관련된 작업에서 더 정확하고 상황에 맞는 예측을 할 수 있도록 학습합니다.
를 미세 조정LLM한 후의 범위를 사용하여 생성된 텍스트의 품질을 평가할 수 있습니다.ROUGE 점수. 또한 평가 프로세스의 일부로 Perplexity와 교차 엔트로피 훈련 및 검증 손실을 분석할 수 있습니다.
-
Perplexity 손실은 모델이 텍스트 시퀀스에서 다음 단어를 얼마나 잘 예측할 수 있는지를 측정하며, 값이 낮을수록 언어와 문맥을 더 잘 이해함을 나타냅니다.
-
Recall-Oriented Understudy for Gisting Evaluation (ROUGE) 는 자연어 처리(NLP) 및 기계 학습 분야에서 텍스트 요약 또는 텍스트 생성과 같이 기계 생성 텍스트의 품질을 평가하는 데 사용되는 지표 세트입니다. 이는 주로 생성된 텍스트와 검증 데이터 세트의 Ground Truth 참조(사람이 작성한) 텍스트 간의 유사성을 평가합니다.ROUGE 측정값은 시스템에서 생성된 텍스트와 참조 텍스트에서 n-grams(단어의 연속 시퀀스)의 정밀도와 회상을 포함하여 텍스트 유사성의 다양한 측면을 평가하도록 설계되었습니다. 목표는 모델이 참조 텍스트에 있는 정보를 얼마나 잘 캡처하는지 평가하는 것입니다.
에는 몇 가지 변형이 있습니다.ROUGE 사용된 n그램 유형과 평가 중인 텍스트 품질의 특정 측면에 따라 지표가 달라집니다.
다음 목록에는의 이름과 설명이 포함되어 있습니다.ROUGE Autopilot에서 대규모 언어 모델을 미세 조정한 후 사용할 수 있는 지표입니다.
ROUGE-1
,ROUGE-2
-
ROUGE-N, 기본 ROUGE 지표는 시스템에서 생성된 텍스트와 참조 텍스트 간의 n-gram 중첩을 측정합니다.ROUGE-N 는 시스템 생성 텍스트가 참조 텍스트에서 n-gram을 얼마나 잘 캡처하는지 평가하기 위해
n
(여기서1
또는2
)의 다양한 값으로 조정할 수 있습니다. ROUGE-L
-
ROUGE-L (ROUGE-Longest 공통 하위 시퀀스)는 시스템 생성 텍스트와 참조 텍스트 간의 가장 긴 공통 하위 시퀀스를 계산합니다. 이 변형은 내용 겹침 외에도 단어 순서를 고려합니다.
ROUGE-L-Sum
-
ROUGE-L-SUM (요약을 위한 가장 긴 공통 하위 시퀀스)는 텍스트 요약 시스템의 평가를 위해 설계되었습니다. 기계 생성 요약과 참조 요약 사이에서 가장 긴 공통 하위 시퀀스를 측정하는 데 중점을 둡니다.ROUGE-L-SUM 는 텍스트 요약 작업에서 중요한 텍스트의 단어 순서를 고려합니다.