모델 평가 작업에서 프롬프트 데이터세트 및 사용 가능한 평가 차원 사용

다음 섹션에서는 자동 및 인간 기반 모델 평가 작업을 사용하는 방법에 대한 개요를 제공합니다.

모델 평가 작업

모델 평가 작업에서 평가 작업은 프롬프트에서 찾은 정보를 기반으로 모델이 수행하기를 원하는 작업입니다.

모델 평가 작업당 하나의 작업 유형을 선택할 수 있습니다. 다음 섹션을 사용해 각 작업 유형에 대한 자세한 내용을 확인하세요. 또한 각 섹션에는 자동 모델 평가 작업에서만 사용할 수 있는 사용 가능한 기본 제공 데이터세트와 해당 지표의 목록이 포함되어 있습니다.

개방형 생성

개방형 텍스트 생성은 챗봇에 대한 범용 쿼리와 같이 사전 정의된 구조가 없는 프롬프트에 대한 자연어 응답을 생성하는 파운데이션 모델 작업입니다. 개방형 텍스트 생성을 위해 Foundation Model Evaluations(FMEval)은 다음 차원에 따라 모델을 평가할 수 있습니다.

사실적 지식 - 모델이 사실적 지식을 얼마나 잘 인코딩하는지 평가합니다. FMEval은 자체 사용자 지정 데이터세트에 대해 모델을 측정하거나 TREX 오픈 소스 데이터세트를 기반으로 기본 제공 데이터세트를 사용할 수 있습니다.
의미 체계 견고성 - 입력의 의미를 보존하는 상태에서 작은 변경으로 인해 모델 출력이 얼마나 많이 변경되는지 평가합니다. FMEval은 키보드 오타, 대문자에 대한 무작위 변경, 공백의 무작위 추가 또는 삭제로 인해 모델 출력이 어떻게 변경되는지 측정합니다.
프롬프트 고정 관념화 - 모델이 응답에서 편향을 인코딩할 확률을 측정합니다. 이러한 편향에는 인종, 성별, 성적 지향, 종교, 연령, 국적, 장애, 신체적 외모 및 사회경제적 상태에 대한 편향이 포함됩니다. FMEval은 자체 사용자 지정 데이터세트에 대해 모델 응답을 측정하거나 CrowS-Pairs 오픈 소스 챌린지 데이터세트를 기반으로 기본 제공 데이터세트를 사용할 수 있습니다.
유해성 - 유해성 감지 모델을 사용하여 텍스트를 평가합니다. FMEval은 모델에 성적 언급, 무례함, 불합리함, 증오 또는 공격적인 의견, 비속어, 모욕, 유혹, 정체성에 대한 공격 및 위협이 있는지 확인합니다. FMEval은 자체 사용자 지정 데이터세트에 대해 모델을 측정하거나 RealToxicityPrompts, RealToxicityPromptsChallenging, BOLD 데이터세트를 기반으로 기본 제공 데이터세트를 사용할 수 있습니다.

RealToxicityPromptsChallenging은 대규모 언어 모델(LLM)의 한계를 테스트하는 데 사용되는 RealToxicityPrompts의 하위 집합입니다. 또한 LLM이 유해성 텍스트 생성에 취약한 영역을 식별합니다.

다음 유해성 감지기로 모델을 평가할 수 있습니다.
- UnitaryAI Detoxify-unbiased - Toxic Comment Classification Challenge 및 Jigsaw Unintended Bias in Toxicity Classification에 대해 훈련된 다중 레이블 텍스트 분류기입니다. 이 모델은 유해성, 심각한 유해성, 외설성, 위협, 모욕, 성적으로 노골적인 표현 및 정체성 공격 등의 클래스에 대한 7 점수를 제공합니다.
- Toxigen-roberta – ToxiGen 데이터세트에서 미세 조정된 바이너리 RoBERTa 기반 텍스트 분류기입니다. ToxiGen 데이터세트에는 소수 그룹과 관련된 미묘하고 암시적인 유해성이 있는 문장이 포함되어 있습니다.

텍스트 요약

텍스트 요약은 뉴스, 법률 문서, 학술 논문, 콘텐츠 미리 보기, 콘텐츠 큐레이션 요약 작성 등의 작업에 사용됩니다. 파운데이션 모델 훈련에 사용된 텍스트의 모호성, 일관성(coherence), 편견, 유창성, 정보 손실, 정확성, 관련성 또는 문맥 불일치는 응답의 품질에 영향을 미칠 수 있습니다. FMEval은 자체 사용자 지정 데이터세트에 대해 모델을 평가하거나 Government Report Dataset 및 Gigaword 데이터세트를 기반으로 기본 제공 데이터세트를 사용할 수 있습니다. 텍스트 요약의 경우 FMEval은 모델에 대해 다음을 평가할 수 있습니다.

정확도 - 골드 스탠다드로 허용되는 참조 요약과 요약의 유사성을 나타내는 숫자 점수입니다. 점수의 숫자가 크면 요약의 품질이 높음을 나타냅니다. 점수의 숫자가 작으면 요약이 좋지 않음을 나타냅니다. 다음 지표는 요약의 정확도를 평가하는 데 사용됩니다.
- ROUGE-N - 참조와 모델 요약 간의 N-gram 중복을 계산합니다.
- Meteor - 참조와 모델 요약 간의 단어 중복을 계산하는 동시에 바꿔 말하기도 고려합니다.
- BERTScore - 요약 및 참조에 대한 문장 임베딩을 계산하고 비교합니다. FMEval은 roberta-large-mnli 또는 microsoft/deberta-xlarge-mnli 모델을 사용하여 임베딩을 계산합니다.
유해성 - 생성된 요약을 유해성 감지기 모델을 사용하여 계산한 점수입니다. 자세한 내용은 이전 개방형 생성 작업의 유해성 섹션을 참조하세요.
의미 체계 견고성 - 입력의 의미를 보존하는 상태에서 작은 변경으로 인해 모델의 텍스트 요약 품질이 얼마나 많이 변경되는지 측정합니다. 이러한 변경의 예로는 오타, 대문자로 무작위 변경, 공백 무작위 추가 또는 삭제 등이 있습니다. 의미 체계 견고성은 교란되지 않은 텍스트 요약과 교란된 텍스트 요약 간의 절대 정확도 차이를 사용합니다. 정확도 알고리즘은 이 섹션의 앞부분에서 설명한 대로 ROUGE-N, Meteor 및 BERTScore 지표를 사용합니다.

질문 응답

질문 답변은 자동 헬프데스크 응답 생성, 정보 검색, e-러닝 등의 작업에 사용됩니다. FMEval은 자체 사용자 지정 데이터세트에 대해 모델을 평가하거나 BoolQ, TriviaQA 및 Natural Questions 데이터세트를 기반으로 기본 제공 데이터세트를 사용할 수 있습니다. 질문 답변을 위해 FMEval은 다음에 대해 모델을 평가할 수 있습니다.

정확도 - 생성된 답변을 참조에 주어진 질문 답변 쌍과 비교하는 평균 점수입니다. 점수는 다음 방법에서 얻은 값의 평균입니다.
- 정확한 일치 - 정확한 일치에는 바이너리 점수 1이 할당되고, 정확한 일치가 아닐 경우 0이 할당됩니다.
- 거의 정확한 일치 - 구두점과 문법적 요소(예: the, a, and)가 제거된 후(정규화) 일치에 바이너리 점수 1이 할당됩니다.
- 단어에 대한 F1 - F1 점수, 즉 정규화된 응답과 참조 간의 정밀도 및 리콜 조화 평균입니다. F1 점수는 정밀도의 2배에 리콜을 곱한 값을 정밀도(P)와 리콜(R)의 합계로 나눈 값으로, F1 = (2*P*R) / (P + R)입니다.
  
  이전 계산에서 정밀도는 True Positive(TP)의 수를 True Positive와 False Positive(FP)의 합계로 나눈 값으로, P = (TP)/(TP+FP)입니다.
  
  리콜은 TP의 수를 TP와 False Negative(FN)의 합으로 나눈 값으로, R = (TP)/(TP+FN)입니다.
  
  단어에 대한 F1 점수가 높을수록 응답 품질이 높음을 나타냅니다.
의미 체계 견고성 - 입력의 의미를 보존하는 상태에서 작은 변경으로 인해 모델의 텍스트 요약 품질이 얼마나 많이 변경되는지 측정합니다. 이러한 변경의 예로는 키보드 오타, 숫자를 단어로 잘못 변환, 대문자로 무작위 변경, 공백 무작위 추가 또는 삭제 등이 있습니다. 의미 체계 견고성은 교란되지 않은 텍스트 요약과 교란된 텍스트 요약 간의 절대 정확도 차이를 사용합니다. 정확도는 앞서 설명한 대로 정확한 일치, 거의 정확한 일치 및 단어에 대한 F1을 사용하여 측정됩니다.
유해성 - 점수는 생성된 답변을 유해성 감지기 모델을 사용하여 평가합니다. 자세한 내용은 이전 개방형 생성 작업의 유해성 섹션을 참조하세요.

분류

텍스트를 미리 정의된 범주로 분류하려면 분류를 사용합니다. 텍스트 분류를 사용하는 애플리케이션에는 콘텐츠 추천, 스팸 탐지, 언어 식별 및 소셜 미디어의 추세 분석이 포함됩니다. 불균형, 모호, 노이즈가 있는 데이터, 레이블링의 편향 등은 분류에서 오류를 일으킬 수 있는 몇 가지 문제입니다. FMEval은 Women’s ECommerce Clothing Reviews 데이터세트를 기반으로 기본 제공 데이터세트 및/또는 다음에 대한 자체 프롬프트 데이터세트에 대해 모델을 평가합니다.

정확도 - 예측 클래스를 레이블과 비교하는 점수입니다. 정확도는 다음 지표를 사용하여 측정됩니다.
- 분류 정확도 - 예측된 레이블이 실제 레이블과 동일하면 바이너리 점수가 1이고, 동일하지 않으면 0입니다.
- 정밀도 - 전체 데이터세트에 대해 계산된 모든 Positive에 대한 True Positive의 비율입니다. False Positive를 줄이는 것이 중요할 때는 정밀도가 적절한 측정값입니다. 각 데이터 포인트의 점수는 multiclass_average_strategy 파라미터에 대한 다음 값을 사용하여 집계할 수 있습니다. 각 파라미터는 다음 예시에 나열되어 있습니다.
- 리콜 - 전체 데이터세트에 대해 계산된 True Positive와 False Negative의 합계에 대한 True Positive의 비율입니다. False Negative를 줄이는 것이 중요할 때는 리콜이 적절한 측정값입니다. 각 데이터 포인트의 점수는 multiclass_average_strategy 파라미터에 대한 다음 값을 사용하여 집계할 수 있습니다.
  - micro(기본값) - 모든 클래스에 대한 True Positive의 합계를 True Positive와 False Negative의 합계로 나눈 값입니다. 이 집계 유형은 모든 클래스를 동일하게 고려하면서 모델의 전체 예측 정확도를 측정합니다. 예를 들어, 이 집계는 모든 클래스에 동일한 가중치를 부여하므로 모델이 희귀 질환을 비롯해 질병이 있는 환자를 올바르게 분류할 수 있는지 평가할 수 있습니다.
  - macro - 각 클래스에 대해 계산된 리콜 값의 합계를 클래스 수로 나눈 값입니다. 이 집계 유형은 각 클래스에 동일한 가중치를 부여하면서 각 클래스에 대한 모델의 예측 정확도를 측정합니다. 예를 들어, 이 집계는 각 질병의 유병률 또는 희귀성과 관계없이 모델이 모든 질병을 예측할 수 있는지 평가할 수 있습니다.
  - samples(멀티클래스 분류만 해당) - 모든 샘플에 대한 True Positive의 합계와 모든 샘플에 대한 True Positive 및 False Negative의 합계의 비율입니다. 멀티클래스 분류의 경우 샘플은 각 클래스에 대해 예측된 응답 세트로 구성됩니다. 이 집계 유형은 멀티클래스 문제에 대한 각 샘플의 리콜을 세분화한 측정값을 제공합니다. 예를 들어 샘플별로 집계하면 각 샘플을 동등하게 취급하므로 이 집계는 모델이 희귀 질환이 있는 환자에 대한 올바른 진단을 예측하는 동시에 False Negative도 최소화할 수 있는지 평가할 수 있습니다.
  - weighted - 한 클래스의 가중치에 동일한 클래스에 대한 리콜을 곱하고 모든 클래스에 대해 합산합니다. 이 집계 유형은 클래스 간에 다양한 중요도를 수용하면서 전체 리콜의 측정치를 제공합니다. 예를 들어, 이 집계는 모델이 환자의 올바른 진단을 예측하고 생명을 위협하는 질병에 더 높은 가중치를 부여할 수 있는지 평가할 수 있습니다.
  - binary - pos_label 값이 지정된 클래스에 대해 계산된 리콜입니다. 이 집계 유형은 지정되지 않은 클래스를 무시하고 단일 클래스에 대한 전반적인 예측 정확도를 제공합니다. 예를 들어 이 집계를 통해 모델이 전염성이 높으며 생명을 위협하는 특정 질병에 대해 모집단을 선별할 수 있는지 평가할 수 있습니다.
  - none - 각 클래스에 대해 계산된 리콜입니다. 클래스별 리콜은 오류에 대한 페널티가 클래스마다 크게 다를 때 데이터의 클래스 불균형을 해결하는 데 도움이 될 수 있습니다. 예를 들어, 이 집계는 모델이 특정 질병이 있을 수 있는 모든 환자를 얼마나 잘 식별할 수 있는지 평가할 수 있습니다.
- 균형 분류 정확도(BCA) - 바이너리 분류에 대해 리콜과 True Negative 비율의 합계를 2로 나눈 값입니다. True Negative 비율은 True Negative의 수를 True Negative와 False Negative의 합계로 나눈 값입니다. 멀티클래스 분류의 경우 BCA는 각 클래스에 대한 리콜 값의 합계를 클래스 수로 나누어 계산됩니다. BCA는 False Positive와 False Negative를 모두 예측하는 데 따르는 페널티가 높을 때 도움이 될 수 있습니다. 예를 들어, BCA는 모델이 침습 치료가 진행되는 전염성이 높은 치명적인 질병의 수를 얼마나 잘 예측할 수 있는지 평가할 수 있습니다.
의미 체계 견고성 - 입력의 의미를 보존하는 상태에서 작은 변경으로 인해 모델 출력이 얼마나 많이 변경되는지 평가합니다. FMEval은 키보드 오타, 대문자에 대한 무작위 변경, 공백의 무작위 추가 또는 삭제로 인한 모델 출력을 측정합니다. 의미 체계 견고성은 교란되지 않은 텍스트 요약과 교란된 텍스트 요약 간의 절대 정확도 차이 점수를 측정합니다.

파운데이션 모델 평가 유형

다음 섹션에서는 파운데이션 모델의 인간 평가 유형과 알고리즘 평가 유형에 대한 세부 정보를 제공합니다.

인간 평가

인간이 모델을 평가하려면 지표 및 관련 지표 유형을 정의해야 합니다. 둘 이상의 모델을 평가하려면 비교 또는 개별 평가 메커니즘을 사용할 수 있습니다. 한 모델을 평가하려면 개별 평가 메커니즘을 사용해야 합니다. 텍스트 관련 작업에는 다음 등급 메커니즘을 적용할 수 있습니다.

(비교) 리커트 척도 - 비교 - 인간 평가자는 지침에 따라 5점 리커트 척도로 두 응답 중 선호도를 표시합니다. 최종 보고서에서 결과는 전체 데이터세트에 대한 평가자의 선호도 수준을 나타내는 등급 히스토그램으로 표시됩니다. 평가자가 기대치에 따라 응답을 평가하는 방법을 알 수 있도록 지침에 5점 척도의 중요 포인트를 정의합니다.
(비교) 선택 버튼 - 지침에 따라 인간 평가자가 라디오 버튼을 사용하여 다른 응답보다 선호하는 응답을 표시할 수 있습니다. 최종 보고서의 결과는 각 모델에 대해 작업자가 선호하는 응답의 백분율로 표시됩니다. 지침에 평가 방법을 명확하게 설명합니다.
(비교) 서수 순위 - 인간 평가자가 프롬프트에 대해 선호하는 응답의 순위를 사용자 지침에 따라 1부터 시작하여 순서대로 매길 수 있습니다. 최종 보고서에서 결과는 전체 데이터세트에 대한 순위를 나타내는 히스토그램으로 표시됩니다. 지침에서 1순위가 의미하는 바를 정의합니다.
(개별) 추천/반대 - 인간 평가자가 사용자의 지침에 따라 모델의 각 응답을 허용 또는 비허용으로 평가할 수 있습니다. 최종 보고서에서 결과는 각 모델에 대해 평가자의 추천 등급을 받은 총 등급 수의 백분율로 표시됩니다. 이 등급 지정 방법을 사용하여 하나 이상의 모델을 평가할 수 있습니다. 두 모델이 포함된 평가에서 이 옵션을 사용하는 경우 UI는 작업 팀에 각 모델 응답에 대한 추천 및 반대 옵션을 제공합니다. 최종 보고서에는 각 모델에 대한 집계된 결과가 개별적으로 표시됩니다. 작업 팀에 대한 지침에서 허용되는 응답이 무엇인지 정의합니다.
(개별) 리커트 척도 - 개별 - 인간 평가자가 5점 리커트 척도로 사용자 지침에 따라 모델의 응답을 얼마나 강력하게 승인하는지 표시할 수 있습니다. 최종 보고서에서 결과는 전체 데이터세트에 대한 평가자의 5점 척도를 나타내는 히스토그램으로 표시됩니다. 모델이 하나 이상 포함된 평가에 이 등급 지정 방법을 사용할 수 있습니다. 하나 이상의 모델이 포함된 평가에 이 등급 지정 방법을 사용하면 각 모델 응답에 대해 작업 팀에 5점 리커트 척도가 제시됩니다. 최종 보고서에는 각 모델에 대한 집계된 결과가 개별적으로 표시됩니다. 평가자가 기대치에 따라 응답을 평가하는 방법을 알 수 있도록 지침에 5점 척도의 중요 포인트를 정의합니다.

자동 평가

자동 평가는 기본 제공 데이터세트 및 알고리즘을 활용하거나 사용 사례에 맞는 자체 프롬프트 데이터세트를 사용할 수 있습니다. 기본 제공 데이터세트는 각 작업에 따라 다르며 다음 섹션에 나열되어 있습니다. 작업 및 관련 지표와 데이터세트에 대한 요약은 다음 파운데이션 모델 요약 평가 섹션의 표를 참조하세요.

파운데이션 모델 평가 요약

다음 표에는 인간 평가와 자동 평가에 대한 모든 평가 작업, 지표 및 기본 제공 데이터세트가 요약되어 있습니다.

Task	인간 평가	인간 지표	자동 평가	자동 지표	자동 기본 제공 데이터세트
개방형 생성	유창성, 일관성(coherence), 유해성, 정확도, 일관성(consistency), 관련성, 사용자 지정	기본 설정 속도, 기본 설정 강도, 기본 설정 순위, 승인 속도, 승인 강도	사실적 지식		TREX
			의미 체계 견고성		TREX
					BOLD
					WikiText
			프롬프트 고정 관념화		CrowS-Pairs
			유해성		RealToxicityPrompts
					BOLD
텍스트 요약			정확도	ROUGE-N	Government Report Dataset
				BERTScore	Gigaword
					Government Report Dataset
					Gigaword
					Government Report Dataset
					Gigaword
질문 응답			정확도	정확한 일치	BoolQ
				거의 정확한 일치	NaturalQuestions
				단어에 대한 F1	TriviaQA
			의미 체계 견고성		BoolQ
					NaturalQuestions
					TriviaQA
			유해성		BoolQ
					NaturalQuestions
					TriviaQA
텍스트 분류			정확도	분류 정확도	Women's Ecommerce Clothing Reviews
				정밀도	Women's Ecommerce Clothing Reviews
				재현율	Women's Ecommerce Clothing Reviews
				균형 분류 정확도	Women's Ecommerce Clothing Reviews
			의미 체계 견고성		Women's Ecommerce Clothing Reviews

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

시작

정확도