모델 평가 작업에서 프롬프트 데이터 세트 및 사용 가능한 평가 차원 사용 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

모델 평가 작업에서 프롬프트 데이터 세트 및 사용 가능한 평가 차원 사용

다음 섹션에서는 자동 및 인간 기반 모델 평가 작업을 사용하는 방법에 대한 개요를 제공합니다.

모델 평가 작업

모델 평가 작업에서 평가 작업은 프롬프트에 있는 정보를 기반으로 모델이 수행하게 하려는 작업입니다.

모델 평가 작업당 하나의 작업 유형을 선택할 수 있습니다. 다음 섹션을 사용하여 각 작업 유형에 대해 자세히 알아보세요. 또한 각 섹션에는 사용 가능한 기본 제공 데이터 세트 목록과 자동 모델 평가 작업에만 사용할 수 있는 해당 지표가 포함되어 있습니다.

개방형 세대

개방형 텍스트 생성은 챗봇에 대한 범용 쿼리와 같이 사전 정의된 구조가 없는 프롬프트에 대한 자연어 응답을 생성하는 파운데이션 모델 작업입니다. 개방형 텍스트 생성을 위해 Foundation 모델 평가(FMEval)는 다음 차원에 따라 모델을 평가할 수 있습니다.

  • 사실 지식 - 모델이 사실 지식을 얼마나 잘 인코딩하는지 평가합니다. FMEval 는 자체 사용자 지정 데이터 세트와 비교하여 모델을 측정하거나 를 기반으로 기본 제공 데이터 세트를 사용할 수 있습니다. TREX 오픈 소스 데이터 세트.

  • 의미론적 견고성 - 입력의 작은 의미론적 보존 변경으로 인해 모델 출력이 얼마나 많이 변경되는지 평가합니다. FMEval 는 키보드 오타, 대문자에 대한 무작위 변경, 공백의 무작위 추가 또는 삭제로 인해 모델 출력이 어떻게 변경되는지를 측정합니다.

  • 프롬프트 고정 관념 - 응답에서 편향을 암호화하는 모델의 확률을 측정합니다. 이러한 편향에는 인종, 성별, 성적 지향, 종교, 연령, 국적, 장애, 신체적 외모 및 사회경제적 상태에 대한 편향이 포함됩니다. FMEval 는 자체 사용자 지정 데이터 세트에 대한 모델 응답을 측정하거나 CrowS-Pairs 오픈 소스 챌린지 데이터 세트.

  • 독성 - 독성 감지 모델을 사용하여 텍스트를 평가합니다. FMEval 는 모델에 성적 참조, 무례, 불합리, 증오 또는 공격적인 의견, 비속어, 모욕, 유혹, 자격 증명에 대한 공격 및 위협이 있는지 확인합니다. FMEval 는 자체 사용자 지정 데이터 세트와 비교하여 모델을 측정하거나 를 기반으로 기본 제공 데이터 세트를 사용할 수 있습니다. RealToxicityPrompts, RealToxicityPromptsChallenging, 및 BOLD 데이터 세트.

    RealToxicityPromptsChallenging 는 의 하위 집합입니다.RealToxicityPrompts 는 대형 언어 모델의 제한을 테스트하는 데 사용됩니다(LLM). 또한 LLMs가 독성 텍스트를 생성하기에 취약한 영역을 식별합니다.

    다음 독성 감지기로 모델을 평가할 수 있습니다.

텍스트 요약

텍스트 요약은 뉴스, 법률 문서, 학술 논문, 콘텐츠 미리 보기 및 콘텐츠 큐레이션에 대한 요약 생성과 같은 작업에 사용됩니다. 다음은 응답의 품질에 영향을 미칠 수 있습니다. 모호성, 일관성, 편향, 파운데이션 모델을 훈련하는 데 사용되는 텍스트의 유창성, 정보 손실, 정확성, 관련성 또는 컨텍스트 불일치. FMEval 는 자체 사용자 지정 데이터 세트와 비교하여 모델을 평가하거나 를 기반으로 기본 제공 데이터 세트를 사용할 수 있습니다. Government Report DatasetGigaword 데이터 세트. 텍스트 요약의 경우 FMEval는 모델에 다음 사항이 있는지 평가할 수 있습니다.

  • 정확도 - 최적 표준으로 허용되는 참조 요약과 요약의 유사성을 나타내는 숫자 점수입니다. 높은 숫자 점수는 요약의 품질이 높음을 나타냅니다. 숫자 점수가 낮으면 요약이 좋지 않음을 나타냅니다. 다음 지표는 요약의 정확도를 평가하는 데 사용됩니다.

    • ROUGE-N - 컴퓨팅 N-gram 는 참조와 모델 요약 간에 겹칩니다.

    • Meteor - 참조와 모델 요약 간의 단어 중복을 계산하는 동시에 재분배도 고려합니다.

    • BERTScore - 요약 및 참조에 대한 문장 임베딩을 계산하고 비교합니다. FMEval 는 roberta-large-mnli 또는 마이크로소프트/deberta-xlarge-mnli 모델을 사용하여 임베딩을 계산합니다.

  • 독성 - 독성 탐지기 모델을 사용하여 계산된 생성된 요약 점수입니다. 자세한 내용은 이전 개방형 생성 작업의 독성 섹션을 참조하세요.

  • 의미론적 견고성 - 입력의 작은 의미론적 보존 변경으로 인해 모델 텍스트 요약의 품질이 얼마나 변경되는지 측정한 값입니다. 이러한 변경의 예로는 오타, 대문자에 대한 무작위 변경, 공백의 무작위 추가 또는 삭제 등이 있습니다. 의미론적 견고성은 방해받지 않는 텍스트 요약과 방해되는 텍스트 요약 간의 절대 정확도 차이를 사용합니다. 정확도 알고리즘은 ROUGE-N, MeteorBERTScore 이 섹션에서 앞서 설명한 대로 지표.

질문 응답

질문 응답은 자동 헬프데스크 응답 생성, 정보 검색 및 e-러닝과 같은 작업에 사용됩니다. FMEval 는 자체 사용자 지정 데이터 세트와 비교하여 모델을 평가하거나 BoolQ, TriviaQANatural Questions 데이터 세트. 질문에 답변하기 위해 FMEval는 모델에 다음 사항이 있는지 평가할 수 있습니다.

  • 정확도 - 생성된 응답을 참조에 지정된 질문 응답 페어와 비교하는 평균 점수입니다. 점수는 다음 방법의 평균입니다.

    • 정확한 일치 - 의 바이너리 점수가 정확한 일치에 할당1되며, 그렇지 0 않으면 됩니다.

    • 쿼시-정확 일치 - 의 바이너리 점수는 구두점과 문법 문서(예: , a, 및)가 제거된 후(정규화) 일치에 1 할당됩니다.

    • 단어에 대한 F1 - F1 점수 또는 정규화된 응답과 참조 간의 정밀도 및 회상 조화 평균입니다. F1 점수는 정밀도에 회상을 곱한 값을 정밀도(P)와 회상(R)의 합계로 나눈 값 또는 F1 = (2*P*R) / (P + R)과 같습니다.

      이전 계산에서 정밀도는 true positive(TP) 수를 true positive와 false positive(FP)의 합계로 나눈 값 또는 P = (TP)/(TP+FP)로 정의됩니다.

      회상은 참 양수 수를 참 양수와 거짓 음수(FN) 또는 R = (TP)/(TP+FN)의 합계로 나눈 값으로 정의됩니다.

      단어보다 F1 점수가 높을수록 응답 품질이 높음을 나타냅니다.

  • 의미론적 견고성 - 입력의 작은 의미론적 보존 변경으로 인해 모델 텍스트 요약의 품질이 얼마나 변경되는지 측정한 값입니다. 이러한 변경의 예로는 키보드 오타, 숫자에서 단어로의 부정확한 변환, 대문자로의 무작위 변경, 공백의 무작위 추가 또는 삭제 등이 있습니다. 의미론적 견고성은 방해받지 않는 텍스트 요약과 방해되는 텍스트 요약 간의 절대 정확도 차이를 사용합니다. 정확도는 앞서 설명한 대로 단어에 대해 정확히 일치, 준정확도 일치 및 F1을 사용하여 측정됩니다.

  • 독성 - 점수는 독성 탐지기 모델을 사용하여 생성된 응답을 평가합니다. 자세한 내용은 이전 개방형 생성 작업의 독성 섹션을 참조하세요.

분류

분류는 텍스트를 사전 정의된 범주로 분류하는 데 사용됩니다. 텍스트 분류를 사용하는 애플리케이션에는 콘텐츠 추천, 스팸 탐지, 언어 식별 및 소셜 미디어의 추세 분석이 포함됩니다. 불균형, 모호, 노이즈가 많은 데이터, 레이블 지정 편향은 분류 오류를 일으킬 수 있는 몇 가지 문제입니다. FMEval 는 를 기반으로 기본 제공 데이터 세트와 비교하여 모델을 평가합니다. Women’s ECommerce Clothing Reviews 데이터 세트 및/또는 다음에 대한 자체 프롬프트 데이터 세트에 대해.

  • 정확도 - 예측 클래스를 레이블과 비교하는 점수입니다. 정확도는 다음 지표를 사용하여 측정됩니다.

    • 분류 정확도 - 예측된 레이블이 실제 레이블과 동일한1지 여부의 바이너리 점수입니다0.

    • 정밀도 - 전체 데이터 세트에 대해 계산된 모든 양수에 대한 참 양수의 비율입니다. 정밀도는 오탐을 줄이는 것이 중요할 때 적절한 조치입니다. 각 데이터 포인트의 점수는 multiclass_average_strategy 파라미터에 대한 다음 값을 사용하여 집계할 수 있습니다. 각 파라미터는 다음 예제에 나열되어 있습니다.

    • 회상 - 전체 데이터 세트에 대해 계산된 참 양수와 거짓 음수의 합계에 대한 참 양수의 비율입니다. 거짓 부정을 줄이는 것이 중요할 때는 회상이 적절한 조치입니다. 각 데이터 포인트의 점수는 multiclass_average_strategy 파라미터에 대한 다음 값을 사용하여 집계할 수 있습니다.

      • micro (기본값) - 모든 클래스에 대한 참 양수의 합계를 참 양수와 거짓 음수의 합계로 나눈 참 양수의 합계입니다. 이 집계 유형은 모든 클래스를 동일하게 고려하면서 모델의 전체 예측 정확도를 측정합니다. 예를 들어, 이 집계는 모든 클래스에 동일한 가중치를 부여하므로 희귀 질환을 포함한 모든 질병이 있는 환자를 올바르게 분류할 수 있는 모델의 능력을 평가할 수 있습니다.

      • macro - 각 클래스에 대해 계산된 재통화 값의 합계를 클래스 수로 나눈 값입니다. 이 집계 유형은 각 클래스에 대한 가중치와 함께 각 클래스에 대한 모델의 예측 정확도를 측정합니다. 예를 들어, 이 집계는 각 조건의 유병률 또는 희귀성에 관계없이 모든 질병을 예측하는 모델의 능력을 평가할 수 있습니다.

      • samples (다중 클래스 분류만 해당) - 모든 샘플에 대한 참 양수 합계와 모든 샘플에 대한 참 양수 및 거짓 음수 합계의 비율입니다. 다중 클래스 분류의 경우 샘플은 각 클래스에 대해 예측된 응답 집합으로 구성됩니다. 이 집계 유형은 다중 클래스 문제에 대한 각 샘플의 호출을 세분화한 측정값을 제공합니다. 예를 들어 샘플별로 집계하면 각 샘플을 동등하게 취급하기 때문에 이 집계는 희귀 질환이 있는 환자에 대한 올바른 진단을 예측하는 동시에 거짓 음성을 최소화하는 모델의 능력을 평가할 수 있습니다.

      • weighted - 한 클래스의 가중치에 동일한 클래스의 재통화를 곱하고 모든 클래스에 대해 합산합니다. 이 집계 유형은 클래스 간에 다양한 중요도를 수용하면서 전체 재호출의 측정치를 제공합니다. 예를 들어, 이 집계는 환자의 올바른 진단을 예측하고 생명을 위협하는 질병에 더 높은 가중치를 부여하는 모델의 능력을 평가할 수 있습니다.

      • binary - 값 로 지정된 클래스에 대해 계산된 재통화입니다pos_label. 이 집계 유형은 지정되지 않은 클래스를 무시하고 단일 클래스에 대한 전반적인 예측 정확도를 제공합니다. 예를 들어, 이 집계는 전염성이 높은 특정 생명 위협적인 질병에 대해 모집단을 선별하는 모델의 능력을 평가할 수 있습니다.

      • none - 각 클래스에 대해 계산된 재통화입니다. 클래스별 리콜은 오류에 대한 페널티가 클래스마다 크게 다를 때 데이터의 클래스 불균형을 해결하는 데 도움이 될 수 있습니다. 예를 들어, 이 집계는 모델이 특정 질병이 있을 수 있는 모든 환자를 얼마나 잘 식별할 수 있는지 평가할 수 있습니다.

    • 균형 분류 정확도(BCA) - 이진 분류에 2 대해 로 나눈 호출 및 실제 음수 비율의 합계입니다. 실제 음수율은 실제 음수 수를 실제 음수와 거짓 음수의 합계로 나눈 값입니다. 다중 클래스 분류의 경우 BCA는 각 클래스의 재통화 값을 클래스 수로 나눈 합계로 계산됩니다. BCA 는 위양성과 위음성을 모두 예측하는 데 따른 페널티가 높을 때 도움이 될 수 있습니다. 예를 들어 BCA는 모델이 침입 치료로 전염성이 높은 여러 치명적인 질병을 얼마나 잘 예측할 수 있는지 평가할 수 있습니다.

  • 의미론적 견고성 - 입력의 작은 의미론적 보존 변경으로 인해 모델 출력이 얼마나 많이 변경되는지 평가합니다. FMEval 는 키보드 오타, 대문자에 대한 무작위 변경, 공백의 무작위 추가 또는 삭제로 인해 모델 출력을 측정합니다. 의미론적 견고성은 방해받지 않는 텍스트 요약과 방해받는 텍스트 요약 간의 정확도의 절대 차이를 채점합니다.

파운데이션 모델 평가 유형

다음 섹션에서는 파운데이션 모델의 인적 평가 유형과 알고리즘 평가 유형에 대한 세부 정보를 제공합니다.

인적 평가

모델을 사람별로 평가하려면 지표 및 관련 지표 유형을 정의해야 합니다. 둘 이상의 모델을 평가하려면 비교 또는 개별 평가 메커니즘을 사용할 수 있습니다. 한 모델을 평가하려면 개별 평가 메커니즘을 사용해야 합니다. 다음 등급 메커니즘은 모든 텍스트 관련 작업에 적용할 수 있습니다.

  • (비교) 리커트 척도 - 비교 - 인간 평가자는 지침에 따라 5점 리커트 척도로 두 응답 간의 선호도를 표시합니다. 최종 보고서에서는 전체 데이터 세트보다 선호 강도에 따른 평가 히스토그램으로 결과가 표시됩니다. 평가자가 기대치에 따라 응답을 평가하는 방법을 알 수 있도록 지침에 5점 척도의 중요 사항을 정의합니다.

  • (비교) 선택 버튼 - 지침에 따라 인간 평가자가 라디오 버튼을 사용하여 다른 응답보다 선호하는 하나의 응답을 표시할 수 있습니다. 최종 보고서의 결과는 각 모델에 대해 작업자가 선호하는 응답의 백분율로 표시됩니다. 지침에 평가 방법을 명확하게 설명합니다.

  • (비교) 서수 순위 - 인간 평가자가 프롬프트에 대한 기본 응답의 순위를 1부터 시작하여 지침에 따라 순서대로 매길 수 있습니다. 최종 보고서에서 결과는 전체 데이터 세트에 대한 평가자의 순위 히스토그램으로 표시됩니다. 지침1에서 순위가 의미하는 바를 정의해야 합니다.

  • (개인) 썸 업/다운 - 인간 평가자가 지침에 따라 모델의 각 응답을 허용 가능 또는 허용 불가로 평가할 수 있습니다. 최종 보고서에서 결과는 각 모델에 대한 엄지손가락 평가를 받은 평가자의 총 평가 수의 백분율을 보여줍니다. 이 평가 방법을 사용하여 하나 이상의 모델을 평가할 수 있습니다. 두 모델이 포함된 평가에서 이 옵션을 사용하는 경우 UI는 작업 팀에 각 모델 응답에 대한 엄지손가락 위 또는 아래 옵션을 제공합니다. 최종 보고서에는 각 모델에 대한 집계된 결과가 개별적으로 표시됩니다. 작업 팀에 대한 지침에서 허용되는 응답이 무엇인지 정의합니다.

  • (개인) 리커트 척도 - 개인 - 인적 평가자가 지침에 따라 5점 리커트 척도로 모델 응답을 얼마나 강력하게 승인하는지 표시할 수 있습니다. 최종 보고서에서 결과는 전체 데이터 세트에 대한 평가자의 5점 등급 히스토그램을 표시합니다. 이 평가 방법을 사용하여 하나 이상의 모델을 포함하는 평가를 수행할 수 있습니다. 둘 이상의 모델이 포함된 평가에서 이 평가 방법을 선택하면 각 모델 응답에 대해 5점 Likert 척도가 작업 팀에 표시됩니다. 최종 보고서에는 각 모델에 대한 집계된 결과가 개별적으로 표시됩니다. 평가자가 기대치에 따라 응답을 평가하는 방법을 알 수 있도록 지침의 5점 척도에 대한 중요 사항을 정의합니다.

자동 평가

자동 평가는 기본 제공 데이터 세트 및 알고리즘을 활용하거나 사용 사례에 맞는 프롬프트 데이터 세트를 가져올 수 있습니다. 기본 제공 데이터 세트는 각 작업에 따라 다르며 다음 섹션에 나열되어 있습니다. 작업 및 관련 지표와 데이터 세트에 대한 요약은 다음 파운데이션 모델 요약 평가 섹션의 표를 참조하세요.

파운데이션 모델 평가 요약

다음 표에는 인적 평가와 자동 평가 모두에 대한 모든 평가 작업, 지표 및 기본 제공 데이터 세트가 요약되어 있습니다.

작업 인적 평가 인적 지표 자동 평가 자동 지표 자동 내장 데이터 세트

개방형 세대

유창성, 일관성, 독성, 정확성, 일관성, 관련성, 사용자 정의

기본 설정 속도, 기본 설정 강도, 기본 설정 순위, 승인 속도, 승인 강도

사실적 지식

TREX

의미론적 견고성

TREX

BOLD

WikiText

프롬프트 고정 관념

CrowS-Pairs

유해성

RealToxicityPrompts

BOLD

텍스트 요약

정확도

ROUGE-N

Government Report Dataset

BERTScore

Gigaword

Government Report Dataset

Gigaword

Government Report Dataset

Gigaword

질문 응답

정확도

정확한 일치

BoolQ

Quasi exact 매치

NaturalQuestions

단어에 대한 F1

TriviaQA

의미론적 견고성

BoolQ

NaturalQuestions

TriviaQA

유해성

BoolQ

NaturalQuestions

TriviaQA

텍스트 분류

정확도

분류 정확도

Women's Ecommerce Clothing Reviews

정밀도

Women's Ecommerce Clothing Reviews

재현율

Women's Ecommerce Clothing Reviews

균형 잡힌 분류 정확도

Women's Ecommerce Clothing Reviews

의미론적 견고성

Women's Ecommerce Clothing Reviews