의미론적 견고성 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

의미론적 견고성

입력의 작은 의미 체계 보존 변경으로 인해 모델 출력이 변경되는 정도를 평가합니다. Foundation Model Evaluations(FMEval)는 키보드 오타, 대문자에 대한 무작위 변경, 공백의 무작위 추가 또는 삭제로 인해 모델 출력이 어떻게 변경되는지 측정합니다.

Amazon은 Amazon SageMaker Studio에서 의미 완건성 평가를 실행하거나 fmeval라이브러리를 사용할 수 있도록 SageMaker 지원합니다.

  • Studio에서 평가 실행: Studio에서 생성된 평가 작업은 미리 선택된 기본값을 사용하여 모델 성능을 빠르게 평가합니다. 개방형 세대에 대한 의미론적 견고성 평가는 Studio에서 생성할 수 없습니다. fmeval 라이브러리를 사용하여 생성해야 합니다.

  • fmeval 라이브러리를 사용하여 평가 실행: fmeval 라이브러리를 사용하여 생성된 평가 작업은 모델 성능 평가를 구성하는 확장된 옵션을 제공합니다.

지원되는 작업 유형

의미적 견고성 평가는 연결된 기본 제공 데이터 세트가 있는 다음 작업 유형에 대해 지원됩니다. 사용자는 자체 데이터 세트를 가져올 수도 있습니다. 기본적으로 독성 평가를 위해 데이터 세트에서 100개의 무작위 데이터 포인트를 SageMaker 샘플링합니다. fmeval라이브러리를 사용할 때 num_records파라미터를 evaluate 메서드에 전달하여 조정할 수 있습니다. fmeval라이브러리를 사용하여 사실 지식 평가를 사용자 지정하는 방법에 대한 자세한 내용은 섹션을 참조하세요fmeval 라이브러리를 사용하여 워크플로 사용자 지정.

작업 유형 기본 제공 데이터 세트 참고
텍스트 요약

Gigaword , 정부 보고서 데이터 세트

질문 응답

BoolQ, NaturalQuestions, TriviaQA

분류

여성용 E-Commerce 의류 리뷰

개방형 세대

T-REx, BOLD, WikiText-2

섭동 유형

의미 완건성 평가는 다음 세 가지 교란 중 하나를 만듭니다. 평가 작업을 구성할 때 섭동 유형을 선택할 수 있습니다. 세 가지 섭동 모두 NL-Augmenter에서 조정됩니다.

모델 입력의 예: A quick brown fox jumps over the lazy dog

  • Butter Fingers : 인접한 키보드 키를 눌러 Typos가 도입되었습니다.

    W quick brmwn fox jumps over the lazy dig
  • 임의 대문자 : 무작위로 선택한 문자를 대문자로 변경합니다.

    A qUick brOwn fox jumps over the lazY dog
  • 화이트스페이스 추가 제거 : 입력에서 화이트스페이스를 무작위로 추가 및 제거합니다.

    A q uick bro wn fox ju mps overthe lazy dog

계산된 값

이 평가는 원본의 중단되지 않은 입력에 기반한 모델 출력과 일련의 중단된 입력 버전에 기반한 모델 출력 간의 성능 변화를 측정합니다. 평가에 필요한 프롬프트 구조에 대한 자세한 내용은 섹션을 참조하세요Studio에서 자동 모델 평가 작업 생성.

성능 변화는 원래 입력의 점수와 교란된 입력의 점수 간의 평균 차이입니다. 이 성능 변화를 평가하기 위해 측정된 점수는 작업 유형에 따라 달라집니다.

요약

요약 작업의 경우 의미론적 견고성은 연동된 입력을 사용할 때 다음 점수와 각 점수에 대한 델타를 측정합니다. Delta 점수는 원래 입력의 점수와 교란된 입력의 점수 간의 평균 절대 차이를 나타냅니다.

  • 델타 ROUGE 점수: 원본 입력과 교란 입력의 ROUGE 점수 평균 절대 차이입니다. ROUGE 점수는 의 ROUGE 점수와 동일한 방식으로 계산됩니다요약.

  • 델타 METEOR 점수: 원본 입력과 교란 입력의 METEOR 점수 평균 절대 차이입니다. METEOR 점수는 의 METEOR 점수와 동일한 방식으로 계산됩니다요약.

  • Delta BERTScore: 원본 입력과 교란된 입력에 BERTScore 대한 의 평균 절대 차이입니다. 는BERTScores BERTScore의 와 동일한 방식으로 계산됩니다요약.

질문 응답

질문에 답변하는 작업의 경우 의미론적 견고성은 연동된 입력을 사용할 때 다음 점수와 각 점수에 대한 델타를 측정합니다. Delta 점수는 원래 입력의 점수와 교란된 입력의 점수 간의 평균 절대 차이를 나타냅니다.

  • Delta F1 Over Words 점수: 원본 입력과 교란된 입력에 대한 F1 Over Words 점수의 평균 절대 차이입니다. F1 Over Words 점수는 의 F1 Over Words 점수와 동일한 방식으로 계산됩니다질문 응답.

  • Delta Exact Match 점수: 원본 입력과 교란된 입력에 대한 Exact Match 점수의 평균 절대 차이입니다. Exact Match 점수는 의 Exact Match 점수와 동일한 방식으로 계산됩니다질문 응답.

  • Delta Quasi Exact Match 점수: 원본 및 교란 입력에 대한 Quasi Exact Match 점수의 평균 절대 차이입니다. Quasi Exact Match 점수는 의 Quasi Exact Match 점수와 동일한 방식으로 계산됩니다. 질문 응답

  • Delta Precision Over Words 점수: 원본 입력과 교란된 입력에 대한 Precision Over Words 점수의 평균 절대 차이입니다. Precision Over Words 점수는 의 Precision Over Words 점수와 동일한 방식으로 계산됩니다질문 응답.

  • Delta Recall Over Words 점수: 원본 입력과 교란된 입력에 대한 Recall Over Words 점수의 평균 절대 차이입니다. Recall Over Words 점수는 의 Recall Over Words 점수와 동일한 방식으로 계산됩니다질문 응답.

분류

분류 작업의 경우 의미론적 견고성은 교란된 입력을 사용할 때의 정확도와 각 점수에 대한 델타를 측정합니다. Delta 점수는 원래 입력의 점수와 교란된 입력의 점수 간의 평균 절대 차이를 나타냅니다.

  • 델타 정확도 점수: 원본 입력과 교란된 입력의 정확도 점수의 평균 절대 차이입니다. 정확도 점수는 의 정확도 점수와 동일한 방식으로 계산됩니다분류.

개방형 세대

개방형 세대에 대한 의미론적 견고성 평가는 Studio에서 생성할 수 없습니다. 와 함께 fmeval 라이브러리를 사용하여 생성해야 합니다GeneralSemanticRobustness. 개방형 세대의 점수 차이를 계산하는 대신 의미론적 견고성 평가는 원래 입력과 교란된 입력 간의 모델 세대 차이를 측정합니다. 이러한 불일치는 다음 전략을 사용하여 측정됩니다.

  • 단어 오류율(WER): 1세대를 2세대로 변환하기 위해 변경해야 하는 단어의 백분율을 계산하여 두 세대 간의 구문 차이를 측정합니다. 의 계산에 대한 자세한 내용은 HuggingFace Word 오류율 문서를 WER참조하세요.

    • 예:

      • 입력 1: “이것은 고양이입니다”

      • 입력 2: “개입니다”

      • 변경해야 하는 단어 수: 1/4 또는 25%

      • WER: 0.25

  • BERTScore 불일치(BSD): 를 1에서 빼BERTScore서 두 세대 간의 의미 차이를 측정합니다. BSD 는 의미상 유사한 문장이 서로 더 가깝게 포함될 수 WER 있기 때문에 에 포함되지 않은 추가 언어 유연성을 설명할 수 있습니다.

    • 예를 들어 2세대와 3세대WER를 1세대와 개별적으로 비교할 때 는 동일하지만 의미론적 의미를 설명하기 위해 BSD 점수는 다릅니다.

      • gen1(원본 입력):"It is pouring down today"

      • gen2(퍼터링된 입력 1):"It is my birthday today"

      • gen3(퍼터링된 입력 2) :"It is very rainy today"

      • WER(gen1, gen2)=WER(gen2, gen3)=0.4

      • BERTScore(gen1, gen2)=0.67

      • BERTScore(gen1, gen3)=0.92

      • BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33

      • BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08

    • 다음 옵션은 GeneralSemanticRobustnessConfig 파라미터의 일부로 지원됩니다. 

비결정적 모델

온도가 0이 아닌 에서와 같이 모델 생성 전략이 결정적이지 LLMs 않은 경우 입력이 같더라도 출력이 변경될 수 있습니다. 이러한 경우 원본 입력과 교란된 입력에 대한 모델 출력 간의 차이를 보고하면 인위적으로 낮은 견고성을 나타낼 수 있습니다. 비결정적 전략을 설명하기 위해 의미론적 완건성 평가는 동일한 입력을 기반으로 모델 출력 간의 평균 차이를 빼서 불일치 점수를 정규화합니다. 

max(0,d−dbase​)

  • d: 두 세대 간의 불일치 점수(Word Error Rate 또는 BERTScore Disparity)입니다.

  • dbase​: 동일한 입력의 모델 출력 간 불일치.