Amazon Bedrock에서 인간 기반 모델 평가 작업 검토 (콘솔) - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Bedrock에서 인간 기반 모델 평가 작업 검토 (콘솔)

Amazon Bedrock 콘솔을 사용하여 보고서에 제시된 인적 평가 데이터를 검토할 수 있습니다.

모델 평가 보고서 카드에는 제공하거나 선택한 데이터 세트의 총 프롬프트 수와 해당 프롬프트 중 응답을 받은 수가 표시됩니다. 응답 수가 입력 프롬프트 시간의 수보다 작은 경우 (작업에서 구성한 프롬프트당 작업자 수(1,2 또는 3)) Amazon S3 버킷의 데이터 출력 파일을 확인합니다. 프롬프트로 인해 모델에 오류가 발생하여 추론이 검색되지 않았을 수 있습니다. 또한 한 명 이상의 작업자가 모델 출력 응답 평가를 거부했을 수도 있습니다. 작업자의 응답만 지표 계산에 사용됩니다.

Amazon Bedrock 콘솔에서 작업자를 사용한 모델 평가를 시작하려면 다음 절차를 사용합니다.

  1. Amazon Bedrock 콘솔을 엽니다.

  2. 탐색 창에서 모델 평가를 선택합니다.

  3. 다음으로 모델 평가 테이블에서 검토하려는 모델 평가 작업의 이름을 찾습니다. 그런 다음 이름을 선택합니다.

모델 평가 보고서는 보고서 카드를 사용하여 사람이 수행하는 평가 작업 중에 수집된 데이터에 대한 인사이트를 제공합니다. 각 보고서 카드에는 해당 지표에 대해 수집된 데이터를 나타내는 데이터 시각화와 함께 지표, 설명 및 평가 방법이 표시됩니다.

다음 각 섹션에서는 작업 팀이 평가 UI에서 본 5가지 가능한 등급 지정 방법의 예제를 확인할 수 있습니다. 또한 예제는 Amazon S3에 결과를 저장하는 데 사용되는 키 값 쌍을 보여 줍니다.

리커트 척도, 여러 모델 출력의 비교

인간 평가자는 지침에 따라 5점 리커트 척도로 모형의 두 응답 중 선호도를 표시합니다. 최종 보고서의 결과는 전체 데이터 세트에 대한 평가자의 선호도 수준을 나타내는 히스토그램으로 표시됩니다.

평가자가 기대치에 따라 응답을 평가하는 방법을 알 수 있도록 지침에 5점 척도의 중요 포인트를 정의해야 합니다.

이미지입니다.
JSON출력

evaluationResults에 있는 첫 번째 하위 키는 선택한 등급 지정 방법이 반환되는 위치입니다. Amazon S3 버킷에 저장된 출력 파일에서 각 작업자의 결과는 "evaluationResults": "comparisonLikertScale" 키 값 쌍에 저장됩니다.

선택 버튼(라디오 버튼)

선택 버튼을 사용하면 평가자가 선호하는 응답 하나를 다른 응답보다 먼저 표시할 수 있습니다. 평가자는 지침에 따라 라디오 버튼을 사용하여 두 응답 중 선호하는 답변을 표시합니다. 최종 보고서의 결과는 각 모델에 대해 작업자가 선호하는 응답의 백분율로 표시됩니다. 지침에 평가 방법을 명확하게 설명합니다.

이미지입니다.
JSON출력

evaluationResults에 있는 첫 번째 하위 키는 선택한 등급 지정 방법이 반환되는 위치입니다. Amazon S3 버킷에 저장된 출력 파일에서 각 작업자의 결과는 "evaluationResults": "comparisonChoice" 키 값 쌍에 저장됩니다.

서수 순위

서수 순위를 사용하면 평가자가 프롬프트에 대해 선호하는 응답의 순위를 사용자 지침에 따라 1부터 시작하여 순서대로 매길 수 있습니다. 최종 보고서의 결과는 전체 데이터 세트에 대한 순위를 나타내는 히스토그램으로 표시됩니다. 지침에서 1위가 의미하는 바를 정의합니다. 이 데이터 유형을 선호도 순위라고 합니다.

이미지입니다.
JSON출력

evaluationResults에 있는 첫 번째 하위 키는 선택한 등급 지정 방법이 반환되는 위치입니다. Amazon S3 버킷에 저장된 출력 파일에서 각 작업자의 결과는 "evaluationResults": "comparisonRank" 키 값 쌍에 저장됩니다.

추천/반대

추천/반대를 표시하면 평가자가 모델의 각 응답을 사용자의 지침에 따라 허용/비허용으로 평가할 수 있습니다. 최종 보고서의 결과는 각 모델에 대해 추천 등급을 받은 평가자의 총 등급 수의 백분율로 표시됩니다. 하나 이상의 모델이 포함된 모델 평가 작업에서 이 등급 지정 방법을 사용할 수 있습니다. 두 모델이 포함된 평가에 이 방법을 사용하면 각 모델 응답에 대해 작업 팀에 추천/반대 의견이 제시되고 최종 보고서에는 각 모델에 대한 집계된 결과가 개별적으로 표시됩니다. 지침에 허용 가능한 항목(즉, 추천 등급)을 정의합니다.

이미지입니다.
JSON출력

evaluationResults에 있는 첫 번째 하위 키는 선택한 등급 지정 방법이 반환되는 위치입니다. Amazon S3 버킷에 저장된 출력 파일에서 각 작업자의 결과는 "evaluationResults": "thumbsUpDown" 키 값 쌍에 저장됩니다.

리커트 척도, 단일 모델 응답 평가

평가자가 5점 리커트 척도로 사용자 지침에 따라 모델의 응답을 얼마나 강력하게 승인했는지 표시할 수 있습니다. 최종 보고서의 결과는 전체 데이터 세트에 대한 평가자의 5점 척도를 나타내는 히스토그램으로 표시됩니다. 하나 이상의 모델이 포함된 평가에서 이 방법을 사용할 수 있습니다. 하나 이상의 모델이 포함된 평가에 이 등급 지정 방법을 사용하면 각 모델 응답에 대해 작업 팀에 3점 리커트 척도가 제시되고 최종 보고서에는 각 모델에 대한 집계된 결과가 개별적으로 표시됩니다. 평가자가 기대치에 따라 응답을 평가하는 방법을 알 수 있도록 지침에 5점 척도의 중요 포인트를 정의해야 합니다.

이미지입니다.
JSON출력

evaluationResults에 있는 첫 번째 하위 키는 선택한 등급 지정 방법이 반환되는 위치입니다. Amazon S3 버킷에 저장된 출력 파일에서 각 작업자의 결과는 "evaluationResults": "individualLikertScale" 키 값 쌍에 저장됩니다.