작업자를 사용하는 모델 평가 작업 생성 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

작업자를 사용하는 모델 평가 작업 생성

인간 작업자를 사용하는 모델 평가 작업에서는 최대 두 모델의 응답을 평가하고 비교할 수 있습니다. 권장 지표 목록에서 선택하거나 직접 정의한 지표를 사용할 수 있습니다. PER에서 인간 작업자를 사용하는 모델 평가 작업을 최대 AWS 계정 20개까지 만들 수 AWS 리전있습니다.

사용하는 각 지표에 대해 등급 지정 방법을 정의해야 합니다. 평가 방법은 선택한 모델에서 나타나는 응답을 인간 작업자가 평가하는 방법을 정의합니다. 사용 가능한 다양한 평가 방법과 근로자를 위한 고품질 지침을 만드는 방법에 대해 자세히 알아보려면 을 참조하십시오Amazon Bedrock에서 작업 팀 생성 및 관리.

사전 조건

다음 절차를 완료하기 전에 먼저 다음 작업을 마쳐야 합니다. Amazon Bedrock 콘솔에서 모델 평가 작업을 생성하려면 작업 생성 시 지정된 Amazon S3 버킷에 CORS 권한을 구성해야 합니다.

작업자를 사용하는 모델 평가 작업의 경우 내장된 데이터 세트는 지원되지 않습니다. 사용자 지정 프롬프트 데이터세트를 만드는 방법에 대해 자세히 알아보려면 을 참조하십시오. 작업자를 사용하는 모델 평가 작업의 사용자 지정 프롬프트 데이터 세트에 대한 요구 사항

  1. Amazon Bedrock에 있는 모델에 액세스할 수 있어야 합니다.

  2. Amazon Bedrock 서비스 역할이 있어야 합니다. 서비스 역할을 아직 생성하지 않은 경우 모델 평가 작업을 설정하는 동안 Amazon Bedrock 콘솔에서 생성할 수 있습니다. 첨부된 정책은 모델 평가 작업에 사용된 모든 S3 버킷과 작업에 지정된 모든 모델에 ARNs 대한 액세스 권한을 부여해야 합니다. 또한 정책에sagemaker:StartHumanLoop,sagemaker:StopHumanLoop, sagemaker:DescribeHumanLoopsagemaker:DescribeFlowDefinition SageMaker IAM 작업이 정의되어 있어야 합니다. 또한 서비스 역할에는 Amazon Bedrock이 역할의 신뢰 정책에서 서비스 보안 주체로 정의되어 있어야 합니다. 자세한 내용은 서비스 역할을 참조하십시오.

  3. Amazon SageMaker 서비스 역할이 있어야 합니다. 서비스 역할을 아직 생성하지 않은 경우 모델 평가 작업을 설정하는 동안 Amazon Bedrock 콘솔에서 생성할 수 있습니다. 첨부된 정책은 다음 리소스 및 IAM 작업에 대한 액세스 권한을 부여해야 합니다. 모델 평가 작업에 사용된 모든 S3 버킷이 있어야 합니다. 역할의 신뢰 정책이 서비스 주체로 SageMaker 정의되어야 합니다. 자세한 내용은 필수 권한을 참조하십시오.

  4. Amazon Bedrock 콘솔에 액세스하는 사용자, 그룹 또는 역할은 필수 Amazon S3 버킷에 액세스하는 데 필요한 권한을 갖고 있어야 합니다.

  5. 출력 Amazon S3 버킷과 모든 사용자 지정 프롬프트 데이터 세트 버킷에는 필요한 CORS 권한이 추가되어야 합니다. 필수 CORS 권한에 대한 자세한 내용은 을 참조하십시오. S3 버킷에 대한 원본 간 리소스 공유 (CORS) 권한이 필요합니다.

튜토리얼: 인간 작업자를 사용하는 모델 평가 생성

다음 자습서를 사용하여 인간 작업자를 사용하는 모델 평가 작업을 생성하십시오.

Amazon Bedrock 콘솔을 사용하여 모델 평가 작업 결과 보기

모델 평가 작업이 완료되면 지정한 Amazon S3 버킷에 결과가 저장됩니다. 어떤 식으로든 결과 위치를 수정하면 콘솔에 모델 평가 보고서 카드가 더 이상 표시되지 않습니다.

작업자를 사용하는 모델 평가 작업을 생성하려면 다음을 수행하세요.
  1. 아마존 베드락 콘솔 열기: 홈 https://console.aws.amazon.com/bedrock/

  2. 탐색 창에서 모델 평가를 선택합니다.

  3. 평가 카드 작성의 휴먼: 팀 가져오기에서 사용자 지정 팀 기반 평가 생성을 선택합니다.

  4. 작업 세부 정보 지정 페이지에서 다음을 제공합니다.

    1. 평가 이름 - 모델 평가 작업에 작업을 설명하는 이름을 지정합니다. 이 이름이 모델 평가 작업 목록에 표시됩니다. 이름은 입력 시 고유해야 합니다. AWS 계정 AWS 리전

    2. 설명(선택 사항) - 필요에 따라 설명을 입력합니다.

  5. 그리고 다음을 선택합니다.

  6. 평가 설정 페이지에서 다음을 제공합니다.

    1. 모델 - 모델 평가 작업에 사용하려는 두 모델을 선택합니다.

      Amazon Bedrock의 사용 가능한 모델에 대해 알아보려면 Amazon 베드락 기반 모델에 대한 액세스 관리 섹션을 참조하세요.

    2. (선택 사항) 선택한 모델의 추론 구성을 변경하려면 업데이트를 선택합니다.

      추론 구성을 변경하면 선택한 모델에서 생성된 응답이 변경됩니다. 사용 가능한 추론 파라미터에 대한 자세한 내용은 파운데이션 모델의 추론 파라미터 섹션을 참조하세요.

    3. 작업 유형 - 모델 평가 작업 중에 모델이 수행하려고 시도할 작업 유형을 선택합니다. 모델에 대한 모든 지침은 프롬프트 자체에 포함되어야 합니다. 작업 유형은 모델의 응답을 제어하지 않습니다.

    4. 평가 지표 - 권장 지표 목록은 선택한 작업에 따라 달라집니다. 각 권장 지표의 등급 지정 방법을 선택해야 합니다. 모델 평가 작업당 최대 10개의 평가 지표를 보유할 수 있습니다.

    5. (선택 사항) 새 지표 추가를 선택하여 새 지표를 추가합니다. 지표, 설명, 등급 지정 방법을 정의해야 합니다.

    6. 데이터세트 카드에 다음을 제공해야 합니다.

      1. 프롬프트 데이터세트 선택 - 프롬프트 데이터세트 URI 파일의 S3를 지정하거나 S3 찾아보기를 선택하여 사용 가능한 S3 버킷을 확인합니다. 사용자 지정 프롬프트 데이터 세트에 최대 1,000개의 프롬프트를 포함할 수 있습니다.

      2. 평가 결과 대상 - 모델 평가 작업의 결과를 저장하려는 URI 디렉터리의 S3를 지정하거나, 사용 가능한 S3 버킷을 보려면 Browse S3를 선택해야 합니다.

    7. (선택 사항) AWS KMS 키 - 모델 평가 작업을 암호화하는 데 사용할 고객 관리 키를 입력합니다. ARN

    8. Amazon Bedrock IAM 역할 — 권한 카드에서 다음을 수행해야 합니다. 모델 평가의 필수 권한에 대해 알아보려면 모델 평가 작업을 생성하는 데 필요한 권한 및 IAM 서비스 역할 섹션을 참조하세요.

      1. 기존 Amazon Bedrock 서비스 역할을 사용하려면 기존 역할 사용을 선택합니다. 그렇지 않으면 새 역할 생성을 사용하여 새 IAM 서비스 역할의 세부 정보를 지정하십시오.

      2. 서비스 역할 이름에 IAM 서비스 역할의 이름을 지정합니다.

      3. 준비가 되면 역할 생성을 선택하여 새 IAM 서비스 역할을 생성합니다.

  7. 그리고 다음을 선택합니다.

  8. 권한 카드에 다음을 지정합니다. 모델 평가의 필수 권한에 대해 알아보려면 모델 평가 작업을 생성하는 데 필요한 권한 및 IAM 서비스 역할 섹션을 참조하세요.

  9. 휴먼 워크플로 IAM 역할 - 필요한 권한이 있는 SageMaker 서비스 역할을 지정합니다.

  10. 작업 팀 카드에 다음을 지정합니다.

    작업자 알림 요건

    모델 평가 작업에 새 작업자를 추가하면 자동으로 모델 평가 작업에 참여하도록 초대하는 이메일이 발송됩니다. 기존 인간 작업자를 모델 평가 작업에 추가하는 경우 모델 평가 작업을 URL 위한 작업자 포털을 제공하고 해당 작업자에게 이를 알리고 제공해야 합니다. 기존 작업자에게는 새 모델 평가 작업에 추가되었다는 이메일 알림이 자동으로 전송되지 않습니다.

    1. 팀 선택 드롭다운을 사용하여 새 작업팀 생성 또는 기존 작업 팀 이름을 지정합니다.

    2. (선택 사항) 프롬프트당 작업자 수 - 각 프롬프트를 평가하는 작업자 수를 업데이트합니다. 선택한 작업자 수를 기준으로 각 프롬프트에 대한 응답을 검토한 후에는 프롬프트와 해당 응답이 작업 팀의 계산에서 제외됩니다. 최종 결과 보고서에는 각 작업자의 모든 등급이 포함됩니다.

    3. (선택 사항) 기존 작업자 이메일 — 작업자 포털이 포함된 이메일 템플릿을 복사하려면 이 옵션을 선택합니다URL.

    4. (선택 사항) 새 작업자 이메일 - 새 작업자에게 자동으로 받는 이메일을 보려면 이 옵션을 선택합니다.

      중요

      대규모 언어 모델은 때때로 거짓 정보를 제공하고 유해하거나 불쾌감을 주는 콘텐츠를 생성하는 것으로 알려져 있습니다. 이 평가 과정에서 작업자에게 유해하거나 불쾌한 내용이 나타날 수 있습니다. 적절한 조치를 취해 훈련을 실시하고 평가 작업을 시작하기 전에 이를 알리도록 합니다. 평가 중에 인적 평가 도구에 액세스하는 동안 작업을 거절하고 취소하거나 휴식을 취할 수 있습니다.

  11. 그리고 다음을 선택합니다.

  12. 지침 제공 페이지에서 텍스트 편집기를 사용하여 작업 완료 지침을 제공합니다. 작업 팀이 지표, 등급 지정 방법, 지침 등 응답을 평가하는 데 사용하는 평가 UI를 미리 볼 수 있습니다. 이 미리 보기는 이 작업을 위해 만든 구성을 기반으로 합니다.

  13. 그리고 다음을 선택합니다.

  14. 검토 및 생성 페이지에서 이전 단계에서 선택한 옵션의 요약을 볼 수 있습니다.

  15. 모델 평가 작업을 시작하려면 생성을 선택합니다.

작업이 성공적으로 시작되면 상태가 진행 중으로 바뀝니다. 작업이 완료되면 이 상태는 완료됨으로 바뀝니다. 모델 평가 작업이 아직 진행 중일 때는 작업 팀이 모든 모델 응답을 평가하기 전에 작업을 중단하도록 선택할 수 있습니다. 이렇게 하려면 모델 평가 랜딩 페이지에서 평가 중지를 선택합니다. 그러면 모델 평가 작업의 상태가 중지로 변경됩니다. 모델 평가 작업이 성공적으로 중지되면 모델 평가 작업을 삭제할 수 있습니다.

모델 평가 작업의 결과를 평가, 확인 및 다운로드하는 방법을 알아보려면 모델 평가 작업 결과 섹션을 참조하세요.