Studio에서 자동 모델 평가 작업 생성 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Studio에서 자동 모델 평가 작업 생성

Studio에서 사용할 수 있는 마법사는 평가할 모델 선택, 작업 유형 선택, 지표 및 데이터 세트 선택, 필요한 리소스 구성을 안내합니다. 다음 주제에서는 선택적 사용자 지정 입력 데이터 세트를 포맷하고, 환경을 설정하고, Studio에서 모델 평가 작업을 생성하는 방법을 보여줍니다.

기본 제공 데이터 세트를 사용하여 Studio에서 모델을 평가하는 경우 데이터 세트의 형식이 올바르게 지정됩니다. 사용자 지정 프롬프트 데이터 세트를 사용하려면 각 줄이 유효한 JSON 객체인 jsonlines 파일이어야 합니다. 각 JSON 객체에는 단일 프롬프트가 포함되어야 합니다.

선택한 JumpStart 모델이 제대로 작동하는지 확인하기 위해 SageMaker Clarify는 선택한 모델 평가 차원에 가장 적합한 형식으로 모든 프롬프트 데이터 세트를 자동으로 포맷합니다. 기본 제공 프롬프트 데이터 세트의 경우 SageMaker Clarify는 추가 지침 텍스트로 프롬프트를 보강합니다. SageMaker Clarify가 프롬프트를 수정하는 방법을 알아보려면 모델 평가 작업에 추가한 평가 차원에서 프롬프트 템플릿을 선택합니다. 프롬프트 템플릿을 수정하는 방법의 예를 보려면 프롬프트 템플릿 예제를 참조하세요.

토글을 사용하면 SageMaker Clarify가 기본 제공 데이터 세트에 제공하는 자동 프롬프트 템플릿 지원을 끄거나 켤 수 있습니다. 자동 프롬프트 템플릿 기능을 끄면 데이터 세트의 모든 프롬프트에 적용할 사용자 지정 프롬프트 템플릿을 지정할 수 있습니다.

UI에서 사용자 지정 데이터 세트에 사용할 수 있는 키를 알아보려면 다음 작업 목록을 참조하세요.

  • model_input - 다음 작업의 입력을 나타내는 데 필요합니다.

    • 개방형 세대 , 독성정확도 작업에서 모델이 에 응답해야 하는 프롬프트입니다.

    • 에 답변하는 질문사실 지식 작업에서 모델이 답변해야 하는 질문입니다.

    • 모델이 텍스트 요약 작업에 요약해야 하는 텍스트입니다.

    • 모델이 분류 작업에서 분류해야 하는 텍스트입니다.

    • 모델이 의미 완건성 태스크를 교란하도록 하려는 텍스트입니다.

  • target_output - 다음 작업에 대해 모델이 평가되는 응답을 나타내는 데 필요합니다.

    • 질문에 대한 답변, 정확도, 의미론적 견고성사실적 평가 작업에 대한 답변입니다.

    • 정확도 , 의미 완건성 작업을 위해 허용 가능한 응답을 로 구분합니다<OR>. 평가는 쉼표로 구분된 모든 답변을 정답으로 받아들입니다. 예를 들어 또는 UK 를 허용 가능한 답변EnglandUnited Kingdom으로 수락target_output="UK<OR>England<OR>United Kingdom"하려면 를 사용합니다.

  • (선택 사항) category - 각 범주에 대해 보고된 평가 점수를 생성합니다.

  • sent_less_input - 프롬프트 고정 관념 작업에 대한 편향이 적은 프롬프트를 나타내는 데 필요합니다.

  • sent_more_input - 프롬프트 고정 관념 작업에 더 많은 바이어스가 포함된 프롬프트를 나타내는 데 필요합니다.

사실적 지식 평가에는 질문과 답변이 모두 필요하여 모델 응답을 확인할 수 있습니다. 다음과 같이 키model_input와 질문에 포함된 값을 사용하고 키target_output와 답변에 포함된 값을 사용합니다.

{"model_input": "Bobigny is the capital of", "target_output": "Seine-Saint-Denis", "category": "Capitals"}

이전 예제는 입력 파일에 하나의 레코드를 구성하는 유효한 단일 JSON 객체입니다jsonlines. 각 JSON 객체는 요청으로 모델로 전송됩니다. 여러 요청을 하려면 여러 줄을 포함합니다. 다음 데이터 입력 예제는 평가를 위해 필요에 따라 category 키를 사용하는 질문 및 답변 작업에 해당하는 내용입니다.

{"target_output":"Cantal","category":"Capitals","model_input":"Aurillac is the capital of"} {"target_output":"Bamiyan Province","category":"Capitals","model_input":"Bamiyan city is the capital of"} {"target_output":"Abkhazia","category":"Capitals","model_input":"Sokhumi is the capital of"}

UI에서 알고리즘을 평가하는 경우 입력 데이터 세트에 대해 다음과 같은 기본값이 설정됩니다.

  • 평가에서 사용하는 레코드 수는 고정됩니다. 알고리즘은 입력 데이터 세트에서 이 수의 요청을 무작위로 샘플링합니다.

    • 이 번호를 변경하려면: fmeval 라이브러리를 사용하여 워크플로 사용자 지정에 설명된 대로 fmeval 라이브러리를 사용하고 파라미터를 원하는 샘플 수num_records로 설정하거나 전체 데이터 세트를 -1 지정합니다. 평가되는 레코드의 기본 수는 100 정확도, 프롬프트 고정 관념화, 독성, 분류 및 의미론적 견고성 작업입니다. 사실 지식 태스크의 기본 레코드 수는 입니다300.

  • target_output 파라미터에 앞서 설명한 대상 출력 구분 기호는 UI<OR>에서 로 설정됩니다.

    • 다른 구분 기호를 사용하여 허용 가능한 응답을 분리하려면: fmeval 라이브러리를 사용하여 워크플로 사용자 지정에 설명된 대로 fmeval 라이브러리를 사용하고 파라미터를 원하는 구분 기호target_output_delimiter로 설정합니다.

  • 모델 평가에 사용할 수 있는 텍스트 기반 JumpStart 언어 모델을 사용해야 합니다. 이러한 모델에는 FMeval 프로세스로 자동으로 전달되는 여러 데이터 입력 구성 파라미터가 있습니다.

    • 다른 종류의 모델을 사용하려면: fmeval 라이브러리를 사용하여 입력 데이터 세트의 데이터 구성을 정의합니다.

대규모 언어 모델(LLM)에 대한 자동 평가를 실행하려면 평가를 실행할 수 있는 올바른 권한이 있도록 환경을 설정해야 합니다. 그런 다음 UI를 사용하여 워크플로의 단계를 안내하고 평가를 실행할 수 있습니다. 다음 섹션에서는 UI를 사용하여 자동 평가를 실행하는 방법을 보여줍니다.

사전 조건
  • Studio UI에서 모델 평가를 실행하려면 ( AWS Identity and Access Management IAM) 역할 및 입력 데이터 세트에 올바른 권한이 있어야 합니다. SageMaker 도메인 또는 IAM 역할이 없는 경우 의 단계를 따릅니다Amazon 설정 가이드 SageMaker.

S3 버킷에 대한 권한을 설정하려면

도메인과 역할을 생성한 후 다음 단계에 따라 모델을 평가하는 데 필요한 권한을 추가합니다.

  1. 에서 Amazon SageMaker 콘솔을 엽니다https://console.aws.amazon.com/sagemaker/.

  2. 탐색 창에서 페이지 상단의 S3 검색 창에 를 입력합니다.

  3. 서비스에서 S3를 선택합니다.

  4. 탐색 창에서 버킷을 선택합니다.

  5. 범용 버킷 섹션의 이름에서 사용자 지정 프롬프트 데이터 세트를 저장하는 데 사용할 Amazon S3 버킷의 이름과 모델 평가 작업의 결과를 저장할 위치를 선택합니다. Amazon S3 버킷은 Studio 인스턴스 AWS 리전 와 동일해야 합니다. Amazon S3 버킷이 없는 경우 다음을 수행합니다.

    1. 버킷 생성을 선택하여 새 버킷 생성 페이지를 엽니다.

    2. 일반 구성 섹션의 AWS 리전에서 파운데이션 모델이 위치한 리전을 선택합니다 AWS .

    3. 버킷 이름 아래의 입력 상자에서 S3 버킷의 이름을 지정합니다.

    4. 모든 기본 선택을 수락합니다.

    5. 버킷 생성 을 선택합니다.

    6. 범용 버킷 섹션의 이름에서 생성한 S3 버킷의 이름을 선택합니다.

  6. 권한 탭을 선택합니다.

  7. 창 하단의 크로스 오리진 리소스 공유(CORS) 섹션으로 스크롤합니다. 편집을 선택합니다.

  8. 버킷에 CORS 권한을 추가하려면 다음 코드를 입력 상자에 복사합니다.

    [ { "AllowedHeaders": [ "*" ], "AllowedMethods": [ "GET", "PUT", "POST", "DELETE" ], "AllowedOrigins": [ "*" ], "ExposeHeaders": [ "Access-Control-Allow-Origin" ] } ]
  9. Save changes(변경 사항 저장)를 선택합니다.

IAM 정책에 권한을 추가하려면
  1. 페이지 상단의 검색 창에 를 입력합니다IAM.

  2. 서비스에서 자격 증명 및 액세스 관리(IAM)를 선택합니다.

  3. 탐색 창에서 정책을 선택합니다.

  4. 정책 생성을 선택합니다. 정책 편집기가 열리면 를 선택합니다JSON.

  5. Next(다음)를 선택합니다.

  6. 정책 편집기 에 다음 권한이 표시되는지 확인합니다. 정책 편집기 에 다음을 복사하여 붙여넣을 수도 있습니다.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData", "logs:CreateLogStream", "logs:PutLogEvents", "logs:CreateLogGroup", "logs:DescribeLogStreams", "s3:GetObject", "s3:PutObject", "s3:ListBucket", "ecr:GetAuthorizationToken", "ecr:BatchCheckLayerAvailability", "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:Search", "sagemaker:CreateProcessingJob", "sagemaker:DescribeProcessingJob" ], "Resource": "*" } ] }
  7. Next(다음)를 선택합니다.

  8. 정책 이름 아래의 정책 세부 정보 섹션에 정책 이름을 입력합니다. 또한 설명을 입력할 수 있습니다(선택 사항). 역할에 할당할 때 이 정책 이름을 검색합니다.

  9. 정책 생성을 선택합니다.

IAM 역할에 권한을 추가하려면
  1. 탐색 창에서 역할을 선택합니다. 사용하려는 역할의 이름을 입력합니다.

  2. 역할 이름 아래에서 역할 이름을 선택합니다. 기본 창이 변경되어 역할에 대한 정보가 표시됩니다.

  3. 권한 정책 섹션에서 권한 추가 옆의 아래쪽 화살표를 선택합니다.

  4. 표시되는 옵션에서 정책 연결 을 선택합니다.

  5. 표시되는 정책 목록에서 5단계에서 생성한 정책을 검색합니다. 정책 이름 옆의 확인란을 선택합니다.

  6. 작업 옆의 아래쪽 화살표를 선택합니다.

  7. 표시되는 옵션에서 연결 을 선택합니다.

  8. 생성한 역할의 이름을 검색합니다. 이름 옆의 확인란을 선택합니다.

  9. 권한 추가를 선택합니다. 페이지 상단의 배너에 정책이 역할 에 성공적으로 연결되었다는 메시지가 표시되어야 합니다.

  • .

자동 모델 평가 작업을 생성할 때 사용 가능한 텍스트 기반 JumpStart 모델 중에서 선택하거나 이전에 엔드포인트에 배포한 텍스트 기반 JumpStart 모델을 사용할 수 있습니다.

자동 모델 평가 작업을 생성하려면 다음 절차를 사용합니다.

Studio에서 자동 모델 평가 작업을 시작합니다.
  1. 에서 Amazon SageMaker 콘솔을 엽니다https://console.aws.amazon.com/sagemaker/.

  2. 페이지 상단의 검색 창에 를 입력합니다SageMaker.

  3. 서비스에서 Amazon 을 SageMaker 선택합니다.

  4. 탐색 창에서 Studio를 선택합니다.

  5. 도메인 선택 아래의 아래쪽 화살표를 확장한 후 시작하기 섹션에서 도메인을 선택합니다.

  6. 사용자 프로필 선택 아래의 아래쪽 화살표를 확장한 후 시작하기 섹션에서 사용자 프로필을 선택합니다.

  7. Open Studio를 선택하여 Studio의 랜딩 페이지를 엽니다.

  8. 기본 탐색 창에서 작업을 선택합니다.

  9. 그런 다음 모델 평가 를 선택합니다.

평가 작업을 설정하려면
  1. 다음으로 모델 평가를 선택합니다.

  2. 1단계: 작업 세부 정보 지정에서 다음을 수행합니다.

    1. 모델 평가의 이름을 입력합니다. 이 이름은 모델 평가 작업이 제출된 후 이를 식별하는 데 도움이 됩니다.

    2. 이름에 컨텍스트를 추가하려면 설명을 입력합니다.

    3. Next(다음)를 선택합니다.

  3. 2단계: 평가 설정에서 다음을 수행합니다.

    1. 평가 유형에서 자동 을 선택합니다.

    2. 그런 다음 평가에 모델 추가를 선택합니다.

    3. 모델 추가 모달에서 사전 훈련된 Jumpstart 파운데이션 모델 또는 SageMaker 엔드포인트 를 사용하도록 선택할 수 있습니다. JumpStart 모델을 이미 배포한 경우 SageMaker 엔드포인트를 선택하거나 사전 훈련된 Jumpstart 파운데이션 모델 을 선택합니다.

    4. 그런 다음 저장을 선택합니다.

    5. (선택 사항 ) 모델을 추가한 후 프롬프트 템플릿을 선택하여 선택한 모델에 따라 프롬프트의 예상 입력 형식을 확인합니다. 데이터 세트에 대한 프롬프트 템플릿을 구성하는 방법에 대한 자세한 내용은 섹션을 참조하세요프롬프트 템플릿.

      • 기본 프롬프트 템플릿을 사용하려면 다음 단계를 완료합니다.

        1. 데이터 세트 에서 제공하는 기본 프롬프트 템플릿 사용을 토글합니다.

        2. (선택 사항) 각 데이터 세트에 대해 Clarify에서 제공하는 프롬프트를 검토합니다.

        3. 저장(Save)을 선택합니다.

      • 사용자 지정 프롬프트 템플릿을 사용하려면 다음 단계를 완료합니다.

        1. 끄기 데이터 세트 에서 제공하는 기본 프롬프트 템플릿을 사용합니다.

        2. Clarify가 기본 프롬프트를 표시하는 경우 기본 프롬프트를 사용자 지정하거나 제거한 후 직접 제공할 수 있습니다. 프롬프트 템플릿에 $model_input 변수를 포함해야 합니다.

        3. 저장(Save)을 선택합니다.

    6. 그런 다음 작업 유형에서 작업 유형을 선택합니다.

      작업 유형 및 관련 평가 차원에 대한 자세한 내용은 의 자동 평가를 참조하세요모델 평가 작업에서 프롬프트 데이터 세트 및 사용 가능한 평가 차원 사용 .

    7. 평가 지표 섹션에서 평가 차원을 선택합니다. 설명 아래의 텍스트 상자에는 차원에 대한 추가 컨텍스트가 포함되어 있습니다.

      작업을 선택하면 작업과 연결된 지표가 지표 아래에 나타납니다. 이 섹션에서는 다음을 수행합니다.

    8. 평가 차원 의 아래쪽 화살표에서 평가 차원을 선택합니다.

    9. 평가 데이터 세트를 선택합니다. 자체 데이터 세트를 사용하거나 내장 데이터 세트를 사용하도록 선택할 수 있습니다. 자체 데이터 세트를 사용하여 모델을 평가하려면 에서 사용할 FMEval 수 있는 방식으로 형식을 지정해야 합니다. 또한 이전 환경을 설정합니다 섹션에서 참조된 CORS 권한이 있는 S3 버킷에 있어야 합니다. 사용자 지정 데이터 세트를 포맷하는 방법에 대한 자세한 내용은 섹션을 참조하세요사용자 지정 입력 데이터 세트 사용.

    10. 출력 평가 결과를 저장할 S3 버킷 위치를 입력합니다. 이 파일은 jsonlines(.jsonl) 형식입니다.

    11. 다음 파라미터를 사용하여 프로세서 구성 섹션에서 프로세서를 구성합니다.

      • 인스턴스 수를 사용하여 모델을 실행하는 데 사용할 컴퓨팅 인스턴스 수를 지정합니다. 개 이상의 1 인스턴스를 사용하는 경우 모델은 병렬 인스턴스에서 실행됩니다.

      • 인스턴스 유형을 사용하여 모델을 실행하는 데 사용할 컴퓨팅 인스턴스 유형을 선택합니다. 인스턴스 유형에 대한 자세한 내용은 섹션을 참조하세요Studio Classic과 함께 사용할 수 있는 인스턴스 유형.

      • 볼륨 KMS 키를 사용하여 AWS Key Management Service (AWS KMS) 암호화 키를 지정합니다. AWS KMS 키를 SageMaker 사용하여 모델 및 Amazon S3 버킷에서 들어오는 트래픽을 암호화합니다. 키에 대한 자세한 내용은 섹션을 참조하세요AWS Key Management Service.

      • 출력 KMS 키를 사용하여 송신 트래픽에 대한 AWS KMS 암호화 키를 지정합니다.

      • IAM 역할을 사용하여 기본 프로세서에 대한 액세스 및 권한을 지정합니다. 에서 설정한 IAM 역할을 입력합니다. 환경을 설정합니다

    12. 모델과 기준을 지정한 후 다음 를 선택합니다. 기본 창은 5단계 검토 및 저장 으로 건너뜁니다.

평가 작업 검토 및 실행
  1. 평가를 위해 선택한 모든 파라미터, 모델 및 데이터를 검토합니다.

  2. 리소스 생성을 선택하여 평가를 실행합니다.

  3. 작업 상태를 확인하려면 페이지의 모델 평가 섹션 상단으로 이동합니다.