Studio에서 자동 모델 평가 작업 만들기

Studio에서 사용할 수 있는 마법사는 평가할 모델 선택, 작업 유형 선택, 지표 및 데이터세트 선택, 필요한 리소스 구성을 안내합니다. 아래 주제에서는 선택적 사용자 지정 입력 데이터세트의 형식을 지정하고, 환경을 설정하고, Studio에서 모델 평가 작업을 만드는 방법을 보여줍니다.

사용자 지정 프롬프트 데이터세트를 사용하려면 각 줄이 유효한 JSON 객체인 jsonlines 파일이어야 합니다. 각 JSON 객체에는 단일 프롬프트가 포함되어야 합니다.

선택한 JumpStart 모델이 제대로 작동하는지 확인하기 위해 SageMaker Clarify는 선택한 모델 평가 차원에 가장 적합한 형식으로 모든 프롬프트 데이터세트의 형식을 자동으로 지정합니다. 기본 제공 프롬프트 데이터세트의 경우 SageMaker Clarify는 추가 지침 텍스트로 프롬프트를 보강합니다. SageMaker Clarify가 프롬프트를 수정하는 방법을 보려면 모델 평가 작업에 추가한 평가 차원에서 프롬프트 템플릿을 선택합니다. 프롬프트 템플릿을 수정하는 방법의 예를 보려면 Prompt template example을 참조하세요.

토글을 사용하면 SageMaker Clarify가 기본 제공 데이터세트에 제공하는 자동 프롬프트 템플릿 작성 지원을 끄거나 켤 수 있습니다. 자동 프롬프트 템플릿 작성 기능을 끄면 데이터세트의 모든 프롬프트에 적용할 사용자 지정 프롬프트 템플릿을 지정할 수 있습니다.

UI에서 사용자 지정 데이터세트에 사용할 수 있는 키를 알아보려면 다음 작업 목록을 참조하세요.

model_input - 다음 작업에 대한 입력을 나타내는 데 필요합니다.
- 개방형 생성, 유해성 및 정확도 작업에서 모델이 응답해야 하는 프롬프트입니다.
- 질문 답변 및 사실적 지식 작업 유형에서 모델이 답변해야 하는 질문입니다.
- 텍스트 요약 작업에서 모델이 요약해야 하는 텍스트입니다.
- 분류 작업에서 모델이 분류해야 하는 텍스트입니다.
- 의미 체계 견고성 작업에서 모델이 교란하도록 하려는 텍스트입니다.
target_output - 다음 작업에 대해 모델을 평가할 때 응답을 나타내는 데 필요합니다.
- 질문 답변의 답변, 정확도, 의미 체계 견고성 및 사실적 평가 작업
- 정확도, 의미 체계 견고성 작업에 허용 가능한 답변을 <OR>로 구분합니다. 평가는 쉼표로 구분된 모든 답변을 올바른 것으로 받아들입니다. 예를 들어 또는 UK 또는 England 또는 United Kingdom을 허용 가능한 답변으로 수락하려면 target_output="UK<OR>England<OR>United Kingdom"을 사용합니다.
(선택 사항) category - 각 범주에 대해 보고된 평가 점수를 생성합니다.
sent_less_input - 프롬프트 고정 관념화 작업에서 편향이 적은 프롬프트를 나타내는 데 필요합니다.
sent_more_input - 프롬프트 고정 관념화 작업에서 편향이 많은 프롬프트를 나타내는 데 필요합니다.

사실적 지식 평가에는 질문 및 모델 응답과 비교하여 확인할 수 있는 답변이 모두 필요합니다. 다음과 같이 질문에 포함된 값이 있는 model_input 키를 사용하고 답변에 포함된 값을 가진 target_output 키를 사용합니다.


{"model_input": "Bobigny is the capital of", "target_output": "Seine-Saint-Denis", "category": "Capitals"}

이전 예시는 jsonlines 입력 파일에 하나의 레코드를 구성하는 유효한 단일 JSON 객체입니다. 각 JSON 객체는 요청으로 모델로 전송됩니다. 여러 요청을 하려면 여러 줄을 포함합니다. 다음 데이터 입력 예제는 평가를 위해 필요에 따라 category 키를 사용하는 질문 및 답변 작업에 해당하는 내용입니다.


{"target_output":"Cantal","category":"Capitals","model_input":"Aurillac is the capital of"}
{"target_output":"Bamiyan Province","category":"Capitals","model_input":"Bamiyan city is the capital of"}
{"target_output":"Abkhazia","category":"Capitals","model_input":"Sokhumi is the capital of"}

UI에서 알고리즘을 평가하는 경우 입력 데이터세트에 대해 다음과 같은 기본값이 설정됩니다.

평가에서 사용하는 레코드 수는 고정됩니다. 알고리즘은 입력 데이터세트에서 이 개수의 요청을 무작위로 샘플링합니다.
- 이 숫자를 변경하는 방법: fmeval 라이브러리를 사용하여 워크플로 사용자 지정에 설명된 대로 fmeval 라이브러리를 사용하고 num_records 파라미터를 원하는 샘플 수로 설정하거나 전체 데이터세트를 지정하려면 -1로 설정합니다. 평가되는 레코드의 기본 개수는 정확도, 프롬프트 고정 관념화, 유해성, 분류 및 의미 체계 견고성 작업의 경우 100입니다. 사실적 지식 작업의 기본 레코드 수는 300입니다.
target_output 파라미터에서 앞서 설명한 대로 대상 출력 구분 기호는 UI에서 <OR>로 설정됩니다.
- 다른 구분 기호를 사용하여 허용 가능한 답변을 분리하는 방법: fmeval 라이브러리를 사용하여 워크플로 사용자 지정에 설명된 대로 fmeval 라이브러리를 사용하고 target_output_delimiter 파라미터를 원하는 구분 기호로 설정합니다.
모델 평가에 사용할 수 있는 텍스트 기반 JumpStart 언어 모델을 사용해야 합니다. 이러한 모델에는 FMeval 프로세스에 자동으로 전달되는 여러 데이터 입력 구성 파라미터가 있습니다.
- 다른 종류의 모델을 사용하는 방법: fmeval 라이브러리를 사용하여 입력 데이터세트의 데이터 구성을 정의합니다.

대규모 언어 모델(LLM)에 대한 자동 평가를 실행하려면 평가를 실행할 수 있는 올바른 권한이 있도록 환경을 설정해야 합니다. 그런 다음 UI를 사용하여 워크플로의 단계를 안내하고 평가를 실행할 수 있습니다. 다음 섹션에서는 UI를 사용하여 자동 평가를 실행하는 방법을 보여줍니다.

사전 조건

Studio UI에서 모델 평가를 실행하려면 AWS Identity and Access Management (IAM) 역할과 입력 데이터세트에 올바른 권한이 있어야 합니다. SageMaker AI 도메인 또는 IAM 역할이 없는 경우의 단계를 따릅니다Amazon SageMaker AI 설정 가이드.

S3 버킷에 대한 권한 설정

도메인과 역할을 만든 후 다음 단계를 사용하여 모델을 평가하는 데 필요한 권한을 추가합니다.

https://console.aws.amazon.com/sagemaker/ Amazon SageMaker AI 콘솔을 엽니다.
탐색 창에서 페이지 상단의 검색 창에 S3를 입력합니다.
서비스에서 S3를 선택합니다.
탐색 창에서 버킷을 선택합니다.
범용 버킷 섹션의 이름에서 사용자 지정 프롬프트 데이터세트를 저장하는 데 사용할 Amazon S3 버킷의 이름과 모델 평가 작업의 결과를 저장할 위치를 선택합니다. Amazon S3 버킷은 Studio 인스턴스 AWS 리전 와 동일해야 합니다. Amazon S3 버킷이 없는 경우 다음을 수행합니다.
1. 버킷 만들기를 선택하여 새 버킷 만들기 페이지를 엽니다.
2. 일반 구성 섹션의 AWS 리전에서 파운데이션 모델이 위치한 AWS 리전을 선택합니다.
3. 버킷 이름 아래의 입력 상자에서 S3 버킷의 이름을 지정합니다.
4. 모든 기본값을 수락합니다.
5. 버킷 만들기를 선택합니다.
6. 범용 버킷 섹션의 이름에서 만든 S3 버킷의 이름을 선택합니다.
권한 탭을 선택합니다.
창 하단의 교차 오리진 리소스 공유(CORS) 섹션으로 스크롤합니다. 편집을 선택합니다.

버킷에 CORS 권한을 추가하려면 다음 코드를 입력 상자에 복사합니다.


[
{
    "AllowedHeaders": [
        "*"
    ],
    "AllowedMethods": [
        "GET",
        "PUT",
        "POST",
        "DELETE"
    ],
    "AllowedOrigins": [
        "*"
    ],
    "ExposeHeaders": [
        "Access-Control-Allow-Origin"
    ]
}
]

Save changes(변경 사항 저장)를 선택합니다.

IAM 정책에 권한을 추가하는 방법

페이지 상단에 있는 검색 창에 IAM을 입력합니다.
서비스에서 Identity and Access Management(IAM)를 선택합니다.
탐색 창에서 정책을 선택합니다.
정책 생성을 선택합니다. 정책 편집기가 열리면 JSON을 선택합니다.
Next(다음)를 선택합니다.

정책 편집기에 다음 권한이 나타나는지 확인합니다. 다음을 복사하여 정책 편집기에 붙여 넣을 수 있습니다.


{
"Version": "2012-10-17",
"Statement": [
    {
        "Effect": "Allow",
        "Action": [
            "cloudwatch:PutMetricData",
            "logs:CreateLogStream",
            "logs:PutLogEvents",
            "logs:CreateLogGroup",
            "logs:DescribeLogStreams",
            "s3:GetObject",
            "s3:PutObject",
            "s3:ListBucket",
            "ecr:GetAuthorizationToken",
            "ecr:BatchCheckLayerAvailability",
            "ecr:GetDownloadUrlForLayer",
            "ecr:BatchGetImage"
         ],
            "Resource": "*"
    },
    {
            "Effect": "Allow",
            "Action": [
                "sagemaker:Search",
                "sagemaker:CreateProcessingJob",
                "sagemaker:DescribeProcessingJob"
             ],
             "Resource": "*"
    }
]
}

Next(다음)를 선택합니다.
정책 이름 아래의 정책 세부 정보 섹션에 정책 이름을 입력합니다. 또한 설명을 입력할 수 있습니다(선택 사항). 역할에 할당할 때 이 정책 이름을 검색합니다.
정책 생성을 선택합니다.

IAM 역할에 권한을 추가하는 방법

탐색 창에서 역할을 선택합니다. 사용할 역할의 이름을 입력합니다.
역할 이름 아래에서 역할 이름을 선택합니다. 기본 창이 변경되어 역할에 대한 정보가 표시됩니다.
권한 정책 섹션에서 권한 추가 옆의 아래쪽 화살표를 선택합니다.
표시되는 옵션에서 정책 연결을 선택합니다.
나타나는 정책 목록에서 5단계에서 만든 정책을 검색합니다. 정책 이름 옆의 확인란을 선택합니다.
작업 옆의 아래쪽 화살표를 선택합니다.
표시되는 옵션에서 연결을 선택합니다.
만든 역할 이름을 검색합니다. 이름 옆에 있는 확인란을 선택합니다.
권한 추가를 선택합니다. 페이지 상단의 배너에 정책이 역할에 성공적으로 연결되었습니다.라는 메시지가 표시됩니다.

자동 모델 평가 작업을 만들 때 사용 가능한 텍스트 기반 JumpStart 모델 중에서 선택하거나 이전에 엔드포인트에 배포한 텍스트 기반 JumpStart 모델을 사용할 수 있습니다.

자동 모델 평가 작업을 만들려면 다음 절차를 사용합니다.

Studio에서 자동 모델 평가 작업을 시작하는 방법

https://console.aws.amazon.com/sagemaker/ Amazon SageMaker AI 콘솔을 엽니다.
페이지 상단에 있는 검색 창에 SageMaker AI을 입력합니다.
서비스에서 Amazon SageMaker AI를 선택합니다.
탐색 창에서 Studio를 선택합니다.
도메인 선택 아래의 아래쪽 화살표를 확장한 후 시작하기 섹션에서 도메인을 선택합니다.
사용자 프로필 선택 아래의 아래쪽 화살표를 확장한 후 시작하기 섹션에서 사용자 프로필을 선택합니다.
Studio 열기를 선택하여 Studio의 랜딩 페이지를 엽니다.
기본 탐색 창에서 작업을 선택합니다.
그런 다음 모델 평가를 선택합니다.

평가 작업을 설정하는 방법

그런 다음 모델 평가를 선택합니다.
1단계: 작업 세부 정보 지정에서 다음을 설정합니다.
1. 모델 평가의 이름을 입력합니다. 이 이름은 모델 평가 작업이 제출된 후 이를 식별하는 데 도움이 됩니다.
2. 이름에 컨텍스트를 추가하려면 설명을 입력합니다.
3. Next(다음)를 선택합니다.
2단계: 평가 설정에서 다음을 수행합니다.
1. 평가 유형에서 자동을 선택합니다.
2. 그런 다음 평가에 모델 추가를 선택합니다.
3. 모델 추가 모달에서 사전 훈련된 Jumpstart 파운데이션 모델 또는 SageMaker AI 엔드포인트를 사용하도록 선택할 수 있습니다. JumpStart 모델을 이미 배포한 경우 SageMaker AI 엔드포인트를 선택하거나 사전 훈련된 Jumpstart 파운데이션 모델을 선택합니다.
4. 그런 다음 저장을 선택합니다.
5. (선택 사항) 모델을 추가한 후 프롬프트 템플릿을 선택하여 선택한 모델에 따라 프롬프트의 예상 입력 형식을 확인합니다. 데이터세트에 대한 프롬프트 템플릿을 구성하는 방법에 대한 자세한 내용은 프롬프트 템플릿 섹션을 참조하세요.
  - 기본 프롬프트 템플릿을 사용하려면 다음 단계를 완료하세요.
    1. 데이터세트에서 제공하는 기본 프롬프트 템플릿 사용의 토글을 켭니다.
    2. (선택 사항) 각 데이터세트에 대해 Clarify에서 제공하는 프롬프트를 검토합니다.
    3. 저장(Save)을 선택합니다.
  - 사용자 지정 프롬프트 템플릿을 사용하려면 다음 단계를 완료하세요.
    1. 데이터세트에서 제공하는 기본 프롬프트 템플릿 사용의 토글을 끕니다.
    2. Clarify가 기본 프롬프트를 표시하는 경우 사용자 지정하거나 제거한 후 직접 제공할 수 있습니다. 프롬프트 템플릿에 $model_input 변수를 포함해야 합니다.
    3. 저장(Save)을 선택합니다.
6. 그런 다음 작업 유형에서 작업 유형을 선택합니다.
  
  작업 유형 및 관련 평가 차원에 대한 자세한 내용은 모델 평가 작업에서 프롬프트 데이터세트 및 사용 가능한 평가 차원 사용 의 Automatic evaluation을 참조하세요.
7. 평가 지표 섹션에서 평가 차원을 선택합니다. 설명 아래의 텍스트 상자에는 차원에 대한 추가 컨텍스트가 포함되어 있습니다.
  
  작업을 선택하면 작업과 연결된 지표가 지표 아래에 나타납니다. 이 섹션에서는 다음 작업을 수행합니다.
8. 평가 차원의 아래쪽 화살표에서 평가 차원을 선택합니다.
9. 평가 데이터세트를 선택합니다. 자체 데이터세트를 사용하거나 기본 제공 데이터세트를 사용하도록 선택할 수 있습니다. 자체 데이터세트를 사용하여 모델을 평가하려면 FMEval이 사용할 수 있는 방식으로 형식을 지정해야 합니다. 또한 이전 환경을 설정합니다 섹션에서 참조된 CORS 권한이 있는 S3 버킷에 있어야 합니다. 사용자 지정 데이터세트의 형식을 지정하는 방법에 대한 자세한 내용은 사용자 지정 입력 데이터세트 사용 섹션을 참조하세요.
10. 출력 평가 결과를 저장할 S3 버킷 위치를 입력합니다. 이 파일은 jsonlines(.jsonl) 형식입니다.
11. 다음 파라미터를 사용하여 프로세서 구성 섹션에서 프로세서를 구성합니다.
  - 인스턴스 수를 사용하여 모델을 실행하는 데 사용하려는 컴퓨팅 인스턴스 수를 지정합니다. 1개 이상의 인스턴스를 사용하는 경우 모델이 병렬 인스턴스에서 실행됩니다.
  - 인스턴스 유형을 사용하여 모델을 실행하는 데 사용할 컴퓨팅 인스턴스 유형을 선택합니다. 인스턴스 유형에 대한 자세한 내용은 Studio Classic에 사용할 수 있는 인스턴스 유형 섹션을 참조하세요.
  - 볼륨 KMS 키를 사용하여 AWS Key Management Service (AWS KMS) 암호화 키를 지정합니다. SageMaker AI는 AWS KMS 키를 사용하여 모델과 Amazon S3 버킷에서 들어오는 트래픽을 암호화합니다. 키에 대한 자세한 내용은 AWS Key Management Service 섹션을 참조하세요.
  - 출력 KMS 키를 사용하여 송신 트래픽에 대한 AWS KMS 암호화 키를 지정합니다.
  - IAM 역할을 사용하여 기본 프로세서에 대한 액세스 및 권한을 지정합니다. 환경을 설정합니다에서 설정한 IAM 역할을 입력합니다.
12. 모델과 기준을 지정한 후 다음을 선택합니다. 기본 창은 5단계 검토 및 저장으로 건너뜁니다.

평가 작업 검토 및 실행

평가를 위해 선택한 모든 파라미터, 모델 및 데이터를 검토합니다.
리소스 만들기를 선택하여 평가를 실행합니다.
작업 상태를 확인하려면 페이지의 모델 평가 섹션 상단으로 이동합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

자동 모델 평가

fmeval 라이브러리를 사용하여 자동 평가 실행