쿠키 기본 설정 선택

당사는 사이트와 서비스를 제공하는 데 필요한 필수 쿠키 및 유사한 도구를 사용합니다. 고객이 사이트를 어떻게 사용하는지 파악하고 개선할 수 있도록 성능 쿠키를 사용해 익명의 통계를 수집합니다. 필수 쿠키는 비활성화할 수 없지만 '사용자 지정' 또는 ‘거부’를 클릭하여 성능 쿠키를 거부할 수 있습니다.

사용자가 동의하는 경우 AWS와 승인된 제3자도 쿠키를 사용하여 유용한 사이트 기능을 제공하고, 사용자의 기본 설정을 기억하고, 관련 광고를 비롯한 관련 콘텐츠를 표시합니다. 필수가 아닌 모든 쿠키를 수락하거나 거부하려면 ‘수락’ 또는 ‘거부’를 클릭하세요. 더 자세한 내용을 선택하려면 ‘사용자 정의’를 클릭하세요.

최적화된 모델의 성능 평가

포커스 모드
최적화된 모델의 성능 평가 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

최적화 작업을 사용하여 최적화된 모델을 생성한 후 모델 성능 평가를 실행할 수 있습니다. 이 평가는 지연 시간, 처리량 및 가격에 대한 지표를 산출합니다. 이러한 지표를 사용하여 최적화된 모델이 사용 사례의 요구 사항을 충족하는지 또는 추가 최적화가 필요한지 확인합니다.

Studio를 사용해야만 성능 평가를 실행할 수 있습니다. 이 기능은 Amazon SageMaker AI API 또는 Python SDK를 통해 제공되지 않습니다.

시작하기 전 준비 사항

성능 평가를 생성하기 전에 먼저 추론 최적화 작업을 생성하여 모델을 최적화해야 합니다. Studio에서는 이러한 작업으로 생성한 모델만 평가할 수 있습니다.

성능 평가 생성

Studio에서 다음 단계를 완료하여 최적화된 모델에 대한 성능 평가를 생성합니다.

  1. Studio 탐색 메뉴의 작업 에서 추론 최적화를 선택합니다.

  2. 평가하려는 최적화된 모델을 생성한 작업의 이름을 선택합니다.

  3. 작업 세부 정보 페이지에서 성능 평가를 선택합니다.

  4. 성능 평가 페이지에서 일부 JumpStart 모델은 계속 진행하기 전에 최종 사용자 라이선스 계약(EULA)에 서명해야 합니다. 요청된 경우 라이선스 계약 섹션의 라이선스 조건을 검토합니다. 사용 사례에 적합한 용어인 경우 EULA 동의 확인란을 선택하고 사용 약관을 읽습니다.

  5. 토큰화기 모델 선택에서 기본값을 수락하거나 평가를 위한 토큰화기 역할을 할 특정 모델을 선택합니다.

  6. 입력 데이터세트에서 다음을 선택합니다.

    • SageMaker AI의 기본 샘플 데이터 세트를 사용합니다.

    • 자체 샘플 데이터세트를 가리키는 S3 URI를 제공합니다.

  7. 성능 결과에 대한 S3 URI의 경우 평가 결과를 저장하려는 Amazon S3의 위치를 가리키는 URI를 제공합니다.

  8. 평가를 선택합니다.

    Studio는 테이블에 평가 작업이 표시되는 성능 평가 페이지를 보여줍니다. 상태 열에는 평가 상태가 표시됩니다.

  9. 상태가 완료이면 작업 이름을 선택하여 평가 결과를 확인합니다.

평가 세부 정보 페이지에는 지연 시간, 처리량 및 요금에 대한 성능 지표를 제공하는 테이블이 표시됩니다. 추론 성능 평가에 대한 지표 참조 지표에 대한 자세한 내용은를 참고하세요.

추론 성능 평가에 대한 지표 참조

최적화된 모델의 성능을 성공적으로 평가하면 Studio의 평가 세부 정보 페이지에 다음 지표가 표시됩니다.

지연 시간 지표

지연 시간 섹션에는 다음 지표가 표시됩니다.

동시성

엔드포인트를 동시에 호출하기 위해 평가를 시뮬레이션한 동시 사용자의 수입니다.

첫 번째 토큰까지의 시간(ms)

요청이 전송된 시점과 스트리밍 응답의 첫 번째 토큰이 수신된 시점 사이에 경과한 시간입니다.

토큰 간 지연 시간(ms)

각 요청에 대한 출력 토큰을 생성하는 시간입니다.

클라이언트 지연 시간(ms)

요청이 전송된 시점부터 전체 응답이 수신된 시점까지의 요청 지연 시간입니다.

입력 토큰/초(카운트)

모든 요청에서 생성된 입력 토큰의 총 수를 동시성의 총 지속 시간으로 나눈 값입니다.

출력 토큰/초(카운트)

모든 요청에서 생성된 출력 토큰의 총 수를 동시성에 대해 초 단위로 나눈 값입니다.

클라이언트 호출(수)

동시에 모든 사용자에 걸쳐 엔드포인트로 전송된 추론 요청의 총 수입니다.

클라이언트 호출 오류(개수)

지정된 동시성에 모든 사용자에 걸쳐 엔드포인트로 전송된 총 추론 요청 수로, 호출 오류가 발생했습니다.

토큰화 실패(개수)

토큰화기가 요청 또는 응답을 구문 분석하지 못한 총 추론 요청 수입니다.

빈 추론 응답(개수)

출력 토큰이 0이거나 토큰화기가 응답을 구문 분석하지 못한 총 추론 요청 수입니다.

처리량 지표

처리량 섹션에는 다음 지표가 표시됩니다.

동시성

엔드포인트를 동시에 호출하기 위해 평가를 시뮬레이션한 동시 사용자의 수입니다.

입력 토큰/초/요청(수)

요청당 초당 생성된 입력 토큰의 총 수입니다.

출력 토큰/초/요청(카운트)

요청당 초당 생성된 출력 토큰의 총 수입니다.

입력 토큰(개수)

요청당 생성된 입력 토큰의 총 수입니다.

출력 토큰(개수)

요청당 생성된 출력 토큰의 총 수입니다.

가격 지표

가격 섹션에는 다음 지표가 표시됩니다.

동시성

엔드포인트를 동시에 호출하기 위해 평가를 시뮬레이션한 동시 사용자의 수입니다.

입력 토큰 백만 개당 가격

1M 입력 토큰 처리 비용.

백만 출력 토큰당 가격

1M 출력 토큰 생성 비용.

프라이버시사이트 이용 약관쿠키 기본 설정
© 2025, Amazon Web Services, Inc. 또는 계열사. All rights reserved.