최적화된 모델의 성능 평가

포커스 모드

최적화된 모델의 성능 평가 - Amazon SageMaker AI

최적화 작업을 사용하여 최적화된 모델을 생성한 후 모델 성능 평가를 실행할 수 있습니다. 이 평가는 지연 시간, 처리량 및 가격에 대한 지표를 산출합니다. 이러한 지표를 사용하여 최적화된 모델이 사용 사례의 요구 사항을 충족하는지 또는 추가 최적화가 필요한지 확인합니다.

Studio를 사용해야만 성능 평가를 실행할 수 있습니다. 이 기능은 Amazon SageMaker AI API 또는 Python SDK를 통해 제공되지 않습니다.

시작하기 전 준비 사항

성능 평가를 생성하기 전에 먼저 추론 최적화 작업을 생성하여 모델을 최적화해야 합니다. Studio에서는 이러한 작업으로 생성한 모델만 평가할 수 있습니다.

성능 평가 생성

Studio에서 다음 단계를 완료하여 최적화된 모델에 대한 성능 평가를 생성합니다.

Studio 탐색 메뉴의 작업 에서 추론 최적화를 선택합니다.
평가하려는 최적화된 모델을 생성한 작업의 이름을 선택합니다.
작업 세부 정보 페이지에서 성능 평가를 선택합니다.
성능 평가 페이지에서 일부 JumpStart 모델은 계속 진행하기 전에 최종 사용자 라이선스 계약(EULA)에 서명해야 합니다. 요청된 경우 라이선스 계약 섹션의 라이선스 조건을 검토합니다. 사용 사례에 적합한 용어인 경우 EULA 동의 확인란을 선택하고 사용 약관을 읽습니다.
토큰화기 모델 선택에서 기본값을 수락하거나 평가를 위한 토큰화기 역할을 할 특정 모델을 선택합니다.
입력 데이터세트에서 다음을 선택합니다.
- SageMaker AI의 기본 샘플 데이터 세트를 사용합니다.
- 자체 샘플 데이터세트를 가리키는 S3 URI를 제공합니다.
성능 결과에 대한 S3 URI의 경우 평가 결과를 저장하려는 Amazon S3의 위치를 가리키는 URI를 제공합니다.
평가를 선택합니다.

Studio는 테이블에 평가 작업이 표시되는 성능 평가 페이지를 보여줍니다. 상태 열에는 평가 상태가 표시됩니다.
상태가 완료이면 작업 이름을 선택하여 평가 결과를 확인합니다.

평가 세부 정보 페이지에는 지연 시간, 처리량 및 요금에 대한 성능 지표를 제공하는 테이블이 표시됩니다. 추론 성능 평가에 대한 지표 참조 지표에 대한 자세한 내용은를 참고하세요.

추론 성능 평가에 대한 지표 참조

최적화된 모델의 성능을 성공적으로 평가하면 Studio의 평가 세부 정보 페이지에 다음 지표가 표시됩니다.

지연 시간 지표

지연 시간 섹션에는 다음 지표가 표시됩니다.

동시성: 엔드포인트를 동시에 호출하기 위해 평가를 시뮬레이션한 동시 사용자의 수입니다.
첫 번째 토큰까지의 시간(ms): 요청이 전송된 시점과 스트리밍 응답의 첫 번째 토큰이 수신된 시점 사이에 경과한 시간입니다.
토큰 간 지연 시간(ms): 각 요청에 대한 출력 토큰을 생성하는 시간입니다.
클라이언트 지연 시간(ms): 요청이 전송된 시점부터 전체 응답이 수신된 시점까지의 요청 지연 시간입니다.
입력 토큰/초(카운트): 모든 요청에서 생성된 입력 토큰의 총 수를 동시성의 총 지속 시간으로 나눈 값입니다.
출력 토큰/초(카운트): 모든 요청에서 생성된 출력 토큰의 총 수를 동시성에 대해 초 단위로 나눈 값입니다.
클라이언트 호출(수): 동시에 모든 사용자에 걸쳐 엔드포인트로 전송된 추론 요청의 총 수입니다.
클라이언트 호출 오류(개수): 지정된 동시성에 모든 사용자에 걸쳐 엔드포인트로 전송된 총 추론 요청 수로, 호출 오류가 발생했습니다.
토큰화 실패(개수): 토큰화기가 요청 또는 응답을 구문 분석하지 못한 총 추론 요청 수입니다.
빈 추론 응답(개수): 출력 토큰이 0이거나 토큰화기가 응답을 구문 분석하지 못한 총 추론 요청 수입니다.

처리량 지표

처리량 섹션에는 다음 지표가 표시됩니다.

동시성: 엔드포인트를 동시에 호출하기 위해 평가를 시뮬레이션한 동시 사용자의 수입니다.
입력 토큰/초/요청(수): 요청당 초당 생성된 입력 토큰의 총 수입니다.
출력 토큰/초/요청(카운트): 요청당 초당 생성된 출력 토큰의 총 수입니다.
입력 토큰(개수): 요청당 생성된 입력 토큰의 총 수입니다.
출력 토큰(개수): 요청당 생성된 출력 토큰의 총 수입니다.

가격 지표

가격 섹션에는 다음 지표가 표시됩니다.

동시성: 엔드포인트를 동시에 호출하기 위해 평가를 시뮬레이션한 동시 사용자의 수입니다.
입력 토큰 백만 개당 가격: 1M 입력 토큰 처리 비용.
백만 출력 토큰당 가격: 1M 출력 토큰 생성 비용.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

최적화 작업 결과 보기

지원되는 모델 참조

이 페이지에서

쿠키 기본 설정 선택

쿠키 기본 설정 사용자 지정

필수

성능

기능

광고

쿠키 기본 설정을 저장할 수 없음

최적화된 모델의 성능 평가

시작하기 전 준비 사항

성능 평가 생성

추론 성능 평가에 대한 지표 참조

지연 시간 지표

처리량 지표

가격 지표

이 페이지에서

Related resources

페이지 내용이 도움이 되었습니까?

Related resources

다음 주제:

이전 주제:

도움이 필요하십니까?