추론 최적화 작업 생성

포커스 모드

추론 최적화 작업 생성 - Amazon SageMaker AI

Studio 또는 SageMaker AI Python SDK를 사용하여 추론 최적화 작업을 생성할 수 있습니다. 이 작업은 선택한 기술을 적용하여 모델을 최적화합니다. 자세한 내용은 최적화 기법 단원을 참조하십시오.

추론 최적화 작업에 대한 인스턴스 요금

양자화 또는 컴파일을 적용하는 추론 최적화 작업을 생성할 때 SageMaker AI는 작업을 실행하는 데 사용할 인스턴스 유형을 선택합니다. 사용된 인스턴스에 따라 요금이 부과됩니다.

가능한 인스턴스 유형 및 요금 세부 정보는 Amazon SageMaker AI 요금 페이지에서 추론 최적화 요금 정보를 참조하세요.

추론성 디코딩을 적용하는 작업에는 추가 비용이 발생하지 않습니다.

최적화할 수 있는 지원되는 모델은 섹션을 참조하세요지원되는 모델 참조.

Studio에서 추론 최적화 작업을 생성하려면 다음 단계를 완료하세요.

최적화 작업 생성을 시작하려면

SageMaker AI Studio에서 다음 경로 중 하나를 통해 최적화 작업을 생성합니다.
- JumpStart 모델에 대한 작업을 생성하려면 다음을 수행합니다.
  1. 탐색 메뉴에서 JumpStart를 선택합니다.
  2. 모든 퍼블릭 모델 페이지에서 모델 공급자를 선택한 다음 최적화를 지원하는 모델 중 하나를 선택합니다.
  3. 모델 세부 정보 페이지에서 최적화를 선택합니다. 이 버튼은 최적화를 지원하는 모델에 대해서만 활성화됩니다.
  4. 추론 최적화 생성 작업 페이지에서 일부 JumpStart 모델은 계속 진행하기 전에 최종 사용자 라이선스 계약(EULA)에 서명해야 합니다. 요청된 경우 라이선스 계약 섹션의 라이선스 조건을 검토합니다. 사용 사례에 적합한 용어인 경우 EULA 동의 확인란을 선택하고 사용 약관을 읽습니다.
- 미세 조정된 JumpStart 모델에 대한 작업을 생성하려면 다음을 수행합니다.
  1. 탐색 창의 작업에서 훈련을 선택합니다.
  2. 훈련 작업 페이지에서 JumpStart 모델을 미세 조정하는 데 사용한 작업의 이름을 선택합니다. 이러한 작업의 작업 유형 열에는 JumpStart 훈련이 있습니다.
  3. 훈련 작업의 세부 정보 페이지에서 최적화를 선택합니다.
- 사용자 지정 모델에 대한 작업을 생성하려면 다음을 수행합니다.
  1. 탐색 메뉴의 작업 에서 추론 최적화를 선택합니다.
  2. 새 작업 생성을 선택합니다.
  3. 추론 최적화 작업 생성 페이지에서 모델 추가를 선택합니다.
  4. 모델 추가 창에서 사용자 지정 모델을 선택합니다.
  5. 사용자 지정 모델 이름에 이름을 입력합니다.
  6. S3 URI에 모델 아티팩트를 저장한 Amazon S3의 위치에 대한 URI를 입력합니다.
추론 최적화 작업 생성 페이지의 작업 이름에서 SageMaker AI가 할당하는 기본 이름을 수락할 수 있습니다. 또는 사용자 지정 작업 이름을 입력하려면 작업 이름 필드를 선택하고 작업 이름 입력을 선택합니다.

최적화 구성을 설정하려면

배포 인스턴스 유형에서 모델을 최적화할 인스턴스 유형을 선택합니다.

인스턴스 유형은 선택할 수 있는 최적화 기술에 영향을 미칩니다. GPU 하드웨어를 사용하는 대부분의 유형에서 지원되는 기법은 양자화 및 추론 디코딩입니다. AWS Inferentia 인스턴스 ml.inf2.8xlarge와 같이 사용자 지정 실리콘을 사용하는 인스턴스를 선택하는 경우 지원되는 기법은 컴파일이며, 이를 사용하여 특정 하드웨어 유형에 대한 모델을 컴파일할 수 있습니다.
Studio에서 제공하는 최적화 기술 중 하나 이상을 선택합니다.
- 양자화를 선택한 경우 정밀도 데이터 유형에 대한 데이터 유형을 선택합니다.
- 추측 디코딩을 선택하는 경우 다음 옵션 중 하나를 선택합니다.
  - SageMaker AI 초안 모델 사용 - SageMaker AI가 제공하는 초안 모델을 사용하도록 선택합니다.
    
    참고
    SageMaker AI 초안 모델을 사용하도록 선택한 경우 네트워크 격리도 활성화해야 합니다. Studio는 보안에서이 옵션을 제공합니다.
  - JumpStart 초안 모델 선택 - JumpStart 카탈로그에서 초안 모델로 사용할 모델을 선택합니다.
  - 자체 초안 모델 선택 - 자체 초안 모델을 사용하도록 선택하고 해당 모델을 찾는 S3 URI를 제공합니다.
- 빠른 모델 로드를 선택하면 Studio에 OPTION_TENSOR_PARALLEL_DEGREE 환경 변수가 표시됩니다. 값 필드를 사용하여 텐서 병렬 처리 정도를 설정합니다. 값은 배포 인스턴스 유형에 대해 선택한 인스턴스의 GPUs 수를 균등하게 나누어야 합니다. 예를 들어 GPU가 8개인 인스턴스를 사용하는 동안 모델을 샤딩하려면 값 2, 4 또는 8을 GPUs 사용합니다.
- 배포 인스턴스 유형을 AWS Inferentia 또는 AWS Trainium 인스턴스로 설정하면 Studio에서 컴파일이 지원되는 옵션 중 하나임을 표시할 수 있습니다. 이 경우 Studio가 이 옵션을 선택합니다.
출력에 Amazon S3에 위치의 URI를 입력합니다. 여기에서 SageMaker AI는 작업이 생성하는 최적화된 모델의 아티팩트를 저장합니다.
(선택 사항) IAM 역할, VPC 및 환경 변수와 같은 설정을 보다 세밀하게 제어하려면 고급 옵션을 확장합니다. 자세한 내용은 아래 고급 옵션 섹션을 참조하세요.
작업 구성이 완료되면 작업 생성을 선택합니다.

Studio는 작업 상태 및 모든 설정을 보여주는 작업 세부 정보 페이지를 표시합니다.

고급 옵션

추론 최적화 작업을 생성할 때 다음과 같은 고급 옵션을 설정할 수 있습니다.

구성에서 다음 옵션을 설정할 수 있습니다.

텐서 병렬도

텐서 병렬 처리 정도에 대한 값입니다. 텐서 병렬 처리는 특정 모델 가중치, 그라디언트, 옵티마이저 상태가 디바이스 간에 분할되는 일종의 모델 병렬 처리입니다. 값은 클러스터의 GPU 균등하게 나누어야 합니다.

최대 토큰 길이

모델에서 생성할 토큰 수의 제한입니다. 모델이 항상 최대 토큰 수를 생성하는 것은 아닙니다.

동시성

동일한 기본 하드웨어에서 모델의 여러 인스턴스를 실행하는 기능입니다. 동시성을 사용하여 여러 사용자에게 예측을 제공하고 하드웨어 사용률을 극대화합니다.

배치 크기

모델이 배치 추론을 수행하는 경우 이 옵션을 사용하여 모델이 처리하는 배치의 크기를 제어합니다.

배치 추론은 배치 관찰성에서 모델 예측을 생성합니다. 대규모 데이터세트에 사용하거나 추론 요청에 대한 즉각적인 응답이 필요하지 않은 경우 좋은 옵션입니다.

보안에서 다음 옵션을 설정할 수 있습니다.

IAM 역할

SageMaker AI가 사용자를 대신하여 작업을 수행할 수 있도록 하는 IAM 역할입니다. 모델 최적화 중에 SageMaker AI는 다음을 수행할 수 있는 권한이 필요합니다.

S3 버킷에서 입력 데이터 읽기
S3 버킷에 모델 아티팩트 쓰기
Amazon CloudWatch Logs에 로그 작성
Amazon CloudWatch 지표 게시

이러한 모든 작업에 대한 권한을 IAM 역할에 부여합니다.

자세한 내용은 SageMaker AI 실행 역할을 사용하는 방법 섹션을 참조하세요.

KMS 키 암호화

AWS Key Management Service ()의 키입니다AWS KMS. SageMaker AI는 SageMaker AI가 모델을 Amazon S3에 업로드할 때 이러한 키를 사용하여 최적화된 모델의 아티팩트를 암호화합니다.

VPC

SageMaker AI는이 정보를 사용하여 네트워크 인터페이스를 생성하고 모델 컨테이너에 연결합니다. 네트워크 인터페이스는 모델 컨테이너에 인터넷에 연결되지 않은 VPC 내의 네트워크 연결을 제공합니다. 또한 모델을 프라이빗 VPC의 리소스에 연결할 수 있게 해 줍니다.

자세한 내용은 SageMaker AI 호스팅 엔드포인트에 Amazon VPC의 리소스에 대한 액세스 권한 부여 섹션을 참조하세요.

네트워크 격리 사용

컨테이너의 인터넷 액세스를 제한하려면 이 옵션을 활성화합니다. 네트워크 격리로 실행되는 컨테이너는 아웃바운드 네트워크 호출을 수행할 수 없습니다.

참고

추측 디코딩으로 최적화하고 SageMaker AI 초안 모델을 사용하는 경우이 옵션을 활성화해야 합니다.

네트워크 격리에 대한 자세한 내용은 섹션을 참조하세요네트워크 격리.

고급 컨테이너 정의에서 다음 옵션을 설정할 수 있습니다.

중지 조건

작업을 실행할 수 있는 기간에 대한 제한을 지정합니다. 작업이 시간 제한에 도달하면 SageMaker AI가 작업을 종료합니다. 비용을 제한하려면 이 옵션을 사용합니다.

Tags

최적화 작업과 연결된 키-값 페어입니다.

태그에 대한 자세한 내용은 AWS 일반 참조의 AWS 추론 태깅을 참조하세요.

환경 변수

모델 컨테이너에 설정할 환경 변수를 정의하는 키-값 페어입니다.

Amazon SageMaker Studio

Studio에서 추론 최적화 작업을 생성하려면 다음 단계를 완료하세요.

최적화 작업 생성을 시작하려면

SageMaker AI Studio에서 다음 경로 중 하나를 통해 최적화 작업을 생성합니다.
- JumpStart 모델에 대한 작업을 생성하려면 다음을 수행합니다.
  1. 탐색 메뉴에서 JumpStart를 선택합니다.
  2. 모든 퍼블릭 모델 페이지에서 모델 공급자를 선택한 다음 최적화를 지원하는 모델 중 하나를 선택합니다.
  3. 모델 세부 정보 페이지에서 최적화를 선택합니다. 이 버튼은 최적화를 지원하는 모델에 대해서만 활성화됩니다.
  4. 추론 최적화 생성 작업 페이지에서 일부 JumpStart 모델은 계속 진행하기 전에 최종 사용자 라이선스 계약(EULA)에 서명해야 합니다. 요청된 경우 라이선스 계약 섹션의 라이선스 조건을 검토합니다. 사용 사례에 적합한 용어인 경우 EULA 동의 확인란을 선택하고 사용 약관을 읽습니다.
- 미세 조정된 JumpStart 모델에 대한 작업을 생성하려면 다음을 수행합니다.
  1. 탐색 창의 작업에서 훈련을 선택합니다.
  2. 훈련 작업 페이지에서 JumpStart 모델을 미세 조정하는 데 사용한 작업의 이름을 선택합니다. 이러한 작업의 작업 유형 열에는 JumpStart 훈련이 있습니다.
  3. 훈련 작업의 세부 정보 페이지에서 최적화를 선택합니다.
- 사용자 지정 모델에 대한 작업을 생성하려면 다음을 수행합니다.
  1. 탐색 메뉴의 작업 에서 추론 최적화를 선택합니다.
  2. 새 작업 생성을 선택합니다.
  3. 추론 최적화 작업 생성 페이지에서 모델 추가를 선택합니다.
  4. 모델 추가 창에서 사용자 지정 모델을 선택합니다.
  5. 사용자 지정 모델 이름에 이름을 입력합니다.
  6. S3 URI에 모델 아티팩트를 저장한 Amazon S3의 위치에 대한 URI를 입력합니다.
추론 최적화 작업 생성 페이지의 작업 이름에서 SageMaker AI가 할당하는 기본 이름을 수락할 수 있습니다. 또는 사용자 지정 작업 이름을 입력하려면 작업 이름 필드를 선택하고 작업 이름 입력을 선택합니다.

최적화 구성을 설정하려면

배포 인스턴스 유형에서 모델을 최적화할 인스턴스 유형을 선택합니다.

인스턴스 유형은 선택할 수 있는 최적화 기술에 영향을 미칩니다. GPU 하드웨어를 사용하는 대부분의 유형에서 지원되는 기법은 양자화 및 추론 디코딩입니다. AWS Inferentia 인스턴스 ml.inf2.8xlarge와 같이 사용자 지정 실리콘을 사용하는 인스턴스를 선택하는 경우 지원되는 기법은 컴파일이며, 이를 사용하여 특정 하드웨어 유형에 대한 모델을 컴파일할 수 있습니다.
Studio에서 제공하는 최적화 기술 중 하나 이상을 선택합니다.
- 양자화를 선택한 경우 정밀도 데이터 유형에 대한 데이터 유형을 선택합니다.
- 추측 디코딩을 선택하는 경우 다음 옵션 중 하나를 선택합니다.
  - SageMaker AI 초안 모델 사용 - SageMaker AI가 제공하는 초안 모델을 사용하도록 선택합니다.
    
    참고
    SageMaker AI 초안 모델을 사용하도록 선택한 경우 네트워크 격리도 활성화해야 합니다. Studio는 보안에서이 옵션을 제공합니다.
  - JumpStart 초안 모델 선택 - JumpStart 카탈로그에서 초안 모델로 사용할 모델을 선택합니다.
  - 자체 초안 모델 선택 - 자체 초안 모델을 사용하도록 선택하고 해당 모델을 찾는 S3 URI를 제공합니다.
- 빠른 모델 로드를 선택하면 Studio에 OPTION_TENSOR_PARALLEL_DEGREE 환경 변수가 표시됩니다. 값 필드를 사용하여 텐서 병렬 처리 정도를 설정합니다. 값은 배포 인스턴스 유형에 대해 선택한 인스턴스의 GPUs 수를 균등하게 나누어야 합니다. 예를 들어 GPU가 8개인 인스턴스를 사용하는 동안 모델을 샤딩하려면 값 2, 4 또는 8을 GPUs 사용합니다.
- 배포 인스턴스 유형을 AWS Inferentia 또는 AWS Trainium 인스턴스로 설정하면 Studio에서 컴파일이 지원되는 옵션 중 하나임을 표시할 수 있습니다. 이 경우 Studio가 이 옵션을 선택합니다.
출력에 Amazon S3에 위치의 URI를 입력합니다. 여기에서 SageMaker AI는 작업이 생성하는 최적화된 모델의 아티팩트를 저장합니다.
(선택 사항) IAM 역할, VPC 및 환경 변수와 같은 설정을 보다 세밀하게 제어하려면 고급 옵션을 확장합니다. 자세한 내용은 아래 고급 옵션 섹션을 참조하세요.
작업 구성이 완료되면 작업 생성을 선택합니다.

Studio는 작업 상태 및 모든 설정을 보여주는 작업 세부 정보 페이지를 표시합니다.

고급 옵션

추론 최적화 작업을 생성할 때 다음과 같은 고급 옵션을 설정할 수 있습니다.

구성에서 다음 옵션을 설정할 수 있습니다.

텐서 병렬도

최대 토큰 길이

모델에서 생성할 토큰 수의 제한입니다. 모델이 항상 최대 토큰 수를 생성하는 것은 아닙니다.

동시성

배치 크기

모델이 배치 추론을 수행하는 경우 이 옵션을 사용하여 모델이 처리하는 배치의 크기를 제어합니다.

보안에서 다음 옵션을 설정할 수 있습니다.

IAM 역할

S3 버킷에서 입력 데이터 읽기
S3 버킷에 모델 아티팩트 쓰기
Amazon CloudWatch Logs에 로그 작성
Amazon CloudWatch 지표 게시

이러한 모든 작업에 대한 권한을 IAM 역할에 부여합니다.

자세한 내용은 SageMaker AI 실행 역할을 사용하는 방법 섹션을 참조하세요.

KMS 키 암호화

VPC

자세한 내용은 SageMaker AI 호스팅 엔드포인트에 Amazon VPC의 리소스에 대한 액세스 권한 부여 섹션을 참조하세요.

네트워크 격리 사용

참고

추측 디코딩으로 최적화하고 SageMaker AI 초안 모델을 사용하는 경우이 옵션을 활성화해야 합니다.

네트워크 격리에 대한 자세한 내용은 섹션을 참조하세요네트워크 격리.

고급 컨테이너 정의에서 다음 옵션을 설정할 수 있습니다.

중지 조건

Tags

최적화 작업과 연결된 키-값 페어입니다.

태그에 대한 자세한 내용은 AWS 일반 참조의 AWS 추론 태깅을 참조하세요.

환경 변수

모델 컨테이너에 설정할 환경 변수를 정의하는 키-값 페어입니다.

프로젝트에서 SageMaker AI Python SDK를 사용하여 추론 최적화 작업을 생성할 수 있습니다. 먼저 ModelBuilder 클래스를 사용하여 Model 인스턴스를 정의합니다. 그런 다음 optimize() 메서드를 사용하여 양자화, 투기 디코딩 또는 컴파일로 모델을 최적화하는 작업을 실행합니다. 작업이 완료되면 deploy() 메서드를 사용하여 모델을 추론 엔드포인트에 배포합니다.

다음 예제에서 사용되는 클래스 및 메서드에 대한 자세한 내용은 SageMaker AI Python SDK 설명서의 APIs를 참조하세요.

프로젝트를 설정하려면

애플리케이션 코드에서 필요한 라이브러리를 가져옵니다. 다음 예제에서는 SDK for Python(Boto3)을 사용합니다. 또한 모델을 정의하고 작업하는 데 사용하는 SageMaker AI Python SDK에서 클래스를 가져옵니다.
```
import boto3
from sagemaker.serve.builder.model_builder import ModelBuilder
from sagemaker.serve.builder.schema_builder import SchemaBuilder
from sagemaker.session import Session
from pathlib import Path
```
SageMaker AI 세션을 초기화합니다. 다음 예제에서는 Session() 클래스를 사용합니다.
```
sagemaker_session = Session()
```

모델을 정의하려면

SchemaBuilder 인스턴스를 생성하고 입력 및 출력 샘플을 제공합니다. 모델을 정의할 때 이 인스턴스를 ModelBuilder 클래스에 제공합니다. 이를 통해 SageMaker AI는 입력 및 출력을 직렬화 및 역직렬화하기 위한 마샬링 함수를 자동으로 생성합니다.

SchemaBuilder 또는 ModelBuilder 클래스 사용에 대한 자세한 내용은 ModelBuilder를 사용하여 Amazon SageMaker AI에서 모델 생성 섹션을 참조하세요.

다음 예제에서는 SchemaBuilder 클래스에 샘플 입력 및 출력 문자열을 제공합니다.
```
response = "Jupiter is the largest planet in the solar system. It is the fifth planet from the sun."
sample_input = {
    "inputs": "What is the largest planet in the solar system?",
    "parameters": {"max_new_tokens": 128, "top_p": 0.9, "temperature": 0.6},
}
sample_output = [{"generated_text": response}]
schema_builder = SchemaBuilder(sample_input, sample_output)
```
모델을 SageMaker AI로 정의합니다. 다음 예제에서는 ModelBuilder 인스턴스를 초기화하기 위한 파라미터를 설정합니다.
```
model_builder = ModelBuilder(
    model="jumpstart-model-id",
    schema_builder=schema_builder,
    sagemaker_session=sagemaker_session,
    role_arn=sagemaker_session.get_caller_identity_arn(),
)
```
이 예제에서는 JumpStart 모델을 사용합니다. jumpstart-model-id를 meta-textgeneration-llama-3-70b와 같은 JumpStart 모델의 ID로 바꿉니다.
참고
추측 디코딩으로 최적화하고 SageMaker AI 초안을 사용하려면 네트워크 격리를 활성화해야 합니다. 이를 활성화하려면 ModelBuilder 인스턴스를 초기화할 때 다음 인수를 포함합니다.
```
enable_network_isolation=True,
```
네트워크 격리에 대한 자세한 내용은 섹션을 참조하세요네트워크 격리.

퀀타이즈로 최적화하려면

양자화 작업을 실행하려면 optimize() 메서드를 사용하고 quantization_config 인수를 설정합니다. 다음 예제에서는 최적화 컨테이너에서 환경 변수OPTION_QUANTIZE로를 설정합니다.
```
optimized_model = model_builder.optimize(
    instance_type="instance-type",
    accept_eula=True,
    quantization_config={
        "OverrideEnvironment": {
            "OPTION_QUANTIZE": "awq",
        },
    },
    output_path="s3://output-path",
)
```
이 예제에서는를 instance-type와 같은 ML 인스턴스로 바꿉니다ml.p4d.24xlarge. 를 작업이 생성하는 최적화된 모델을 저장하는 S3 위치의 경로s3://output-path로 바꿉니다.

optimize() 메서드는 모델을 엔드포인트에 배포하는 데 사용할 수 있는 Model 객체를 반환합니다.
작업이 완료되면 모델을 배포합니다. 다음 예제에서는 deploy() 메서드를 사용합니다.
```
predictor = optimized_model.deploy(
    instance_type="instance-type", 
    accept_eula=True,
)
```
이 예제에서는를 instance-type와 같은 ML 인스턴스로 바꿉니다ml.p4d.24xlarge.

deploy() 메서드는 모델을 호스팅하는 엔드포인트로 추론 요청을 보내는 데 사용할 수 있는 예측기 객체를 반환합니다.

SageMaker AI 초안 모델을 사용하여 추측 디코딩으로 최적화하려면

추측 디코딩으로 모델을 최적화할 때 SageMaker AI가 제공하는 초안 모델을 사용하거나 직접 사용할 수 있습니다. 다음 예제에서는 SageMaker AI 초안 모델을 사용합니다.

전제 조건

추측 디코딩 및 SageMaker AI 초안 모델로 최적화하려면 모델을 정의할 때 네트워크 격리를 활성화해야 합니다.

추측 디코딩 작업을 실행하려면 optimize() 메서드를 사용하고 speculative_decoding_config 인수를 설정합니다. 다음 예제에서는 SageMaker AI가 제공하는 초안 모델을 사용하기 SAGEMAKER 위해 ModelProvider 키를 로 설정합니다.
```
optimized_model = model_builder.optimize(
    instance_type="instance-type",
    accept_eula=True,
    speculative_decoding_config={
        "ModelProvider": "SAGEMAKER",
    },
)
```
이 예제에서는를 instance-type와 같은 ML 인스턴스로 바꿉니다ml.p4d.24xlarge.

optimize() 메서드는 모델을 엔드포인트에 배포하는 데 사용할 수 있는 Model 객체를 반환합니다.
작업이 완료되면 모델을 배포합니다. 다음 예제에서는 deploy() 메서드를 사용합니다.
```
predictor = optimized_model.deploy(accept_eula=True)
```
deploy() 메서드는 모델을 호스팅하는 엔드포인트로 추론 요청을 보내는 데 사용할 수 있는 예측기 객체를 반환합니다.

사용자 지정 초안 모델을 사용하여 추측 디코딩으로 최적화하려면

SageMaker AI에 사용자 지정 초안 모델을 제공하려면 먼저 모델 아티팩트를 Amazon S3에 업로드해야 합니다.

다음 예제에서는 사용자 지정 초안 모델을 제공하는 한 가지 방법을 보여줍니다. 이 예제에서는 Hugging Face Hub에서 초안 모델을 다운로드하고 Amazon S3에 업로드한 다음 speculative_decoding_config 인수에 S3 URI를 제공합니다.

Hugging Face Hub에서 모델을 다운로드하려면 프로젝트에 huggingface_hub 라이브러리를 추가하고 snapshot_download() 메서드를 사용하여 모델을 다운로드합니다. 다음 예시에서는 모델을 로컬 디렉터리에 다운로드합니다.
```
import huggingface_hub

huggingface_hub.snapshot_download(
    repo_id="model-id",
    revision="main",
    local_dir=download-dir,
    token=hf-access-token,
)
```
이 예제에서는를 model-id와 같은 Hugging Face Hub 모델의 ID로 바꿉니다meta-llama/Meta-Llama-3-8B. 를 로컬 디렉터리download-dir로 바꿉니다. 를 사용자 액세스 토큰hf-access-token으로 바꿉니다. 액세스 토큰을 가져오는 방법을 알아보려면 Hugging Face 설명서의 사용자 액세스 토큰을 참조하세요.

huggingface_hub 라이브러리에 대한 자세한 내용은 Hugging Face 설명서의 Hub 클라이언트 라이브러리를 참조하세요.
다운로드한 모델을 SageMaker AI에서 사용할 수 있도록 하려면 Amazon S3에 업로드합니다. 다음 예시에서는 sagemaker_session 객체를 사용하여 모델을 업로드합니다.
```
custom_draft_model_uri = sagemaker_session.upload_data(
    path=hf_local_download_dir.as_posix(),
    bucket=sagemaker_session.default_bucket(),
    key_prefix="prefix",
)
```
이 예제에서는를 prefix와 같이 S3의 초안 모델을 구분하는 데 도움이 되는 한정자로 바꿉니다spec-dec-custom-draft-model.

upload_data() 메서드는 모델 아티팩트에 대한 S3 URI를 반환합니다.
추측 디코딩 작업을 실행하려면 optimize() 메서드를 사용하고 speculative_decoding_config 인수를 설정합니다. 다음 예제에서는 ModelSource 키를 사용자 지정 초안 모델의 S3 URI로 설정합니다.
```
optimized_model = model_builder.optimize(
    instance_type="instance-type",
    accept_eula=True,
    speculative_decoding_config={
        "ModelSource": custom_draft_model_uri + "/",
    },
)
```
이 예제에서는를 instance-type와 같은 ML 인스턴스로 바꿉니다ml.p4d.24xlarge.

optimize() 메서드는 모델을 엔드포인트에 배포하는 데 사용할 수 있는 Model 객체를 반환합니다.
작업이 완료되면 모델을 배포합니다. 다음 예제에서는 deploy() 메서드를 사용합니다.
```
predictor = optimized_model.deploy(accept_eula=True)
```
deploy() 메서드는 모델을 호스팅하는 엔드포인트로 추론 요청을 보내는 데 사용할 수 있는 예측기 객체를 반환합니다.

컴파일로 최적화하려면

컴파일 작업을 실행하려면 optimize() 메서드를 사용하고 compilation_config 인수를 설정합니다. 다음 예제에서는 OverrideEnvironment 키를 사용하여 최적화 컨테이너에서 필요한 환경 변수를 설정합니다.
```
optimized_model = model_builder.optimize(
    instance_type="instance-type",
    accept_eula=True,
    compilation_config={
        "OverrideEnvironment": {
            "OPTION_TENSOR_PARALLEL_DEGREE": "24",
            "OPTION_N_POSITIONS": "8192",
            "OPTION_DTYPE": "fp16",
            "OPTION_ROLLING_BATCH": "auto",
            "OPTION_MAX_ROLLING_BATCH_SIZE": "4",
            "OPTION_NEURON_OPTIMIZE_LEVEL": "2",
        }
    },
    output_path="s3://output-path",
)
```
이 예제에서는 가속 하드웨어가 있는 ML 인스턴스 유형으로 instance-type를 설정합니다. 예를 들어 AWS Inferentia를 사용한 가속화된 추론의 경우 유형을와 같은 Inf2 인스턴스로 설정할 수 있습니다ml.inf2.48xlarge. 를 작업이 생성하는 최적화된 모델을 저장하는 S3 위치의 경로s3://output-path로 바꿉니다.
작업이 완료되면 모델을 배포합니다. 다음 예제에서는 deploy() 메서드를 사용합니다.
```
predictor = optimized_model.deploy(accept_eula=True)
```
deploy() 메서드는 모델을 호스팅하는 엔드포인트로 추론 요청을 보내는 데 사용할 수 있는 예측기 객체를 반환합니다.

추론 요청을 사용하여 모델을 테스트하려면

배포된 모델에 테스트 추론 요청을 보내려면 예측기 객체의 predict() 메서드를 사용합니다. 다음 예제에서는 예제에서 SchemaBuilder 클래스에 전달된 sample_input 변수를 전달하여 모델을 정의합니다.
```
predictor.predict(sample_input)
```
샘플 입력에는 프롬프트가 있습니다"What is the largest planet in the solar system?". predict() 메서드는 다음 예제와 같이 모델이 생성한 응답을 반환합니다.
```
{'generated_text': ' Jupiter is the largest planet in the solar system. It is the fifth planet from the sun. It is a gas giant with . . .'}
```

SageMaker AI Python SDK

다음 예제에서 사용되는 클래스 및 메서드에 대한 자세한 내용은 SageMaker AI Python SDK 설명서의 APIs를 참조하세요.

프로젝트를 설정하려면

애플리케이션 코드에서 필요한 라이브러리를 가져옵니다. 다음 예제에서는 SDK for Python(Boto3)을 사용합니다. 또한 모델을 정의하고 작업하는 데 사용하는 SageMaker AI Python SDK에서 클래스를 가져옵니다.
```
import boto3
from sagemaker.serve.builder.model_builder import ModelBuilder
from sagemaker.serve.builder.schema_builder import SchemaBuilder
from sagemaker.session import Session
from pathlib import Path
```
SageMaker AI 세션을 초기화합니다. 다음 예제에서는 Session() 클래스를 사용합니다.
```
sagemaker_session = Session()
```

모델을 정의하려면

SchemaBuilder 인스턴스를 생성하고 입력 및 출력 샘플을 제공합니다. 모델을 정의할 때 이 인스턴스를 ModelBuilder 클래스에 제공합니다. 이를 통해 SageMaker AI는 입력 및 출력을 직렬화 및 역직렬화하기 위한 마샬링 함수를 자동으로 생성합니다.

SchemaBuilder 또는 ModelBuilder 클래스 사용에 대한 자세한 내용은 ModelBuilder를 사용하여 Amazon SageMaker AI에서 모델 생성 섹션을 참조하세요.

다음 예제에서는 SchemaBuilder 클래스에 샘플 입력 및 출력 문자열을 제공합니다.
```
response = "Jupiter is the largest planet in the solar system. It is the fifth planet from the sun."
sample_input = {
    "inputs": "What is the largest planet in the solar system?",
    "parameters": {"max_new_tokens": 128, "top_p": 0.9, "temperature": 0.6},
}
sample_output = [{"generated_text": response}]
schema_builder = SchemaBuilder(sample_input, sample_output)
```
모델을 SageMaker AI로 정의합니다. 다음 예제에서는 ModelBuilder 인스턴스를 초기화하기 위한 파라미터를 설정합니다.
```
model_builder = ModelBuilder(
    model="jumpstart-model-id",
    schema_builder=schema_builder,
    sagemaker_session=sagemaker_session,
    role_arn=sagemaker_session.get_caller_identity_arn(),
)
```
이 예제에서는 JumpStart 모델을 사용합니다. jumpstart-model-id를 meta-textgeneration-llama-3-70b와 같은 JumpStart 모델의 ID로 바꿉니다.
참고
추측 디코딩으로 최적화하고 SageMaker AI 초안을 사용하려면 네트워크 격리를 활성화해야 합니다. 이를 활성화하려면 ModelBuilder 인스턴스를 초기화할 때 다음 인수를 포함합니다.
```
enable_network_isolation=True,
```
네트워크 격리에 대한 자세한 내용은 섹션을 참조하세요네트워크 격리.

퀀타이즈로 최적화하려면

양자화 작업을 실행하려면 optimize() 메서드를 사용하고 quantization_config 인수를 설정합니다. 다음 예제에서는 최적화 컨테이너에서 환경 변수OPTION_QUANTIZE로를 설정합니다.
```
optimized_model = model_builder.optimize(
    instance_type="instance-type",
    accept_eula=True,
    quantization_config={
        "OverrideEnvironment": {
            "OPTION_QUANTIZE": "awq",
        },
    },
    output_path="s3://output-path",
)
```
이 예제에서는를 instance-type와 같은 ML 인스턴스로 바꿉니다ml.p4d.24xlarge. 를 작업이 생성하는 최적화된 모델을 저장하는 S3 위치의 경로s3://output-path로 바꿉니다.

optimize() 메서드는 모델을 엔드포인트에 배포하는 데 사용할 수 있는 Model 객체를 반환합니다.
작업이 완료되면 모델을 배포합니다. 다음 예제에서는 deploy() 메서드를 사용합니다.
```
predictor = optimized_model.deploy(
    instance_type="instance-type", 
    accept_eula=True,
)
```
이 예제에서는를 instance-type와 같은 ML 인스턴스로 바꿉니다ml.p4d.24xlarge.

deploy() 메서드는 모델을 호스팅하는 엔드포인트로 추론 요청을 보내는 데 사용할 수 있는 예측기 객체를 반환합니다.

SageMaker AI 초안 모델을 사용하여 추측 디코딩으로 최적화하려면

전제 조건

추측 디코딩 및 SageMaker AI 초안 모델로 최적화하려면 모델을 정의할 때 네트워크 격리를 활성화해야 합니다.

추측 디코딩 작업을 실행하려면 optimize() 메서드를 사용하고 speculative_decoding_config 인수를 설정합니다. 다음 예제에서는 SageMaker AI가 제공하는 초안 모델을 사용하기 SAGEMAKER 위해 ModelProvider 키를 로 설정합니다.
```
optimized_model = model_builder.optimize(
    instance_type="instance-type",
    accept_eula=True,
    speculative_decoding_config={
        "ModelProvider": "SAGEMAKER",
    },
)
```
이 예제에서는를 instance-type와 같은 ML 인스턴스로 바꿉니다ml.p4d.24xlarge.

optimize() 메서드는 모델을 엔드포인트에 배포하는 데 사용할 수 있는 Model 객체를 반환합니다.
작업이 완료되면 모델을 배포합니다. 다음 예제에서는 deploy() 메서드를 사용합니다.
```
predictor = optimized_model.deploy(accept_eula=True)
```
deploy() 메서드는 모델을 호스팅하는 엔드포인트로 추론 요청을 보내는 데 사용할 수 있는 예측기 객체를 반환합니다.

사용자 지정 초안 모델을 사용하여 추측 디코딩으로 최적화하려면

SageMaker AI에 사용자 지정 초안 모델을 제공하려면 먼저 모델 아티팩트를 Amazon S3에 업로드해야 합니다.

Hugging Face Hub에서 모델을 다운로드하려면 프로젝트에 huggingface_hub 라이브러리를 추가하고 snapshot_download() 메서드를 사용하여 모델을 다운로드합니다. 다음 예시에서는 모델을 로컬 디렉터리에 다운로드합니다.
```
import huggingface_hub

huggingface_hub.snapshot_download(
    repo_id="model-id",
    revision="main",
    local_dir=download-dir,
    token=hf-access-token,
)
```
이 예제에서는를 model-id와 같은 Hugging Face Hub 모델의 ID로 바꿉니다meta-llama/Meta-Llama-3-8B. 를 로컬 디렉터리download-dir로 바꿉니다. 를 사용자 액세스 토큰hf-access-token으로 바꿉니다. 액세스 토큰을 가져오는 방법을 알아보려면 Hugging Face 설명서의 사용자 액세스 토큰을 참조하세요.

huggingface_hub 라이브러리에 대한 자세한 내용은 Hugging Face 설명서의 Hub 클라이언트 라이브러리를 참조하세요.
다운로드한 모델을 SageMaker AI에서 사용할 수 있도록 하려면 Amazon S3에 업로드합니다. 다음 예시에서는 sagemaker_session 객체를 사용하여 모델을 업로드합니다.
```
custom_draft_model_uri = sagemaker_session.upload_data(
    path=hf_local_download_dir.as_posix(),
    bucket=sagemaker_session.default_bucket(),
    key_prefix="prefix",
)
```
이 예제에서는를 prefix와 같이 S3의 초안 모델을 구분하는 데 도움이 되는 한정자로 바꿉니다spec-dec-custom-draft-model.

upload_data() 메서드는 모델 아티팩트에 대한 S3 URI를 반환합니다.
추측 디코딩 작업을 실행하려면 optimize() 메서드를 사용하고 speculative_decoding_config 인수를 설정합니다. 다음 예제에서는 ModelSource 키를 사용자 지정 초안 모델의 S3 URI로 설정합니다.
```
optimized_model = model_builder.optimize(
    instance_type="instance-type",
    accept_eula=True,
    speculative_decoding_config={
        "ModelSource": custom_draft_model_uri + "/",
    },
)
```
이 예제에서는를 instance-type와 같은 ML 인스턴스로 바꿉니다ml.p4d.24xlarge.

optimize() 메서드는 모델을 엔드포인트에 배포하는 데 사용할 수 있는 Model 객체를 반환합니다.
작업이 완료되면 모델을 배포합니다. 다음 예제에서는 deploy() 메서드를 사용합니다.
```
predictor = optimized_model.deploy(accept_eula=True)
```
deploy() 메서드는 모델을 호스팅하는 엔드포인트로 추론 요청을 보내는 데 사용할 수 있는 예측기 객체를 반환합니다.

컴파일로 최적화하려면

컴파일 작업을 실행하려면 optimize() 메서드를 사용하고 compilation_config 인수를 설정합니다. 다음 예제에서는 OverrideEnvironment 키를 사용하여 최적화 컨테이너에서 필요한 환경 변수를 설정합니다.
```
optimized_model = model_builder.optimize(
    instance_type="instance-type",
    accept_eula=True,
    compilation_config={
        "OverrideEnvironment": {
            "OPTION_TENSOR_PARALLEL_DEGREE": "24",
            "OPTION_N_POSITIONS": "8192",
            "OPTION_DTYPE": "fp16",
            "OPTION_ROLLING_BATCH": "auto",
            "OPTION_MAX_ROLLING_BATCH_SIZE": "4",
            "OPTION_NEURON_OPTIMIZE_LEVEL": "2",
        }
    },
    output_path="s3://output-path",
)
```
이 예제에서는 가속 하드웨어가 있는 ML 인스턴스 유형으로 instance-type를 설정합니다. 예를 들어 AWS Inferentia를 사용한 가속화된 추론의 경우 유형을와 같은 Inf2 인스턴스로 설정할 수 있습니다ml.inf2.48xlarge. 를 작업이 생성하는 최적화된 모델을 저장하는 S3 위치의 경로s3://output-path로 바꿉니다.
작업이 완료되면 모델을 배포합니다. 다음 예제에서는 deploy() 메서드를 사용합니다.
```
predictor = optimized_model.deploy(accept_eula=True)
```
deploy() 메서드는 모델을 호스팅하는 엔드포인트로 추론 요청을 보내는 데 사용할 수 있는 예측기 객체를 반환합니다.

추론 요청을 사용하여 모델을 테스트하려면

배포된 모델에 테스트 추론 요청을 보내려면 예측기 객체의 predict() 메서드를 사용합니다. 다음 예제에서는 예제에서 SchemaBuilder 클래스에 전달된 sample_input 변수를 전달하여 모델을 정의합니다.
```
predictor.predict(sample_input)
```
샘플 입력에는 프롬프트가 있습니다"What is the largest planet in the solar system?". predict() 메서드는 다음 예제와 같이 모델이 생성한 응답을 반환합니다.
```
{'generated_text': ' Jupiter is the largest planet in the solar system. It is the fifth planet from the sun. It is a gas giant with . . .'}
```

SageMaker AI 초안 모델의 제한 사항

SageMaker AI 초안 모델로 최적화하는 모든 모델의 경우 요구 사항, 제한 사항 및 지원되는 환경 변수에 유의하세요.

요구 사항

필요한 작업은 다음과 같습니다.

SageMaker AI JumpStart에서 제공하는 모델을 사용합니다.
모델 배포에 대해 네트워크 격리를 활성화합니다.
모델을 대형 모델 추론(LMI) 컨테이너에 배포하는 경우 버전 0.28.0 이상의 DJLServing 컨테이너를 사용합니다.

사용 가능한 컨테이너는 Deep Learning Containers GitHub 리포지토리의 대형 모델 추론 컨테이너를 참조하세요. GitHub
JumpStart 모델을 미세 조정하는 경우 모델 가중치에 대해 Safetensors 형식을 사용합니다.

이 형식에 대한 자세한 내용은 Hugging Face 설명서의 Safetensors를 참조하세요.

제한 사항

다음을 수행할 수 없습니다.

로컬 모드로 생성한 로컬 테스트 환경에서 모델을 사용합니다.

로컬 모드에 대한 자세한 내용은 SageMaker AI Python SDK 설명서의 로컬 모드를 참조하세요.
AWS Systems Manager 에이전트(SSM 에이전트)를 통해 모델 컨테이너에 액세스합니다. SSM 에이전트는 Amazon CloudWatch를 사용하여 프로세스 및 로그 명령을 디버깅할 수 있도록 모델 컨테이너에 대한 쉘 수준 액세스를 제공합니다.

이 기능에 대한 자세한 내용은 SSM을 통한 컨테이너 액세스을 참조하세요.
프로세스가 충돌할 경우 발생하는 코어 덤프의 모델 컨테이너를 구성합니다.

모델 컨테이너의 코어 덤프에 대한 자세한 내용은 ProductionVariantCoreDumpConfig를 참조하세요.
모델을 다중 모델 엔드포인트, 다중 컨테이너 엔드포인트 또는 추론 구성 요소를 호스팅하는 엔드포인트에 배포합니다.

이러한 엔드포인트 유형에 대한 자세한 내용은 다중 모델 엔드포인트, 다중 컨테이너 엔드포인트및 단원을 참조하십시오추론 구성 요쇼.
모델에 대한 모델 패키지를 생성합니다. 모델 패키지를 사용하여 게시하는 배포 가능한 모델을 생성합니다 AWS Marketplace.

이 기능에 대한 자세한 내용은 모델 패키지 리소스 생성을 참조하세요.
모델 컨테이너에서 자체 추론 코드를 사용합니다.
모델 컨테이너에서 requirements.txt 파일을 사용합니다. 이 유형의 파일은 패키지 종속성을 나열합니다.
Hugging Face 파라미터를 활성화합니다trust_remote_code.

지원되는 환경 변수

컨테이너는 다음 환경 변수로만 구성할 수 있습니다.

대규모 모델 추론(LMI) 컨테이너의 공통 환경 변수입니다.

이러한 변수에 대한 자세한 내용은 LMI 컨테이너 설명서의 환경 변수 구성을 참조하세요.
Hugging Face Hub가 Git 리포지토리에서 제공하는 패키지의 공통 환경 변수입니다.

리포지토리는 GitHub의 Hugging Face를 참조하세요.
일반적인 PyTorch 및 CUDA 환경 변수.

이러한 변수에 대한 자세한 내용은 PyTorch 설명서의 Torch 환경 변수를 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

사전 최적화된 모델 배포

최적화 작업 결과 보기

이 페이지에서

쿠키 기본 설정 선택

추론 최적화 작업 생성

추론 최적화 작업에 대한 인스턴스 요금

최적화 작업 생성을 시작하려면

최적화 구성을 설정하려면

참고

고급 옵션

참고

Amazon SageMaker Studio

최적화 작업 생성을 시작하려면

최적화 구성을 설정하려면

참고

고급 옵션

참고

프로젝트를 설정하려면

모델을 정의하려면

참고

퀀타이즈로 최적화하려면

SageMaker AI 초안 모델을 사용하여 추측 디코딩으로 최적화하려면

전제 조건

사용자 지정 초안 모델을 사용하여 추측 디코딩으로 최적화하려면

컴파일로 최적화하려면

추론 요청을 사용하여 모델을 테스트하려면

SageMaker AI Python SDK

프로젝트를 설정하려면

모델을 정의하려면

참고

퀀타이즈로 최적화하려면

SageMaker AI 초안 모델을 사용하여 추측 디코딩으로 최적화하려면

전제 조건

사용자 지정 초안 모델을 사용하여 추측 디코딩으로 최적화하려면

컴파일로 최적화하려면

추론 요청을 사용하여 모델을 테스트하려면

SageMaker AI 초안 모델의 제한 사항

요구 사항

제한 사항

지원되는 환경 변수

이 페이지에서

Related resources

페이지 내용이 도움이 되었습니까?

Related resources

다음 주제:

이전 주제:

도움이 필요하십니까?