Amazon을 통한 모델 추론 최적화 SageMaker - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon을 통한 모델 추론 최적화 SageMaker

SageMakerAmazon에서는 추론 최적화 기술을 적용하여 제너레이티브 AI 모델의 성능을 개선할 수 있습니다. 모델을 최적화하면 사용 사례에서 더 나은 비용 대비 성능을 얻을 수 있습니다. 모델을 최적화할 때는 양자화, 예측 디코딩, 컴파일 등 지원되는 최적화 기법 중 적용할 방법을 선택합니다. 모델을 최적화한 후 평가를 실행하여 지연 시간, 처리량, 가격에 대한 성능 지표를 확인할 수 있습니다.

SageMaker 또한 많은 모델에서 사전 최적화된 여러 버전을 제공하며, 각 버전은 지연 시간 및 처리량에 대한 다양한 애플리케이션 요구 사항을 충족합니다. 이러한 모델의 경우 먼저 모델을 최적화하지 않고도 최적화된 버전 중 하나를 배포할 수 있습니다.

최적화 기법

SageMaker Amazon은 다음과 같은 최적화 기술을 지원합니다.

예측 디코딩

예측 디코딩은 대규모 LLM의 디코딩 프로세스 속도를 높이는 기술입니다. 생성된 텍스트의 품질을 손상시키지 않으면서 지연 시간에 맞게 모델을 최적화합니다.

이 기법에서는 드래프트 모델이라는 작지만 더 빠른 모델을 사용합니다. 초안 모델은 후보 토큰을 생성하며, 이 후보 토큰은 더 크지만 속도가 느린 대상 모델에 의해 검증됩니다. 각 반복마다 초안 모델은 여러 후보 토큰을 생성합니다. 대상 모델은 토큰을 확인하고 특정 토큰이 허용되지 않는 것으로 확인되면 토큰을 거부하고 다시 생성합니다. 따라서 대상 모델은 토큰을 검증하고 소량의 토큰을 생성합니다.

초안 모델은 대상 모델보다 훨씬 빠릅니다. 모든 토큰을 빠르게 생성한 다음 검증을 위해 대상 모델로 일괄 전송합니다. 대상 모델은 이들 모두를 Parallel로 평가하므로 최종 응답 속도가 빨라집니다.

SageMaker 사용할 수 있는 사전 구축된 초안 모델을 제공하므로 직접 만들 필요가 없습니다. 사용자 지정 드래프트 모델을 사용하려는 경우 이 SageMaker 옵션도 지원합니다.

양자화

양자화는 가중치 및 활성화에 덜 정확한 데이터 유형을 사용하여 모델의 하드웨어 요구 사항을 줄이는 기법입니다. 양자화로 모델을 최적화한 후에는 더 저렴하고 가용성이 높은 GPU에서 호스팅할 수 있습니다. 하지만 양자화된 모델은 최적화한 소스 모델보다 정확도가 떨어질 수 있습니다.

SageMaker GPU에 대한 활성화 인식 가중치 양자화 (AWQ) 를 지원합니다. AWQ는 효율적이고 정확하며 비트가 낮고 가중치만 사용하는 LLM을 위한 양자화 기법입니다.

컴파일

컴파일은 정확도 저하 없이 선택한 하드웨어 유형에서 사용 가능한 최상의 성능을 발휘하도록 모델을 최적화합니다. 모델 컴파일을 적용하여 AWS Trainium 또는 Inferentia와 같은 가속화된 하드웨어에 맞게 LLM을 최적화할 수 있습니다. AWS

컴파일을 통해 모델을 최적화하면 컴파일의 이점을 누릴 수 있습니다. ahead-of-time 모델을 새 인스턴스에 배포할 때 모델 가중치를 just-in-time 컴파일할 필요가 없으므로 모델의 배포 시간과 자동 크기 조정 지연 시간을 줄일 수 있습니다.

사전 최적화된 모델을 배포하세요.

의 일부 JumpStart 모델은 에 의해 SageMaker 사전 최적화되므로 먼저 추론 최적화 작업을 생성하지 않고도 이러한 모델의 최적화된 버전을 배포할 수 있습니다. 사전 최적화된 옵션이 있는 모델 목록은 을 참조하십시오. 지원되는 모델 참조

사전 최적화된 모델을 배포하려면
  1. SageMaker Studio의 왼쪽 탐색 메뉴에서 선택합니다 JumpStart.

  2. 모든 공개 모델 페이지에서 사전 최적화된 모델 중 하나를 선택합니다.

  3. 모델 세부 정보 페이지에서 [Deploy] 를 선택합니다.

  4. 배포 페이지에서 일부 JumpStart 모델은 최종 사용자 라이선스 계약 (EULA) 에 서명해야 계속 진행할 수 있습니다. 요청된 경우 라이선스 계약 섹션의 라이선스 조건을 검토하십시오. 사용 사례에 적합한 약관인 경우 EULA에 동의함 확인란을 선택하고 이용 약관을 읽어 보십시오.

    자세한 정보는 최종 사용자 라이선스 계약을 참조하세요.

  5. 엔드포인트 이름초기 인스턴스 수의 경우 기본값을 그대로 사용하거나 사용자 지정 값을 설정합니다.

  6. 인스턴스 유형의 경우 기본값을 유지합니다. 그렇지 않으면 사전 최적화된 구성을 배포할 수 없습니다.

  7. 모델에서 모델 구성을 확장합니다. Studio에는 선택할 수 있는 사전 최적화된 구성을 제공하는 표가 표시됩니다. 각 옵션에는 지연 시간 및 처리량 지표가 있습니다. 애플리케이션 요구 사항에 가장 적합한 옵션을 선택하세요.

  8. 배포를 선택합니다.

다음 코드 예제는 Amazon SageMaker Python SDK를 사용하여 사전 최적화된 모델을 배포하는 방법을 보여줍니다.

클래스를 사용하여 SageMaker 모델을 정의하십시오. ModelBuilder

# sample payload response = "Hello, I'm a language model, and I'm here to help you with your English." sample_input = { "inputs": "Hello, I'm a language model,", "parameters": {"max_new_tokens":128, "do_sample":True} } sample_output = [ { "generated_text": response } ] # specify the Model ID for JumpStart model_builder = ModelBuilder( model="meta-textgeneration-llama-3-8b", schema_builder=SchemaBuilder(sample_input, sample_output), sagemaker_session=sagemaker_session, role_arn=my_role, )

모델에 대해 사전 벤치마킹된 구성을 나열하십시오.

model_builder.display_benchmark_metrics() # displays pre-benchmarking results

호출에서 반환된 기본 설정 instance_typeconfig_name 값을 사용하여 배포 구성을 설정합니다. display_benchmark_metrics()

model_builder.set_deployment_config() # set pre-optimized config bulder.set_deployment_config( instance_type="ml.g5.12xlarge", config_name="lmi-optimized" )

모델을 .build() 빌드하려면 호출하고 엔드포인트에 .deploy 배포하려면 호출합니다. 그런 다음 모델 예측을 테스트해 보세요.

# build the deployable model model = model_builder.build() # deploy the model to a SageMaker endpoint predictor = model.deploy(accept_eula=True) # use sample input payload to test the deployed endpoint predictor.predict(sample_input)

추론 최적화 작업 생성

Studio 또는 SageMaker Python SDK를 사용하여 추론 최적화 작업을 생성할 수 있습니다.

추론 최적화 작업의 인스턴스 요금

양자화 또는 컴파일을 적용하는 추론 최적화 작업을 생성할 때 작업을 실행하는 데 사용할 인스턴스 유형을 SageMaker 선택합니다. 사용한 인스턴스에 따라 요금이 부과됩니다.

가능한 인스턴스 유형 및 요금 세부 정보는 Amazon SageMaker 요금 페이지의 추론 최적화 요금 정보를 참조하십시오.

예측 디코딩을 적용하는 작업에는 추가 비용이 발생하지 않습니다.

Studio에서 추론 최적화 작업을 생성하려면 다음 단계를 완료하십시오.

최적화 작업 생성을 시작하려면
  1. SageMaker Studio에서 다음 경로 중 하나를 통해 최적화 작업을 생성합니다.

    • JumpStart 모델에 대한 작업을 생성하려면 다음과 같이 하십시오.

      1. 탐색 메뉴에서 JumpStart를 선택합니다.

      2. 모든 공개 모델 페이지에서 모델 제공자를 선택한 다음 최적화를 지원하는 모델 중 하나를 선택합니다.

      3. 모델 세부 정보 페이지에서 최적화를 선택합니다. 이 버튼은 최적화를 지원하는 모델에만 사용할 수 있습니다.

      4. 추론 최적화 작업 생성 페이지에서 일부 JumpStart 모델은 최종 사용자 사용권 계약 (EULA) 에 서명해야 작업을 계속할 수 있습니다. 요청이 있는 경우 라이선스 계약 섹션의 라이선스 조건을 검토하십시오. 사용 사례에 적합한 약관인 경우 EULA에 동의함 확인란을 선택하고 이용 약관을 읽어 보십시오.

    • 미세 조정된 JumpStart 모델을 위한 작업을 생성하려면 다음과 같이 하십시오.

      1. 탐색 메뉴의 [작업] 에서 [Training] 을 선택합니다.

      2. 교육 작업 페이지에서 JumpStart 모델을 미세 조정하는 데 사용한 작업 이름을 선택합니다. 이러한 작업에는 Job type 열에 유형 JumpStart 교육이 있습니다.

      3. 교육 작업의 세부 정보 페이지에서 최적화를 선택합니다.

    • 커스텀 모델용 작업을 생성하려면 다음과 같이 하세요.

      1. 탐색 메뉴의 작업에서 추론 최적화를 선택합니다.

      2. 새 작업 생성을 선택합니다.

      3. 추론 최적화 작업 생성 페이지에서 모델 추가를 선택합니다.

      4. 모델 추가 창에서 사용자 지정 모델을 선택합니다.

      5. 사용자 지정 모델 이름에 이름을 입력합니다.

      6. S3 URI의 경우 모델 아티팩트를 저장한 Amazon S3 내 위치에 대한 URI를 입력합니다.

  2. 추론 최적화 작업 생성 페이지에서 작업 이름에 SageMaker 할당되는 기본 이름을 그대로 사용할 수 있습니다. 또는 사용자 정의 작업 이름을 입력하려면 Job name 필드를 선택하고 Enter job name (작업 이름 입력) 을 선택합니다.

최적화 구성을 설정하려면
  1. 디플로이먼트 인스턴스 유형에서 모델을 최적화할 인스턴스 유형을 선택합니다.

    인스턴스 유형은 선택할 수 있는 최적화 기술에 영향을 줍니다. GPU 하드웨어를 사용하는 대부분의 유형에서 지원되는 기법은 양자화예측 디코딩입니다. AWS Inferentia 인스턴스 ml.inf2.8xlarge와 같이 사용자 지정 실리콘을 사용하는 인스턴스를 선택하는 경우 지원되는 기법은 특정 하드웨어 유형에 맞게 모델을 컴파일하는 데 사용할 수 있는 컴파일입니다.

  2. Studio에서 제공하는 최적화 기법 중 하나 이상을 선택하십시오.

    • 양자화를 선택하는 경우 정밀 데이터 유형의 데이터 유형을 선택하십시오.

    • 예측 디코딩을 선택하는 경우, 제공되는 SageMaker 초안 모델을 사용하려면 초안 모델을 선택하십시오. SageMaker 또는 자체 초안 모델을 사용하려면 자체 초안 모델 사용을 선택하고 해당 모델을 찾는 S3 URI를 제공하십시오.

    • 커스텀 실리콘을 사용하는 인스턴스를 선택한 경우 Studio에서 컴파일이 지원되는 옵션 중 하나라고 표시할 수 있습니다. 이 경우 Studio에서 이 옵션을 자동으로 선택합니다.

  3. 출력에는 Amazon S3에 있는 위치의 URI를 입력합니다. 여기에는 작업에서 생성한 최적화된 모델의 아티팩트가 SageMaker 저장됩니다.

  4. (선택 사항) IAM 역할, VPC, 환경 변수와 같은 설정을 보다 세밀하게 제어하려면 고급 옵션을 확장합니다. 자세한 내용은 아래의 고급 옵션을 참조하십시오.

  5. 작업 구성을 마치면 작업 생성을 선택합니다.

    Studio는 작업 상태 및 모든 설정을 보여주는 작업 세부 정보 페이지를 표시합니다.

고급 옵션

추론 최적화 작업을 생성할 때 다음과 같은 고급 옵션을 설정할 수 있습니다.

구성에서 다음 옵션을 설정할 수 있습니다.

텐서 병렬도

텐서 병렬 처리 정도를 나타내는 값입니다. 텐서 병렬 처리는 특정 모델 가중치, 그라디언트, 옵티마이저 상태가 디바이스 간에 분할되는 일종의 모델 병렬 처리입니다. 값은 클러스터의 GPU 수를 균등하게 나누어야 합니다.

최대 토큰 길이

모델에서 생성할 수 있는 토큰 수의 한도입니다. 단, 모델이 항상 최대 토큰 수를 생성하지는 않을 수도 있습니다.

동시성

동일한 기본 하드웨어에서 모델의 여러 인스턴스를 실행할 수 있습니다. 동시성을 사용하여 여러 사용자에게 예측을 제공하고 하드웨어 활용도를 극대화할 수 있습니다.

배치 크기

모델에서 일괄 추론을 수행하는 경우 이 옵션을 사용하여 모델이 처리하는 배치의 크기를 제어할 수 있습니다.

Batch 추론은 일련의 관측치에 대한 모델 예측을 생성합니다. 대규모 데이터셋이나 추론 요청에 대한 즉각적인 응답이 필요하지 않은 경우에 좋은 옵션입니다.

보안에서 다음 옵션을 설정할 수 있습니다.

IAM 역할

사용자를 대신하여 작업을 수행할 수 SageMaker 있게 해주는 IAM 역할. 모델 최적화 중에는 다음과 같은 권한이 SageMaker 필요합니다.

  • S3 버킷에서 입력 데이터 읽기

  • 모델 아티팩트를 S3 버킷에 쓰기

  • Amazon 로그에 CloudWatch 로그 쓰기

  • Amazon에 지표 게시 CloudWatch

이러한 모든 작업에 대한 권한을 IAM 역할에 부여합니다.

자세한 정보는 SageMaker 실행 역할 사용 방법을 참조하세요.

암호화 KMS 키

키 입력 AWS Key Management Service (AWS KMS). SageMaker Amazon S3에 모델을 SageMaker 업로드할 때 해당 키를 사용하여 최적화된 모델의 아티팩트를 암호화합니다.

VPC

SageMaker 이 정보를 사용하여 네트워크 인터페이스를 생성하고 이를 모델 컨테이너에 연결합니다. 네트워크 인터페이스는 모델 컨테이너에 인터넷에 연결되지 않은 VPC 내의 네트워크 연결을 제공합니다. 또한 모델을 프라이빗 VPC의 리소스에 연결할 수 있게 해 줍니다.

자세한 정보는 SageMaker 호스팅된 엔드포인트에 Amazon 리소스에 대한 액세스 권한 부여 VPC을 참조하세요.

네트워크 격리를 활성화합니다.

컨테이너의 인터넷 액세스를 제한하려면 이 옵션을 활성화하세요. 네트워크 격리로 실행되는 컨테이너는 아웃바운드 네트워크 호출을 할 수 없습니다.

고급 컨테이너 정의에서 다음 옵션을 설정할 수 있습니다.

중지 조건

작업 실행 시간 제한을 지정합니다. 작업이 시간 제한에 도달하면 작업이 SageMaker 종료됩니다. 이 옵션을 사용하여 비용을 제한할 수 있습니다.

Tags

최적화 작업과 관련된 키-값 쌍.

태그에 대한 자세한 내용은 의 AWS 리소스 태그 지정을 참조하십시오. AWS 일반 참조

환경 변수

모델 컨테이너에 설정할 환경 변수를 정의하는 키-값 쌍입니다.

다음 코드 예제는 Amazon SageMaker Python SDK를 사용하여 모델 추론을 최적화하는 방법을 보여줍니다.

예 를 사용하여 모델을 정의하는 SageMaker 코드 ModelBuilder
# sample payload response = "Hello, I'm a language model, and I'm here to help you with your English." sample_input = { "inputs": "Hello, I'm a language model,", "parameters": {"max_new_tokens":128, "do_sample":True} } sample_output = [ { "generated_text": response } ] # specify the Model ID for JumpStart model_builder = ModelBuilder( model="meta-textgeneration-llama-3-8b", schema_builder=SchemaBuilder(sample_input, sample_output), sagemaker_session=sagemaker_session, role_arn=my_role, )
예 양자화로 최적화하는 코드
optimized_model = model_builder.optimize( instance_type="ml.g5.12xlarge", accept_eula=True, quantization_config={ "OverrideEnvironment": { "OPTION_QUANTIZE": "awq" } }, output_path=f"s3://{output_bucket_name}/quantized/" ) # deploy the optimized model to a SageMaker endpoint predictor = optimized_model.deploy(accept_eula=True) # use sample input payload to test the deployed endpoint predictor.predict(sample_input)
예측 디코딩으로 최적화할 코드
optimized_model = model_builder.optimize( instance_type="ml.g5.12xlarge", accept_eula=True, speculative_decoding_config={ # Use SageMaker provided draft model "ModelProvider": "SAGEMAKER", }, ) # deploy the optimized model to a SageMaker endpoint predictor = optimized_model.deploy(accept_eula=True) # use sample input payload to test the deployed endpoint predictor.predict(sample_input)
예 컴파일을 통해 최적화하는 코드
optimized_model = model_builder.optimize( accept_eula=True, instance_type="ml.inf2.48xlarge", # config options for Inferentia2 instances compilation_config={ "OverrideEnvironment": { "OPTION_TENSOR_PARALLEL_DEGREE": "2", "OPTION_N_POSITIONS": "2048", "OPTION_DTYPE": "fp16", "OPTION_ROLLING_BATCH": "auto", "OPTION_MAX_ROLLING_BATCH_SIZE": "4", "OPTION_NEURON_OPTIMIZE_LEVEL": "2" } }, output_path=f"s3://<Enter your bucket name here>", ) # deploy the compiled model to a SageMaker endpoint predictor = compiled_model.deploy(accept_eula=True) # use sample input payload to test the deployed endpoint predictor.predict(sample_input)

최적화 작업 결과 보기

최적화 작업을 하나 이상 만든 후 Studio를 사용하여 모든 작업의 요약 테이블을 볼 수 있으며 개별 작업의 세부 정보를 볼 수 있습니다.

최적화 작업 요약 테이블을 보려면
  • Studio 탐색 메뉴의 작업에서 추론 최적화를 선택합니다.

    추론 최적화 페이지에는 생성한 작업이 표시된 표가 표시됩니다. 각 작업에 대해 적용한 최적화 구성과 작업 상태가 표시됩니다.

작업의 세부 정보를 보려면
  • 추론 최적화 페이지의 요약 테이블에서 작업 이름을 선택합니다.

    Studio는 작업 세부 정보 페이지를 표시합니다. 이 페이지에는 작업 상태 및 작업을 생성할 때 적용한 모든 설정이 표시됩니다. 작업이 성공적으로 완료되면 최적화된 모델 S3 URI의 Amazon S3 위치에 최적화된 모델 아티팩트를 SageMaker 저장했습니다.

최적화된 모델의 성능을 평가하십시오.

최적화 작업을 사용하여 최적화된 모델을 생성한 후 모델 성능 평가를 실행할 수 있습니다. 이 평가를 통해 지연 시간, 처리량 및 가격에 대한 메트릭이 산출됩니다. 이러한 지표를 사용하여 최적화된 모델이 사용 사례의 요구 사항을 충족하는지 또는 추가 최적화가 필요한지 여부를 결정하십시오.

Studio를 사용해야만 성능 평가를 실행할 수 있습니다. 이 기능은 Amazon SageMaker API 또는 Python SDK를 통해 제공되지 않습니다.

시작하기 전 준비 사항

성능 평가를 생성하려면 먼저 추론 최적화 작업을 생성하여 모델을 최적화해야 합니다. Studio에서는 이러한 작업으로 생성한 모델만 평가할 수 있습니다.

성과 평가를 생성하세요.

Studio에서 다음 단계를 완료하여 최적화된 모델에 대한 성능 평가를 생성하십시오.

  1. Studio 탐색 메뉴의 작업에서 추론 최적화를 선택합니다.

  2. 평가하려는 최적화된 모델을 만든 작업의 이름을 선택합니다.

  3. 작업 세부 정보 페이지에서 성과 평가를 선택합니다.

  4. 성능 평가 페이지에서 일부 JumpStart 모델은 최종 사용자 라이선스 계약 (EULA) 에 서명해야 계속 진행할 수 있습니다. 요청된 경우 라이선스 계약 섹션의 라이선스 조건을 검토하십시오. 사용 사례에 적합한 약관인 경우 EULA에 동의함 확인란을 선택하고 이용 약관을 읽어 보십시오.

  5. 토크나이저용 모델 선택에서 기본값을 그대로 사용하거나 평가용 토크나이저 역할을 할 특정 모델을 선택하십시오.

  6. 입력 데이터셋의 경우 다음 중 하나를 선택하세요.

    • 의 기본 샘플 데이터세트를 사용합니다. SageMaker

    • 자체 샘플 데이터세트를 가리키는 S3 URI를 제공하세요.

  7. 성능 결과를 위한 S3 URI의 경우 평가 결과를 저장하려는 Amazon S3의 위치를 가리키는 URI를 제공하십시오.

  8. [평가] 를 선택합니다.

    Studio는 성과 평가 페이지를 표시하며, 이 페이지에는 평가 작업이 표에 나와 있습니다. 상태 열에는 평가 상태가 표시됩니다.

  9. 상태가 완료되면 작업 이름을 선택하여 평가 결과를 확인합니다.

    평가 세부 정보 페이지에는 지연 시간, 처리량 및 가격에 대한 성능 지표를 제공하는 표가 표시됩니다.

추론 성능 평가를 위한 지표 참조

최적화된 모델의 성능을 성공적으로 평가하면 Studio의 평가 세부 정보 페이지에 다음 지표가 표시됩니다.

지연 시간 지표

지연 시간 섹션에는 다음 지표가 표시됩니다.

동시성

평가 시 엔드포인트를 동시에 호출하기 위해 시뮬레이션한 동시 사용자 수입니다.

첫 번째 토큰까지 걸리는 시간 (밀리초)

요청이 전송된 시점부터 스트리밍 응답의 첫 번째 토큰이 수신될 때까지 경과된 시간입니다.

토큰간 지연 시간 (밀리초)

각 요청에 대한 출력 토큰을 생성하는 데 걸리는 시간.

클라이언트 지연 시간 (밀리초)

요청이 전송된 시점부터 전체 응답이 수신될 때까지의 요청 지연 시간입니다.

입력 토큰/초 (개수)

모든 요청에서 생성된 입력 토큰의 총 수를 동시성 총 기간 (초) 으로 나눈 값입니다.

출력 토큰/초 (개수)

모든 요청에서 생성된 출력 토큰의 총 수를 동시성에 대한 총 기간 (초) 으로 나눈 값입니다.

클라이언트 호출 (개수)

모든 사용자가 동시에 엔드포인트로 전송한 총 추론 요청 수입니다.

클라이언트 호출 오류 (개수)

지정된 동시 실행 시간에 모든 사용자에 걸쳐 엔드포인트로 전송되어 호출 오류가 발생한 총 추론 요청 수입니다.

토크나이저 실패 (개수)

토크나이저가 요청 또는 응답을 파싱하지 못한 총 추론 요청 수입니다.

빈 추론 응답 (개수)

출력 토큰이 0이거나 토크나이저가 응답을 파싱하지 못한 추론 요청의 총 수입니다.

처리량 지표

처리량 섹션에는 다음 지표가 표시됩니다.

동시성

평가 시 엔드포인트를 동시에 호출하기 위해 시뮬레이션한 동시 사용자 수입니다.

입력 토큰/초/req (개수)

요청당 초당 생성된 입력 토큰의 총 수입니다.

출력 토큰/초/req (개수)

요청당 초당 생성된 출력 토큰의 총 수입니다.

입력 토큰 (개수)

요청당 생성된 입력 토큰의 총 개수.

출력 토큰 (개수)

요청당 생성된 출력 토큰의 총 개수.

가격 지표

가격 섹션에는 다음 측정항목이 표시됩니다.

동시성

평가 시 엔드포인트를 동시에 호출하기 위해 시뮬레이션한 동시 사용자 수입니다.

입력 토큰 백만 개당 가격

1백만 개의 입력 토큰 처리 비용.

출력 토큰 백만 개당 가격

1백만 개의 출력 토큰을 생성하는 데 드는 비용.

지원되는 모델 참조

다음 표에는 추론 최적화를 SageMaker 지원하는 모델과 지원되는 최적화 기법이 나와 있습니다.

추론 최적화를 지원하는 모델
모델 이름 JumpStart 모델 ID 양자화 지원 스페큘러티브 디코딩 지원 드래프트 모델을 사용한 예측 디코딩 SageMaker
팔콘 huggingface-llm-falcon-40b-bf16 아니요
huggingface-llm-falcon-40 16 b-instruct-bf 아니요
huggingface-llm-falcon-180 16 b-chat-bf 아니요 아니요
huggingface-llm-falcon-180b-bf16 아니요 아니요
huggingface-llm-amazon-falconlite 아니요
huggingface-llm-amazon-falconlite2 아니요
huggingface-llm-tiiuae-falcon-rw-1b 아니요
huggingface-llm-falcon-7b-bf16 아니요
huggingface-llm-falcon-7 16 b-instruct-bf 아니요
huggingface-llm-falcon2-11b 아니요
gpt-neox 허깅 페이스 텍스트 제너레이션 2 - -20b-fp16 gpt-neoxt-chat-base 아니요
허깅 페이스 텍스트 제너레이션 2-gpt-neox-20b-fp16 아니요
LLaMA meta-textgeneration-llama- 3-70b-인스트럭트
meta-textgeneration-llama-3-70b
meta-textgeneration-llama-3-8b
meta-textgeneration-llama-3-8b-인스트럭트
meta-textgeneration-llama-2-7b
meta-textgeneration-llama-2-7b-f
meta-textgeneration-llama-2-13b
meta-textgeneration-llama-2-13b-f
meta-textgeneration-llama-2-70b
meta-textgeneration-llama-2-70b-f
meta-textgeneration-llama-codellama-7b
meta-textgeneration-llama-codellama-7b-인스트럭트
meta-textgeneration-llama-codellama-7b-파이썬
meta-textgeneration-llama-codellama-13b
meta-textgeneration-llama-codellama-13b-인스트럭트
meta-textgeneration-llama-codellama-13b-파이썬
meta-textgeneration-llama-codellama-34b
meta-textgeneration-llama-codellama-34b-인스트럭트
meta-textgeneration-llama-codellama-34b-파이썬
meta-textgeneration-llama-codellama-70b
meta-textgeneration-llama-codellama-70b-인스트럭트
meta-textgeneration-llama-codellama-70b-파이썬
meta-textgeneration-llama-guard-7b
Bloom huggingface-textgeneration-bloom-1b7 아니요
huggingface-textgeneration-bloom-1b1 아니요
huggingface-textgeneration-bloom-560m 아니요
huggingface-textgeneration-bloomz-560m 아니요
huggingface-textgeneration-bloomz-1b1 아니요
huggingface-textgeneration-bloomz-1b7 아니요
허깅 페이스 텍스트 제너레이션 1-bloomz-7b1-fp16 아니요
허깅 페이스 텍스트 제너레이션 1-블룸-7b1 아니요
허깅 페이스 텍스트 제너레이션 1-bloomz-3b-fp16 아니요
허깅 페이스 텍스트 제너레이션 1-블룸-3b 아니요
huggingface-textembedding-bloom- 7b 1 아니요
huggingface-textembedding-bloom-7b1-fp16 아니요
Cohere huggingface-llm-cohereforai-c4 ai-command-r-plus
젬마 huggingface-llm-gemma-7b 아니요
huggingface-llm-gemma-7b-인스트럭트 아니요
huggingface-llm-gemma-2b 아니요
huggingface-llm-gemma-2b-인스트럭트 아니요
huggingface-llm-zephyr-7b-젬마 아니요
gpt2 huggingface-textgeneration-gpt2 아니요 아니요
huggingface-textgeneration-distilgpt2 아니요 아니요
미스트랄 huggingface-llm-mistral-7b
huggingface-llm-mistral-7b-인스트럭트
huggingface-llm-mistral-7 b-openorca-gptq
huggingface-llm-amazon-mistrallite
huggingface-llm-thebloke-mistral-7 b-openorca-awq
huggingface-llm-huggingfaceh4-미스트랄-7 b-sft-beta
huggingface-llm-huggingfaceh4-미스트랄-7 b-sft-alpha
huggingface-llm-teknium-openhermes-2-미스트랄-7b
huggingface-llm-nousresearch-yarn-미스트랄-7b-128k
huggingface-llm-dolphin-2-2-1-미스트랄-7b
huggingface-llm-cultrix-mistraltrix-v1
미스트럴 huggingface-llm-mixtral-8x7b-인스트럭터
huggingface-llm-mixtral-8x7 b-instruct-gptq
huggingface-llm-mixtral-8x7b
huggingface-llm-mistralai-mixtral-8x22B-인스트럭트-V0-1
huggingface-llm-dolphin-2-5-믹스트럴-8x7b
huggingface-llm-dolphin-2-7-믹스트럴-8x7b
파이 huggingface-llm-phi-2

사전 최적화된 모델 JumpStart

다음은 구성이 사전 최적화된 JumpStart 모델입니다.

Meta
  • 라마 3 8B 인스트럭트

  • 라마 3 8B

  • 라마 3 70B 인스트럭터

  • 라마 3 70B

  • 라마 2 70B 채팅

  • 라마 2 7B 채팅

  • 라마 2 13B 채팅

HuggingFace
  • 미스트럴 8x7B 인스트럭트

  • 미스트럴 8x7B

  • 미스트랄 7B 인스트럭터

  • 미스트랄 7B

사전 JumpStart 컴파일된 모델

일부 모델 및 구성의 경우 특정 AWS Inferentia 및 Trainium 인스턴스에 맞게 사전 컴파일된 모델을 SageMaker 제공합니다. AWS 이러한 경우 컴파일 또는 최적화 작업을 만들고 ml.inf2.48xlarge 또는 ml.trn1.32xlarge를 배포 인스턴스 유형으로 선택하면 컴파일된 아티팩트를 가져옵니다. SageMaker 작업은 이미 컴파일된 모델을 사용하기 때문에 컴파일을 처음부터 실행하지 않고도 빠르게 완료됩니다.

다음은 사전 컴파일된 JumpStart 모델이 있는 SageMaker 모델입니다.

Meta
  • 라마3 8B

  • 라마 3 70B

  • 라마 2 7B

  • 라마 2 70B

  • 라마 2 13B

  • 코드 라마 7B

  • 코드 라마 70B

HuggingFace
  • 미스트랄 7B