기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 추론 모델 배포
<a name="deploy-model"></a>

Amazon SageMaker AI를 사용하면 훈련된 기계 학습 모델에서 예측 또는 *추론*을 가져올 수 있습니다. SageMaker AI는 모든 ML 추론 요구 사항을 충족하는 데 도움이 되는 다양한 ML 인프라 및 모델 배포 옵션을 제공합니다. SageMaker AI 추론을 사용하면 모델 배포의 규모를 조정하고, 프로덕션에서 모델을 더 효과적으로 관리하고, 운영 부담을 줄일 수 있습니다. SageMaker AI는 지연 시간이 짧은 추론용 실시간 엔드포인트, 완전 관리형 인프라 및 오토 스케일링용 서버리스 엔드포인트, 요청 배치용 비동기식 엔드포인트 등의 다양한 추론 옵션을 제공합니다. 사용 사례에 적합한 추론 옵션을 활용하면 효율적인 모델 배포 및 추론을 보장할 수 있습니다.

## 기능 선택
<a name="deploy-model-choose"></a>

SageMaker AI를 사용하여 ML 모델을 배포하는 몇 가지 사용 사례가 있습니다. 이 섹션에서는 이러한 사용 사례와 각 사용 사례에 권장되는 SageMaker AI 기능에 대해 설명합니다.

### 사용 사례
<a name="deploy-model-use-cases"></a>

다음은 SageMaker AI를 사용하여 ML 모델을 배포하기 위한 주요 사용 사례입니다.
+ **사용 사례 1: 기계 학습 모델을 로우 코드 또는 노 코드 환경에 배포합니다.** 초보자 또는 SageMaker AI를 처음 사용하는 사용자의 경우 복잡한 구성 없이 Amazon SageMaker Studio 인터페이스를 통해 Amazon SageMaker JumpStart를 사용하여 사전 훈련된 모델을 배포할 수 있습니다.
+ **사용 사례 2: 코드를 사용하여 유연성과 제어력이 뛰어난 기계 학습 모델을 배포합니다.** 숙련된 ML 실무자는 SageMaker AI Python SDK의 `ModelBuilder` 클래스를 사용하여 애플리케이션 요구 사항에 맞게 사용자 지정된 설정을 사용하여 자체 모델을 배포할 수 있습니다. 이 SDK는 인스턴스 유형, 네트워크 격리 및 리소스 할당과 같은 다양한 설정을 세밀하게 제어할 수 있습니다.
+ **사용 사례 3: 기계 학습 모델을 대규모로 배포합니다.** 프로덕션 환경에서 대규모로 모델을 관리하려는 고급 사용자 및 조직의 경우 AWS SDK for Python (Boto3) 원하는 코드형 인프라(IaC) 및 CI/CD 도구와 CloudFormation 함께 및를 사용하여 리소스를 프로비저닝하고 리소스 관리를 자동화합니다.

### 권장 기능
<a name="deploy-model-recommended"></a>

다음 표에서는 각 사용 사례에 해당하는 SageMaker AI 기능에 대한 주요 고려 사항 및 절충 사항을 설명합니다.


|  | 사용 사례 1 | 사용 사례 2 | 사용 사례 3 | 
| --- | --- | --- | --- | 
| SageMaker AI 기능 | [Studio의 JumpStart](jumpstart-foundation-models-use-studio-updated.md)를 사용하여 기본 모델 배포를 가속화합니다. | [SageMaker Python SDK 에서 ModelBuilder를 사용하여 모델을 배포합니다](how-it-works-modelbuilder-creation.md). |  [를 사용하여 대규모로 모델을 배포하고 관리합니다 CloudFormation](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/AWS_SageMaker.html). | 
| 설명 | Studio UI를 사용하여 카탈로그에서 사전 훈련된 모델을 사전 구성된 추론 엔드포인트에 배포합니다. 이 옵션은 시민 데이터 과학자 또는 복잡한 설정을 구성하지 않고 모델을 배포하려는 모든 사용자에게 적합합니다. | Amazon SageMaker AI Python SDK의 ModelBuilder 클래스를 사용하여 자체 모델을 배포하고 배포 설정을 구성합니다. 이 옵션은 숙련된 데이터 사이언티스트 또는 배포하기 위한 자체 모델이 있고 세분화된 제어가 필요한 모든 사용자에게 적합합니다. |  CloudFormation 및 코드형 인프라(IaC)를 사용하여 SageMaker AI 모델을 배포하고 관리하기 위한 프로그래밍 방식 제어 및 자동화를 수행합니다. 이 옵션은 일관되고 반복 가능한 배포가 필요한 고급 사용자에게 적합합니다. | 
| 최적화 대상 | 널리 사용되는 오픈 소스 모델의 빠르고 간소화된 배포 | 자체 모델 배포 | 프로덕션에서 모델의 지속적인 관리 | 
| 고려 사항 | 컨테이너 설정 및 특정 애플리케이션 요구 사항에 대한 사용자 지정 부족 | UI가 없으므로 Python 코드를 쉽게 개발하고 유지 관리할 수 있어야 합니다. | 인프라 관리 및 조직 리소스가 필요하며 AWS SDK for Python (Boto3) 또는 CloudFormation 템플릿에 대한 지식도 필요합니다. | 
| 권장 환경 | SageMaker AI 도메인 |  AWS 자격 증명 및 설치된 SageMaker Python SDK로 구성된 Python 개발 환경 또는 [SageMaker JupyterLab](studio-updated-jl.md) 등의 SageMaker AI IDE |  AWS CLI, 로컬 개발 환경, 코드형 인프라(IaC) 및 CI/CD 도구 | 

### 추가 옵션
<a name="deploy-model-additional"></a>

SageMaker AI는 추론 사용 사례에 다양한 옵션을 제공하므로 배포의 기술적 폭과 깊이를 선택할 수 있습니다.
+ **엔드포인트에 모델 배포.** 모델을 배포할 때는 다음 옵션을 고려하세요.
  + [실시간 추론](realtime-endpoints.md). 실시간 추론은 대화형, 짧은 지연 시간이 요구되는 추론 워크로드에 적합합니다.
  + [Amazon SageMaker 서버리스 추론을 사용하여 모델 배포](serverless-endpoints.md). 서버리스 추론을 사용하여 기본 인프라를 구성하거나 관리하지 않고 모델을 배포합니다. 이 옵션은 트래픽 폭주 사이에 유휴 기간이 있고 콜드 스타트를 허용할 수 있는 워크로드에 적합합니다.
  + [비동기 추론](async-inference.md). 수신 요청을 대기열에 저장하고 비동기식으로 처리합니다. 이 옵션은 페이로드 크기가 크고(최대 1GB), 처리 시간이 길며(최대 1시간), 거의 실시간에 가까운 지연 시간이 필요한 요건에 적합합니다.
+ **비용 최적화.** 추론 비용을 최적화하려면 다음 옵션을 고려하세요.
  + [SageMaker Neo를 사용한 모델 성능 최적화](neo.md). SageMaker Neo를 사용하면 더 나은 성능과 효율성으로 기계 학습 모델을 최적화하고 실행할 수 있으므로 AWS Inferentia 칩과 같은 환경에서 실행되도록 모델을 자동으로 최적화하여 컴퓨팅 비용을 최소화할 수 있습니다.
  + [Amazon SageMaker AI 모델의 자동 규모 조정](endpoint-auto-scaling.md). Autoscaling을 사용하면 들어오는 트래픽 패턴을 기반으로 엔드포인트의 컴퓨팅 리소스를 동적으로 조정할 수 있으므로 지정된 시간에 사용 중인 리소스에 대해서만 비용을 지불하여 비용을 최적화할 수 있습니다.