기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
다음 콘텐츠에는 엔드포인트 비용 최적화를 위한 기법과 고려 사항이 있습니다. 이러한 권장 사항을 적용하여 새 엔드포인트와 기존 엔드포인트의 비용을 최적화할 수 있습니다.
모범 사례
SageMaker AI 추론 비용을 최적화하려면 다음 모범 사례를 따르세요.
SageMaker AI는 작업에 가장 적합한 추론 옵션을 제공하기 위해 4가지 추론 옵션을 제공합니다. 워크로드에 가장 적합한 추론 옵션을 선택하면 비용을 절감할 수 있습니다.
지연 시간 특성이 일정해야 하고 항상 사용 가능한 예측 가능한 트래픽 패턴을 가진 지연 시간이 짧은 워크로드에는 실시간 추론을 적용합니다. 이 경우 인스턴스 사용료를 지불합니다.
트래픽 패턴이 급격하고 p99 지연 시간 변동을 수용할 수 있는 동기식 워크로드에는 서버리스 추론을 적용합니다. 서버리스 추론은 워크로드 트래픽에 맞춰 자동 조정되므로 유휴 리소스에 대한 비용을 지불하지 않아도 됩니다. 추론 요청 기간 동안만 비용을 지불합니다. 동일한 모델과 컨테이너를 실시간 추론과 서버리스 추론에 모두 사용할 수 있으므로 요구 사항이 변경될 경우 이 두 모드 사이를 전환할 수 있습니다.
지연 시간에 구애받지 않고 비용에 민감한 최대 1GB의 데이터를 처리하는 비동기식 추론(예: 텍스트 코퍼스, 이미지, 동영상, 오디오)에는 비동기식 추론을 적용합니다. 비동기식 추론을 적용하면 최대 처리 속도에 맞춰 프로비저닝하는 대신 최적의 처리 속도를 위해 고정된 수의 인스턴스를 지정하여 비용을 제어할 수 있습니다. 0까지 축소하여 추가 비용을 절감할 수도 있습니다.
오프라인으로 실행되는 프로세스의 대규모 데이터세트에 대한 추론이 필요한 워크로드(즉, 지속적인 엔드포인트 불필요)에는 배치 추론을 적용합니다. 배치 추론 작업 기간 동안에만 인스턴스 요금을 지불하면 됩니다.
-
모든 SageMaker AI 서비스에서 일관된 사용 수준이 있는 경우 SageMaker AI Savings Plan을 선택하여 비용을 최대 64% 절감할 수 있습니다.
-
Amazon SageMaker AI Savings Plans
1년 또는 3년 기간 동안 일관된 사용량(시간당 $로 측정)에 대한 약정의 대가로 Amazon SageMaker AI에 유연한 요금 모델을 제공합니다. 이러한 계획은 인스턴스 패밀리, 크기 또는 리전에 관계없이 SageMaker SageMaker Studio Classic Notebook, SageMaker On-Demand Notebook, SageMaker Processing, SageMaker Data Wrangler, SageMaker Training, SageMaker Real-Time Inference 및 SageMaker Batch Transform을 포함한 적격 SageMaker AI ML 인스턴스 사용에 자동으로 적용됩니다. 예를 들어, 추론 워크로드 사용량을 언제든지 미국 동부(오하이오)에서 실행 중인 CPU ml.c5.xlarge 인스턴스에서 미국 서부(오레곤)의 ml.Inf1 인스턴스로 변경하고 자동으로 절감형 플랜 가격을 계속 지불할 수 있습니다.
최적화되지 않은 모델은 실행 시간을 늘리고 더 많은 리소스를 사용할 수 있습니다. 성능 개선을 위해 더 많거나 큰 인스턴스를 사용할 수도 있지만 더 높은 비용을 초래합니다.
최적화를 통해 모델 성능을 높이면 동일하거나 더 나은 성능 특성을 유지하면서 더 적거나 작은 인스턴스를 사용하여 비용을 절감할 수 있습니다. SageMaker AI 추론과 함께 SageMaker Neo
를 사용하여 모델을 자동으로 최적화할 수 있습니다. SageMaker 자세한 내용과 샘플은 SageMaker Neo를 사용한 모델 성능 최적화에서 확인하세요.
SageMaker Inference에는 ML에 최적화된 AWS Inferentia 및 Graviton 칩셋을 포함하여 ML 모델을 배포하는 데 사용할 수 있는 70개 이상의 인스턴스 유형과 크기가 있습니다. 모델에 적합한 인스턴스를 선택하면 가장 저렴한 비용으로 가장 성능 좋은 인스턴스를 모델에 구축할 수 있습니다.
추론 추천을 통해 여러 인스턴스를 빠르게 비교하여 모델의 성능과 비용을 파악할 수 있습니다. 이 결과를 바탕으로 가장 투자 수익률이 높은 배포 대상 인스턴스를 선택할 수 있습니다.
-
다중 엔드포인트 배포 시 특히 엔드포인트가 기본 인스턴스를 충분히 활용하지 못하는 경우 비용이 빠르게 증가할 수 있습니다. 인스턴스 과소 사용 여부를 확인하려면 Amazon CloudWatch에서 인스턴스 사용률 지표(CPU, GPU 등)를 확인합니다. 이러한 엔드포인트가 두 개 이상인 경우 여러 엔드포인트에 있는 모델 또는 컨테이너를 단일 엔드포인트로 결합할 수 있습니다.
-
다중 모델 엔드포인트(MME) 또는 다중 컨테이너 엔드포인트(MCE)를 사용하면 단일 엔드포인트에 여러 ML 모델 또는 컨테이너를 배포하여 여러 모델 또는 컨테이너에서 인스턴스를 공유하고 투자 수익을 높일 수 있습니다. 자세한 내용은 AWS Machine Learning 블로그의 Amazon SageMaker AI 다중 모델 엔드포인트를 사용하여 추론 비용 절감
또는 Amazon SageMaker AI 다중 컨테이너 엔드포인트를 사용하여 단일 인스턴스에 여러 서빙 컨테이너 배포 를 참조하세요.
-
오토 스케일링 기능이 없는 경우 피크 트래픽 또는 위험 모델 사용이 불가한 상황에 대비하여 프로비저닝해야 합니다. 모델에 대한 트래픽이 하루 종일 일정하지 않으면 사용되지 않은 용량이 초과될 수 있습니다. 그러면 낮은 사용률과 리소스 낭비로 이어집니다.
-
오토 스케일링은 워크로드를 모니터링하고 용량을 동적으로 조정하여 가능한 최저 비용으로 안정적이고 예측 가능한 성능을 유지하는 즉시 사용 가능한 기능입니다. 워크로드가 증가하면 Autoscaling은 더 많은 인스턴스를 온라인 상태로 전환합니다. 워크로드가 감소하면 오토 스케일링은 불필요한 인스턴스를 제거하여 컴퓨팅 비용 절감에 도움을 줍니다. 자세한 내용은 AWS Machine Learning 블로그의 Amazon SageMaker AI에서 자동 조정 추론 엔드포인트 구성을
참조하세요.