오토 스케일링 정책 개요 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

오토 스케일링 정책 개요

Auto Scaling을 사용하려면 실제 워크로드에 대한 응답으로 프로덕션 변형의 인스턴스 수를 추가하고 제거하는 조정 정책을 정의합니다.

워크로드 변경에 따라 자동으로 확장하려면 대상 추적 및 단계 조정 정책의 두 가지 옵션이 있습니다.

대상 추적 조정 정책을 사용하는 것이 좋습니다. 대상 추적을 사용하면 Amazon CloudWatch 지표와 대상 값을 선택할 수 있습니다. Auto Scaling은 조정 정책에 대한 CloudWatch 경보를 생성 및 관리하고 지표와 대상 값을 기반으로 조정 조정을 계산합니다. 이 정책은 지표를 지정된 대상 값에 가깝게 유지하는 데 필요한 인스턴스 수를 추가하고 제거합니다. 예를 들어 대상 값이 70인 사전 정의된 InvocationsPerInstance 지표를 사용하는 스케일링 정책은 InvocationsPerInstance를 70에 근접하게 유지할 수 있습니다. 자세한 내용을 알아보려면 Application Auto Scaling 사용 설명서대상 추적 조정 정책을 참조하세요.

어떤 조건 하에서 얼마나 많은 수의 인스턴스를 배포할 것인지 지정하는 등 고급 구성이 필요한 경우 단계 스케일링을 사용할 수 있습니다. 그렇지 않으면 완전히 자동화되므로 대상 추적 조정을 사용하는 것이 좋습니다. 단계 조정은 AWS CLI 또는 Application Auto Scaling 에서만 관리할 수 있습니다API. 단계 조정 정책 및 작동 방식에 대한 개요는 Application Auto Scaling 사용 설명서단계 조정 정책을 참조하세요.

대상 추적 조정 정책을 생성하려면 다음을 지정합니다.

  • 지표 - 인스턴스당 평균 호출 수와 같이 추적할 CloudWatch 지표입니다.

  • 대상 값 - 분당 인스턴스당 70회 호출과 같은 지표의 대상 값입니다.

사용자 지정 또는 사전 정의된 지표를 사용하여 대상 추적 크기 조정 정책을 생성할 수 있습니다. 미리 정의된 지표는 코드의 이름으로 지정하거나 SageMaker 콘솔에서 사용할 수 있도록 열거형으로 정의됩니다. 또는 AWS CLI 또는 Application Auto ScalingAPI을 사용하여 사전 정의된 지표 또는 사용자 지정 지표를 기반으로 대상 추적 조정 정책을 적용할 수 있습니다.

용량 변동을 방지하기 위해 스케일링 활동은 휴지 기간과 함께 수행됩니다. 선택적으로 조정 정책에 대한 휴지 기간을 구성할 수 있습니다.

Auto Scaling의 주요 개념에 대한 자세한 내용은 다음 섹션을 참조하세요.

일정 기반 조정

예약된 작업을 생성하여 특정 시간에 조정 활동을 수행할 수도 있습니다. 규모를 한 번만 조정하거나 반복되는 일정으로 조정하도록 예약된 작업을 생성할 수 있습니다. 예약된 작업이 실행된 후에도 워크로드 변경에 따라 규모 조정 정책이 동적으로 규모를 조정할지 여부에 대한 결정을 계속 내릴 수 있습니다. 예약된 조정은 AWS CLI 또는 Application Auto Scaling 에서만 관리할 수 있습니다API. 자세한 내용은 Application Auto Scaling 사용 설명서예약된 조정을 참조하세요.

최소 및 최대 크기 조정 제한

Auto Scaling을 구성할 때는 조정 정책을 생성하기 전에 조정 한도를 지정해야 합니다. 최소값과 최대값에 대한 제한을 별도로 설정합니다.

최소값은 1 이상이어야 하며 최대값에 지정된 값과 같거나 작아야 합니다.

최대값은 최소값에 지정된 값보다 크거나 같아야 합니다. SageMaker auto scaling은 이 값에 대한 제한을 적용하지 않습니다.

일반적인 트래픽에 필요한 조정 한도를 확인하려면 모델에 대한 예상 트래픽 속도로 자동 조정 구성을 테스트합니다.

변형의 트래픽이 0이 되면 는 지정된 최소 인스턴스 수로 SageMaker 자동으로 확장됩니다. 이 경우 는 값이 0인 지표를 SageMaker 내보냅니다.

최소 및 최대 용량을 지정하는 세 가지 옵션이 있습니다.

  1. 콘솔을 사용하여 최소 인스턴스 수최대 인스턴스 수 설정을 업데이트합니다.

  2. register-scalable-target 명령을 실행할 때 AWS CLI 및 를 사용하고 --min-capacity--max-capacity 옵션을 포함합니다.

  3. 를 호출RegisterScalableTargetAPI하고 MinCapacityMaxCapacity 파라미터를 지정합니다.

작은 정보

최소값을 늘려 수동으로 스케일 아웃하거나 최대값을 줄여 수동으로 스케일 인할 수 있습니다.

휴지 기간

휴지 기간은 모델이 스케일 인(용량 감소) 또는 스케일 아웃(용량 증가) 중일 때 과대 스케일링을 방지하는 데 사용됩니다. 기간이 만료될 때까지 후속 조정 활동을 늦춤으로써 이 작업을 수행합니다. 특히 확장 요청에 대한 인스턴스 삭제를 차단하고 확장 요청에 대한 인스턴스 생성을 제한합니다. 자세한 내용은 Application Auto Scaling 사용 설명서휴지 기간 정의를 참조하세요.

조정 정책에서 휴지 기간을 구성합니다.

스케일 인 또는 스케일 아웃 휴지 기간을 지정하지 않으면 스케일링 정책이 기본값을 사용하며, 이는 각각 300초입니다.

크기 조정 구성을 테스트할 때 인스턴스가 너무 빨리 추가되거나 제거되는 경우 이 값을 늘리는 것이 좋습니다. 모델로의 트래픽이 급증하거나 변형에 대해 여러 조정 정책이 정의된 경우 이 동작이 표시될 수 있습니다.

증가하는 트래픽을 처리하기에 충분할 정도로 빠르게 인스턴스가 추가되지 않는 경우 이 값을 줄이는 것을 고려하세요.

Auto Scaling 구성에 대한 자세한 내용은 다음 리소스를 참조하세요.

참고

SageMaker 는 최근 실시간 추론 엔드포인트에 구축된 새로운 추론 기능을 도입했습니다. SageMaker 엔드포인트의 인스턴스 유형과 초기 인스턴스 수를 정의하는 엔드포인트 구성으로 엔드포인트를 생성합니다. 그런 다음 엔드포인트에 모델을 배포하는 데 사용할 수 있는 SageMaker 호스팅 객체인 추론 구성 요소를 생성합니다. 추론 구성 요소 조정에 대한 자세한 내용은 의 AWS 에서 최신 SageMaker SageMaker 기능을 사용하여 파운데이션 모델 배포 비용과 지연 시간을 줄이고 모델 배포 비용을 평균 50% 줄이는 데 도움이 되는 새로운 추론 기능 추가를 참조하세요.