Amazon SageMaker AI를 사용한 추론을 위한 다음 단계 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon SageMaker AI를 사용한 추론을 위한 다음 단계

엔드포인트가 있고 일반적인 추론 워크플로를 이해한 후에는 SageMaker AI에서 다음 기능을 사용하여 추론 워크플로를 개선할 수 있습니다.

모니터링

모델 정확도 및 드리프트와 같은 지표를 통해 시간 경과에 따라 모델을 추적하려면 모델 모니터를 사용할 수 있습니다. 모델 모니터로 모델 품질에 편차가 있을 때 알려주는 알림을 설정할 수 있습니다. 자세한 내용은 모델 모니터 설명서에서 확인하세요.

엔드포인트를 변경하는 모델 배포 및 이벤트를 모니터링하는 데 사용할 수 있는 도구에 대한 자세한 내용은 Amazon SageMaker AI 모니터링을 참조하세요. 예를 들어, Amazon CloudWatch 지표로 호출 오류, 모델 지연 시간과 같은 지표를 통해 엔드포인트의 상태를 모니터링할 수 있습니다. SageMaker AI 엔드포인트 호출 지표는 엔드포인트의 성능에 대한 중요한 정보를 제공할 수 있습니다.

모델 배포용 CI/CD

SageMaker AI에서 기계 학습 솔루션을 통합하려면 SageMaker AI MLOps를 사용할 수 있습니다. 이 기능을 사용하여 기계 학습 워크플로 단계를 자동화하고 CI/CD를 연습할 수 있습니다. MLOps 프로젝트 템플릿을 사용하여 SageMaker AI MLOps 프로젝트의 설정 및 구현을 지원할 수 있습니다. 또한 SageMaker AI는 자체 타사 Git 리포지토리를 사용하여 CI/CD 시스템을 생성할 수 있도록 지원합니다.

ML 파이프라인에서는 모델 레지스트리를 사용하여 모델 버전과 모델 배포 및 자동화를 관리할 수 있습니다.

배포 가드레일

프로덕션 환경에서 프로덕션에 영향을 주지 않고 모델을 업데이트하려면 배포 가드레일을 사용할 수 있습니다. 배포 가드레일은 프로덕션 환경에서 기계 학습 모델을 업데이트하기 위한 SageMaker AI 추론의 모델 배포 옵션 세트입니다. 완전 관리형 배포 옵션으로 프로덕션에 있는 현재 모델에서 새 모델로의 전환을 제어할 수 있습니다. 트래픽 전환 모드로 트래픽 전환 프로세스를 세밀하게 제어할 수 있으며 자동 롤백과 같은 내장 보호 기능을 통해 문제를 조기에 발견할 수 있습니다.

배포 가드레일에 대한 자세한 내용은 배포 가드레일 설명서에서 확인하세요.

Inferentia

대규모 기계 학습 및 딥 러닝 애플리케이션을 실행해야 하는 경우 실시간 엔드포인트가 있는 Inf1 인스턴스를 사용할 수 있습니다. 이 인스턴스 유형은 이미지 또는 음성 인식, 자연어 처리(NLP), 개인화, 예측 또는 사기 감지와 같은 사용 사례에 적합합니다.

Inf1 인스턴스는 기계 학습 추론 애플리케이션을 지원하고 AWS Inferentia 칩을 사용하도록 구축되었습니다. Inf1 인스턴스는 GPU 기반 인스턴스보다 더 높은 처리량과 추론당 더 낮은 비용을 제공합니다.

Inf1 인스턴스에 모델을 배포하려면 SageMaker Neo로 모델을 컴파일하고 배포 옵션에 맞는 Inf1 인스턴스를 선택합니다. 자세한 내용은 SageMaker Neo로 모델 성능 최적화하기에서 확인하세요.

모델 성능 최적화

SageMaker AI는 기계 학습 모델을 배포할 때 리소스를 관리하고 추론 성능을 최적화하는 기능을 제공합니다. SageMaker AI의 내장 알고리즘과 사전 구축된 모델, 기계 학습용으로 개발된 사전 구축된 Docker 이미지를 사용할 수 있습니다.

모델을 훈련하고 배포를 위해 최적화하려면 prebuilt Docker imagesOptimize model performance using SageMaker Neo를 참조하세요. SageMaker Neo를 사용하면 TensorFlow, Apache MXNet, PyTorch, ONNX 및 XGBoost 모델을 훈련할 수 있습니다. 그런 다음 최적화하여 ARM, Intel 및 Nvidia 프로세서에 배포할 수 있습니다.

AutoScaling

엔드포인트로 향하는 트래픽 양이 다양한 경우, 오토 스케일링을 시도해 볼 수 있습니다. 예를 들어 피크 시간 중에는 요청을 처리하는 데 더 많은 인스턴스가 필요할 수 있습니다. 그러나 트래픽이 적은 기간에는 컴퓨팅 리소스 사용을 줄여야 할 수 있습니다. 워크로드 변경에 따라 프로비저닝된 인스턴스 수를 동적으로 조정하려면 Amazon SageMaker AI 모델의 자동 조정 섹션을 참조하세요.

예측할 수 없는 트래픽 패턴이 있거나 스케일링 정책을 설정하지 않으려면, SageMaker가 엔드포인트에 대해 서버리스 추론을 사용할 수도 있습니다. 그런 다음 SageMaker AI는 자동 크기 조정을 관리합니다. 트래픽이 적은 기간 동안 SageMaker AI는 엔드포인트를 스케일 다운하고 트래픽이 증가하면 SageMaker AI는 엔드포인트를 스케일 업합니다. 자세한 내용은 Amazon SageMaker 서버리스 추론을 사용하여 모델 배포 설명서를 참조하세요.