SageMaker Python SDK를 사용하여 SMDDP로 분산 훈련 작업 시작 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker Python SDK를 사용하여 SMDDP로 분산 훈련 작업 시작

SMDDP 집합 작업을 사용하도록 훈련 스크립트 조정에서 조정된 스크립트로 분산 훈련 작업을 실행하려면 준비된 훈련 스크립트를 진입점 스크립트 및 분산 훈련 구성으로 지정하여 SageMaker Python SDK의 프레임워크 또는 일반 추정기를 사용합니다.

이 페이지에서는 두 가지 방법으로 SageMaker AI Python SDK를 사용하는 방법을 안내합니다.

  • SageMaker AI에서 분산 훈련 작업을 빠르게 채택하려면 SageMaker AI PyTorch 또는 TensorFlow 프레임워크 예측기 클래스를 구성합니다. 프레임워크 추정기는 훈련 스크립트를 선택하고 framework_version 파라미터에 지정된 값이 주어지면 사전 빌드된 PyTorch 또는 TensorFlow Deep Learning Containers(DLC)의 올바른 이미지 URI를 자동으로 매칭합니다.

  • 사전 구축된 컨테이너 중 하나를 확장하거나 사용자 지정 컨테이너를 빌드하여 SageMaker AI를 사용하여 자체 ML 환경을 생성하려면 SageMaker AI 일반 Estimator 클래스를 사용하고 Amazon Elastic Container Registry(Amazon ECR)에 호스팅된 사용자 지정 Docker 컨테이너의 이미지 URI를 지정합니다.

훈련 데이터세트는 훈련 작업을 AWS 리전 시작하는의 Amazon S3 또는 Amazon FSx for Lustre에 저장되어야 합니다. Jupyter notebook을 사용하는 경우 동일한 AWS 리전에서 실행되는 SageMaker 노트북 인스턴스 또는 SageMaker Studio Classic 앱이 있어야 합니다. 훈련 데이터를 저장하는 방법에 대한 자세한 내용은 SageMaker Python SDK 데이터 입력 설명서를 참조하세요.

작은 정보

훈련 성능을 개선하려면 Amazon S3 대신 Amazon FSx for Lustre를 사용하는 것이 좋습니다. Amazon FSx는 Amazon S3보다 처리량이 많고 지연 시간은 더 짧습니다.

작은 정보

EFA 지원 인스턴스 유형에 대한 분산 훈련을 올바르게 실행하려면 VPC의 보안 그룹을 설정하여 보안 그룹 자체에서 모든 인바운드 및 아웃바운드 트래픽을 허용하여 인스턴스 간 트래픽을 활성화해야 합니다. 보안 그룹 규칙을 설정하는 방법을 알아보려면 Amazon EC2 사용 설명서1단계: EFA 지원 보안 그룹 준비를 참조하세요.

다음 주제 중 하나를 선택하여 훈련 스크립트의 분산 훈련 작업을 실행하는 방법에 대한 지침을 확인하세요. 훈련 작업을 시작한 후 Amazon CloudWatch를 Amazon SageMaker Debugger를 사용하여 시스템 사용률 및 모델 성능을 모니터링할 수 있습니다.

기술 세부 정보에 대해 자세히 알아보려면 다음 주제의 지침을 따르면서 Amazon SageMaker AI 데이터 병렬 처리 라이브러리 예제를 시작해 보는 것도 좋습니다.