SageMaker Python을 SMDDP 사용하여를 사용하여 분산 훈련 작업 시작 SDK - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker Python을 SMDDP 사용하여를 사용하여 분산 훈련 작업 시작 SDK

에서 조정된 스크립트로 분산 훈련 작업을 실행하려면 준비된 훈련 스크립트를 진입점 스크립트 및 분산 훈련 구성으로 지정하여 SageMaker PythonSDK의 프레임워크 또는 일반 예측기를 SMDDP 집합 작업을 사용하도록 훈련 스크립트 조정사용합니다.

이 페이지에서는 두 가지 방법으로 SageMaker AI PythonSDK을 사용하는 방법을 안내합니다.

  • SageMaker AI에서 분산 훈련 작업을 빠르게 채택하려면 SageMaker AI PyTorch 또는 TensorFlow 프레임워크 예측기 클래스를 구성합니다. 프레임워크 예측기는 framework_version 파라미터에 지정된 값을 고려하여 훈련 스크립트를 선택하고 사전 빌드된 컨테이너 PyTorch 또는 TensorFlow 딥 러닝 컨테이너(DLC)URI의 올바른 이미지와 자동으로 일치합니다.

  • 사전 구축된 컨테이너 중 하나를 확장하거나 사용자 지정 컨테이너를 빌드하여 SageMaker AI를 사용하여 자체 ML 환경을 생성하려면 SageMaker AI 일반 Estimator 클래스를 사용하고 Amazon Elastic Container Registry(Amazon)에서 호스팅되는 사용자 지정 Docker 컨테이너URI의 이미지를 지정합니다ECR.

훈련 데이터 세트 AWS 리전 는 훈련 작업을 시작하는의 Amazon S3 또는 Amazon FSx for Lustre에 저장되어야 합니다. Jupyter 노트북을 사용하는 경우 SageMaker 노트북 인스턴스 또는 SageMaker Studio Classic 앱이 동일한에서 실행되어야 합니다 AWS 리전. 훈련 데이터 저장에 대한 자세한 내용은 SageMaker Python SDK 데이터 입력 설명서를 참조하세요.

작은 정보

훈련 성능을 개선하려면 Amazon S3 대신 Amazon FSx for Lustre를 사용하는 것이 좋습니다. AmazonFSx은 Amazon S3보다 처리량과 지연 시간이 더 낮습니다.

작은 정보

EFA활성화된 인스턴스 유형에 대해 분산 훈련을 올바르게 실행하려면 보안 그룹 자체와 주고 받는 모든 인바운드 및 아웃바운드 트래픽을 허용VPC하도록의 보안 그룹을 설정하여 인스턴스 간 트래픽을 활성화해야 합니다. 보안 그룹 규칙을 설정하는 방법을 알아보려면 Amazon EC2 사용 설명서1단계: EFA활성화된 보안 그룹 준비를 참조하세요.

다음 주제 중 하나를 선택하여 훈련 스크립트의 분산 훈련 작업을 실행하는 방법에 대한 지침을 확인하세요. 훈련 작업을 시작한 후 Amazon SageMaker 디버거 또는 Amazon을 사용하여 시스템 사용률 및 모델 성능을 모니터링할 수 있습니다 CloudWatch.

기술 세부 정보에 대해 자세히 알아보려면 다음 주제의 지침을 따르면서 Amazon SageMaker AI 데이터 병렬 처리 라이브러리 예제를 시작해 보는 것도 좋습니다.