SageMaker Python을 SMDDP 사용하여 를 사용하여 분산 훈련 작업 시작 SDK - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker Python을 SMDDP 사용하여 를 사용하여 분산 훈련 작업 시작 SDK

에서 조정된 스크립트로 분산 훈련 작업을 실행하려면 준비된 훈련 스크립트를 진입점 스크립트 및 분산 훈련 구성으로 지정하여 SageMaker PythonSDK의 프레임워크 또는 일반 추정기를 SMDDP 집합 작업을 사용하도록 훈련 스크립트 조정사용합니다.

이 페이지에서는 두 가지 방법으로 SageMaker PythonSDK을 사용하는 방법을 안내합니다.

  • 에서 분산 훈련 작업을 빠르게 채택하려면 또는 TensorFlow 프레임워크 추정기 클래스를 SageMaker SageMaker PyTorch 구성합니다. 프레임워크 추정기는 훈련 스크립트를 선택하고 framework_version 파라미터에 지정된 값을 고려하여 사전 빌드된 컨테이너 PyTorch 또는 TensorFlow 딥 러닝 컨테이너(DLC)URI의 올바른 이미지와 자동으로 일치합니다.

  • 사전 구축된 컨테이너 중 하나를 확장하거나 사용자 지정 컨테이너를 구축하여 를 사용하여 자체 ML 환경을 생성하려면 SageMaker 일반 Estimator 클래스를 SageMaker사용하고 Amazon Elastic Container Registry(Amazon)에서 호스팅되는 사용자 지정 Docker 컨테이너URI의 이미지를 지정합니다ECR.

훈련 데이터 세트 AWS 리전 는 훈련 작업을 시작하는 의 Amazon S3 또는 Amazon FSx for Lustre에 저장되어야 합니다. Jupyter 노트북을 사용하는 경우 동일한 에서 실행되는 SageMaker 노트북 인스턴스 또는 SageMaker Studio Classic 앱이 있어야 합니다 AWS 리전. 훈련 데이터 저장에 대한 자세한 내용은 SageMaker Python SDK 데이터 입력 설명서를 참조하세요.

작은 정보

훈련 성능을 개선하려면 Amazon S3 대신 Amazon FSx for Lustre를 사용하는 것이 좋습니다. AmazonFSx은 Amazon S3보다 처리량과 지연 시간이 더 낮습니다.

작은 정보

EFA활성화된 인스턴스 유형에 대해 분산 훈련을 올바르게 실행하려면 의 보안 그룹을 설정하여 보안 그룹 자체에서 오가는 모든 인바운드 및 아웃바운드 트래픽을 허용VPC하여 인스턴스 간 트래픽을 활성화해야 합니다. 보안 그룹 규칙을 설정하는 방법을 알아보려면 Amazon EC2 사용 설명서1단계: EFA활성화된 보안 그룹 준비를 참조하세요.

다음 주제 중 하나를 선택하여 훈련 스크립트의 분산 훈련 작업을 실행하는 방법에 대한 지침을 확인하세요. 훈련 작업을 시작한 후 Amazon SageMaker 디버거 또는 Amazon 를 사용하여 시스템 사용률 및 모델 성능을 모니터링할 수 있습니다 CloudWatch.

기술 세부 정보에 대해 자세히 알아보려면 다음 주제의 지침을 따르면서 Amazon SageMaker 데이터 병렬화 라이브러리 예제를 시작해 보는 것도 좋습니다.