SageMaker Python SDK를 사용하여 SMDDP로 분산 훈련 작업 시작

포커스 모드

SageMaker Python SDK를 사용하여 SMDDP로 분산 훈련 작업 시작 - Amazon SageMaker AI

SMDDP 집합 작업을 사용하도록 훈련 스크립트 조정에서 조정된 스크립트로 분산 훈련 작업을 실행하려면 준비된 훈련 스크립트를 진입점 스크립트 및 분산 훈련 구성으로 지정하여 SageMaker Python SDK의 프레임워크 또는 일반 추정기를 사용합니다.

이 페이지에서는 두 가지 방법으로 SageMaker AI Python SDK를 사용하는 방법을 안내합니다.

SageMaker AI에서 분산 훈련 작업을 빠르게 채택하려면 SageMaker AI PyTorch 또는 TensorFlow 프레임워크 예측기 클래스를 구성합니다. 프레임워크 추정기는 훈련 스크립트를 선택하고 framework_version 파라미터에 지정된 값이 주어지면 사전 빌드된 PyTorch 또는 TensorFlow Deep Learning Containers(DLC)의 올바른 이미지 URI를 자동으로 매칭합니다.
사전 구축된 컨테이너 중 하나를 확장하거나 사용자 지정 컨테이너를 빌드하여 SageMaker AI를 사용하여 자체 ML 환경을 생성하려면 SageMaker AI 일반 Estimator 클래스를 사용하고 Amazon Elastic Container Registry(Amazon ECR)에 호스팅된 사용자 지정 Docker 컨테이너의 이미지 URI를 지정합니다.

훈련 데이터세트는 훈련 작업을 AWS 리전 시작하는의 Amazon S3 또는 Amazon FSx for Lustre에 저장되어야 합니다. Jupyter notebook을 사용하는 경우 동일한 AWS 리전에서 실행되는 SageMaker 노트북 인스턴스 또는 SageMaker Studio Classic 앱이 있어야 합니다. 훈련 데이터를 저장하는 방법에 대한 자세한 내용은 SageMaker Python SDK 데이터 입력 설명서를 참조하세요.

작은 정보

훈련 성능을 개선하려면 Amazon S3 대신 Amazon FSx for Lustre를 사용하는 것이 좋습니다. Amazon FSx는 Amazon S3보다 처리량이 많고 지연 시간은 더 짧습니다.

작은 정보

EFA 지원 인스턴스 유형에 대한 분산 훈련을 올바르게 실행하려면 VPC의 보안 그룹을 설정하여 보안 그룹 자체에서 모든 인바운드 및 아웃바운드 트래픽을 허용하여 인스턴스 간 트래픽을 활성화해야 합니다. 보안 그룹 규칙을 설정하는 방법을 알아보려면 Amazon EC2 사용 설명서의 1단계: EFA 지원 보안 그룹 준비를 참조하세요.

다음 주제 중 하나를 선택하여 훈련 스크립트의 분산 훈련 작업을 실행하는 방법에 대한 지침을 확인하세요. 훈련 작업을 시작한 후 Amazon CloudWatch를 Amazon SageMaker Debugger를 사용하여 시스템 사용률 및 모델 성능을 모니터링할 수 있습니다.

기술 세부 정보에 대해 자세히 알아보려면 다음 주제의 지침을 따르면서 Amazon SageMaker AI 데이터 병렬 처리 라이브러리 예제를 시작해 보는 것도 좋습니다.

주제

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

TensorFlow(사용되지 않음)

SageMaker Python SDK에서 PyTorch 프레임워크 추정기 사용

쿠키 기본 설정 선택

쿠키 기본 설정 사용자 지정

필수

성능

기능

광고

쿠키 기본 설정을 저장할 수 없음

SageMaker Python SDK를 사용하여 SMDDP로 분산 훈련 작업 시작

작은 정보

작은 정보

주제

Related resources

페이지 내용이 도움이 되었습니까?

Related resources

다음 주제:

이전 주제:

도움이 필요하십니까?