

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# SageMaker Python SDK를 사용하여 SMDDP로 분산 훈련 작업 시작
<a name="data-parallel-use-api"></a>

[SMDDP 집합 작업을 사용하도록 훈련 스크립트 조정](data-parallel-modify-sdp-select-framework.md)에서 조정된 스크립트로 분산 훈련 작업을 실행하려면 준비된 훈련 스크립트를 진입점 스크립트 및 분산 훈련 구성으로 지정하여 SageMaker Python SDK의 프레임워크 또는 일반 추정기를 사용합니다.

이 페이지에서는 2가지 방법으로 [SageMaker AI Python SDK](https://sagemaker.readthedocs.io/en/stable/api/training/index.html)를 사용하는 방법을 안내합니다.
+ SageMaker AI에서 분산 훈련 작업을 빠르게 채택하려면 SageMaker AI [PyTorch](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/sagemaker.pytorch.html#sagemaker.pytorch.estimator.PyTorch) 또는 [TensorFlow](https://sagemaker.readthedocs.io/en/stable/frameworks/tensorflow/sagemaker.tensorflow.html#tensorflow-estimator) 프레임워크 예측기 클래스를 구성합니다. 프레임워크 추정기는 훈련 스크립트를 선택하고 `framework_version` 파라미터에 지정된 값이 주어지면 [사전 빌드된 PyTorch 또는 TensorFlow Deep Learning Containers(DLC)](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only)의 올바른 이미지 URI를 자동으로 매칭합니다.
+ 사전 빌드된 컨테이너 중 하나를 확장하거나 사용자 지정 컨테이너를 구축하여 SageMaker AI로 자체 ML 환경을 만들려면 SageMaker AI 일반 `Estimator` 클래스를 사용하고 Amazon Elastic Container Registry(Amazon ECR)에서 호스팅되는 사용자 지정 Docker 컨테이너의 이미지 URI를 지정합니다.

훈련 데이터 세트는 훈련 작업을 AWS 리전 시작하는의 Amazon S3 또는 [Amazon FSx for Lustre](https://docs.aws.amazon.com/fsx/latest/LustreGuide/what-is.html)에 저장되어야 합니다. Jupyter notebook을 사용하는 경우 동일한 AWS 리전에서 실행되는 SageMaker 노트북 인스턴스 또는 SageMaker Studio Classic 앱이 있어야 합니다. 훈련 데이터를 저장하는 방법에 대한 자세한 내용은 [SageMaker Python SDK 데이터 입력](https://sagemaker.readthedocs.io/en/stable/overview.html#use-file-systems-as-training-input) 설명서를 참조하세요.

**작은 정보**  
훈련 성능을 개선하려면 Amazon S3 대신 Amazon FSx for Lustre를 사용하는 것이 좋습니다. Amazon FSx는 Amazon S3보다 처리량이 많고 지연 시간은 더 짧습니다.

**작은 정보**  
EFA 지원 인스턴스 유형에 대한 분산 훈련을 올바르게 실행하려면 VPC의 보안 그룹을 설정하여 보안 그룹 자체에서 모든 인바운드 및 아웃바운드 트래픽을 허용하여 인스턴스 간 트래픽을 활성화해야 합니다. 보안 그룹 규칙을 설정하는 방법을 알아보려면 *Amazon EC2 사용 설명서*의 [1단계: EFA 지원 보안 그룹 준비](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa-start.html#efa-start-security)를 참조하세요.

다음 주제 중 하나를 선택하여 훈련 스크립트의 분산 훈련 작업을 실행하는 방법에 대한 지침을 확인하세요. 훈련 작업을 시작한 후 Amazon CloudWatch를 [Amazon SageMaker Debugger](train-debugger.md)를 사용하여 시스템 사용률 및 모델 성능을 모니터링할 수 있습니다.

기술 세부 정보에 대해 자세히 알아보려면 다음 주제의 지침을 따르면서 [Amazon SageMaker AI 데이터 병렬화 라이브러리 예시](distributed-data-parallel-v2-examples.md)를 시작해 보는 것도 좋습니다.

**Topics**
+ [SageMaker Python SDK에서 PyTorch 프레임워크 추정기 사용](data-parallel-framework-estimator.md)
+ [SageMaker AI 일반 예측기를 사용하여 사전 구축된 DLC 컨테이너 확장](data-parallel-use-python-skd-api.md)
+ [SageMaker AI 분산 데이터 병렬 라이브러리로 자체 Docker 컨테이너 만들기](data-parallel-bring-your-own-container.md)