기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon FSx for Lustre를 사용하도록 데이터 입력 채널 구성
Amazon FSx for Lustre를 데이터 소스로 사용하여 데이터 로드 시간을 줄여 처리량을 높이고 훈련 속도를 높이는 방법을 알아봅니다.
참고
P4d 및 P3dn과 같이 EFA활성화된 인스턴스를 사용하는 경우 보안 그룹에서 적절한 인바운드 및 출력 규칙을 설정해야 합니다. 특히 가 훈련 작업에서 Amazon FSx 파일 시스템에 SageMaker 액세스하려면 이러한 포트를 열어야 합니다. 자세한 내용은 Amazon을 사용한 파일 시스템 액세스 제어를 VPC참조하세요.
Amazon S3 및 Amazon FSx for Lustre 동기화
Amazon S3를 Amazon FSx for Lustre에 연결하고 훈련 데이터 세트를 업로드하려면 다음을 수행합니다.
-
데이터 세트를 준비하고 Amazon S3 버킷에 업로드합니다. 예를 들어, 훈련 데이터 세트와 테스트 데이터 세트의 Amazon S3 경로가 다음 형식이라고 가정합니다.
s3://amzn-s3-demo-bucket/data/train s3://amzn-s3-demo-bucket/data/test
-
훈련 데이터를 사용하여 Amazon S3 버킷과 연결된 FSx for Lustre 파일 시스템을 생성하려면 Amazon FSx for Lustre 사용 설명서의 Amazon S3 버킷에 파일 시스템 연결의 단계를 따르세요. Amazon S3 액세스 VPC 허용에 엔드포인트를 추가해야 합니다. 자세한 내용은 Amazon S3 VPC 엔드포인트 생성 단원을 참조하십시오. 데이터 리포지토리 경로 를 지정할 때 데이터 세트가 포함된 폴더URI의 Amazon S3 버킷을 제공합니다. 예를 들어 1단계의 예제 S3 경로를 기준으로 데이터 리포지토리 경로는 다음과 같아야 합니다.
s3://amzn-s3-demo-bucket/data
-
FSx for Lustre 파일 시스템을 생성한 후 다음 명령을 실행하여 구성 정보를 확인합니다.
aws fsx describe-file-systems && \ aws fsx describe-data-repository-association
이 명령은
FileSystemId
,MountName
,FileSystemPath
및DataRepositoryPath
를 반환합니다. 에로서 결과는 다음과 같아야 합니다.# Output of aws fsx describe-file-systems "FileSystemId": "fs-0123456789abcdef0" "MountName": "1234abcd" # Output of aws fsx describe-data-repository-association "FileSystemPath": "/ns1", "DataRepositoryPath": "s3://amzn-s3-demo-bucket/data/"
Amazon S3와 Amazon 간의 동기화FSx가 완료되면 데이터 세트가 다음 디렉터리에 AmazonFSx에 저장됩니다.
/ns1/train # synced with s3://amzn-s3-demo-bucket/data/train /ns1/test # synced with s3://amzn-s3-demo-bucket/data/test
Amazon FSx 파일 시스템 경로를 SageMaker 훈련을 위한 데이터 입력 채널로 설정
다음 절차에서는 Amazon FSx 파일 시스템을 SageMaker 훈련 작업의 데이터 소스로 설정하는 프로세스를 안내합니다.