입력 모드 및 스토리지 유닛 선택 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

입력 모드 및 스토리지 유닛 선택

훈련 작업에 가장 적합한 데이터 소스는 데이터세트 크기, 파일 형식, 평균 파일 크기, 훈련 기간, 순차 또는 임의 데이터 로더 읽기 패턴, 모델이 훈련 데이터를 소비하는 속도 등과 같은 워크로드 특성에 따라 달라집니다. 다음 모범 사례는 사용 사례에 가장 적합한 입력 모드와 데이터 스토리지 서비스를 가지고 시작하기 위한 지침을 제공합니다.

데이터 소스 및 입력 파일 모드로 최상의 스토리지를 선택하는 모범 사례를 요약한 흐름도입니다.

Amazon을 사용해야 하는 경우 EFS

데이터 세트가 Amazon Elastic File System에 저장되어 있는 경우 Amazon을 스토리지EFS로 사용하는 사전 처리 또는 주석 애플리케이션이 있을 수 있습니다. Amazon EFS 파일 시스템을 가리키는 데이터 채널로 구성된 훈련 작업을 실행할 수 있습니다. 자세한 내용은 Amazon FSx for Lustre 및 Amazon EFS 파일 시스템을 사용하여 Amazon SageMaker AI에 대한 훈련 속도를 참조하세요. 더 나은 성능을 얻을 수 없는 경우 Amazon Elastic File System 성능 가이드에 따라 최적화 옵션을 확인하거나 다른 입력 모드 또는 데이터 스토리지를 사용하는 것을 고려해 보세요.

작은 데이터세트를 위한 파일 모드 사용

데이터세트가 Amazon Simple Storage Service에 저장되어 있고 전체 볼륨이 비교적 작은 경우 (예: 50~100GB 미만), 파일 모드를 사용해 보세요. 50GB 데이터세트를 다운로드하는 데 드는 오버헤드는 총 파일 수에 따라 달라질 수 있습니다. 예를 들어 데이터세트를 100MB 샤드로 청크하는 경우 약 5분이 소요됩니다. 이러한 스타트업 오버헤드가 허용되는지 여부는 주로 훈련 작업의 전체 기간에 따라 달라집니다. 훈련 단계가 길수록 다운로드 단계가 그에 비례하여 줄어들기 때문입니다.

다수의 작은 파일 직렬화

데이터세트 크기는 작지만 (50~100GB 미만) 여러 개의 작은 파일로 구성된 경우 (파일당 50MB 미만), 각 파일을 Amazon Simple Storage Service에서 훈련 인스턴스 볼륨으로 개별적으로 다운로드해야 하기 때문에 파일 모드 다운로드 오버헤드가 증가합니다. 일반적으로 이러한 오버헤드 및 데이터 순회 시간을 줄이려면의 경우 ,의 TFRecord 경우 TensorFlow,의 경우 RecordIO WebDataset PyTorch와 같은 파일 형식을 사용하여 작은 파일의 그룹을 더 작은 파일 컨테이너(예: 파일당 150MB)로 직렬화하는 것이 좋습니다MXNet.

고속 파일 모드를 사용해야 하는 경우

파일(파일당 50MB 이상)이 더 큰 데이터 세트의 경우 첫 번째 옵션은 빠른 파일 모드를 시도하는 것입니다. 파일 시스템을 생성하거나에 연결할 필요가 없기 때문에 LustreFSx보다 사용하기가 더 쉽습니다VPC. 고속 파일 모드는 대용량 파일 컨테이너(150MB 이상)에 이상적이며 50MB를 초과하는 파일에도 적합합니다. 빠른 파일 모드는 POSIX 인터페이스를 제공하므로 무작위 읽기(순차가 아닌 바이트 범위 읽기)를 지원합니다. 그러나 이는 이상적인 사용 사례가 아니므로 순차 읽기보다 처리량이 낮을 수 있습니다. 하지만 비교적 규모가 크고 계산 집약적인 ML 모델을 사용하는 경우 고속 파일 모드가 여전히 훈련 파이프라인의 유효 대역폭을 포화시켜 IO 병목 현상이 발생하지 않을 수 있습니다. 실험해서 확인해야 합니다. 파일 모드에서 빠른 파일 모드(및 뒤로)로 전환하려면 SageMaker Python을 사용하여 입력 채널을 정의하는 동안 input_mode='FastFile' 파라미터를 추가(또는 제거)하면 됩니다. SDK

sagemaker.inputs.TrainingInput(S3_INPUT_FOLDER, input_mode = 'FastFile')

Amazon FSx for Lustre를 사용해야 하는 경우

데이터 세트가 파일 모드에 비해 너무 크거나, 쉽게 직렬화할 수 없는 작은 파일이 많거나, 무작위 읽기 액세스 패턴을 사용하는 경우 LustreFSx용을 고려하는 것이 좋습니다. 파일 시스템은 초당 수백 기가바이트(GB/s)의 처리량과 수백만 개의 로 확장IOPS되므로 작은 파일이 많을 때 적합합니다. 그러나 로드가 느려지고 FSx for Lustre 파일 시스템을 설정하고 초기화하는 오버헤드로 인해 콜드 스타트 문제가 발생할 수 있습니다.

작은 정보

자세한 내용은 Amazon SageMaker 훈련 작업에 가장 적합한 데이터 소스 선택을 참조하세요. 이 AWS 기계 학습 블로그에서는 데이터 소스 및 입력 모드의 사례 연구 및 성능 벤치마크에 대해 자세히 설명합니다.