배치 변환 사용 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

배치 변환 사용

다음 작업이 필요할 때 배치 변환을 사용합니다.

  • 데이터 세트를 사전 처리하여 데이터 세트에서 훈련 또는 추론을 방해하는 노이즈 또는 바이어스를 제거합니다.

  • 대규모 데이터 세트에서 추론을 가져옵니다.

  • 영구 엔드포인트가 필요하지 않을 경우 추론을 실행합니다.

  • 결과를 쉽게 해석할 수 있도록 입력 레코드를 추론과 연결시킵니다.

추론을 수행하기 전에 입력 데이터를 필터링하거나 입력 레코드를 해당 레코드에 대한 추론과 연결하려면 예측 결과를 입력 레코드에 연결을 참조합니다. 예를 들어, 입력 데이터를 필터링하여 출력 데이터에 대한 보고서를 생성 및 해석하기 위한 컨텍스트를 제공할 수 있습니다.

배치 변환을 사용하여 대규모 데이터 세트에서 추론 가져오기

배치 변환은 대규모 데이터 세트의 처리를 지정된 파라미터 제한 내에서 자동으로 관리합니다. 예를 들어 데이터 세트 파일 input1.csv가 S3 버킷에 저장되어 있다고 가정하겠습니다. 입력 파일의 내용은 모양이 다음 예제와 같을 수 있습니다.

Record1-Attribute1, Record1-Attribute2, Record1-Attribute3, ..., Record1-AttributeM Record2-Attribute1, Record2-Attribute2, Record2-Attribute3, ..., Record2-AttributeM Record3-Attribute1, Record3-Attribute2, Record3-Attribute3, ..., Record3-AttributeM ... RecordN-Attribute1, RecordN-Attribute2, RecordN-Attribute3, ..., RecordN-AttributeM

일괄 변환 작업이 시작되면 컴퓨팅 인스턴스를 SageMaker 초기화하고 컴퓨팅 인스턴스 간에 추론 또는 사전 처리 워크로드를 분산합니다. 배치 변환 파티션은 입력에 있는 Amazon S3 객체를 키로 분할하고 Amazon S3 객체를 인스턴스에 매핑합니다. 파일이 여러 개라면 한 인스턴스는 input1.csv를 처리하고, 다른 인스턴스는 이름이 input2.csv인 파일을 처리할 수 있습니다. 입력 파일은 하나이지만 여러 컴퓨팅 인스턴스를 초기화하는 경우 한 인스턴스만 입력 파일을 처리하고 나머지 인스턴스는 유휴 상태입니다.

입력 파일을 미니 배치로 분할할 수도 있습니다. 예를 들어 레코드 두 개만 포함시켜 input1.csv에서 미니 배치를 생성할 수 있습니다.

Record3-Attribute1, Record3-Attribute2, Record3-Attribute3, ..., Record3-AttributeM Record4-Attribute1, Record4-Attribute2, Record4-Attribute3, ..., Record4-AttributeM
참고

SageMaker 각 입력 파일을 개별적으로 처리합니다. MaxPayloadInMB 제한을 준수하기 위해 다른 입력 파일에서 분할된 미니 배치를 결합하지 않습니다.

배치 변환 작업을 생성할 때 입력 파일을 미니 배치로 분할하려면 SplitType 파라미터 값을 Line으로 설정합니다. 로 None 설정하거나 입력 파일을 미니 배치로 분할할 수 없는 경우 단일 요청으로 전체 입력 파일을 SageMaker 사용합니다. SplitType 참고로 배치 변환은 포함된 줄 바꿈 문자가 포함된 CSV 형식 입력을 지원하지 않습니다. BatchStrategyMaxPayloadInMB 파라미터를 사용하여 미니 배치의 크기를 제어할 수 있습니다. MaxPayloadInMB는 100MB를 초과할 수 없습니다. 선택적 MaxConcurrentTransforms 파라미터를 지정하는 경우, (MaxConcurrentTransforms * MaxPayloadInMB)의 값도 100MB를 초과할 수 없습니다.

배치 변환 작업이 입력 파일의 모든 레코드를 성공적으로 처리하면 이름과 .out 파일 확장명이 동일한 출력 파일이 생성됩니다. input1.csvinput2.csv와 같은 여러 입력 파일의 경우 출력 파일의 이름은 input1.csv.outinput2.csv.out입니다. 배치 변환 작업은 s3://awsexamplebucket/output/과 같이 Amazon S3에 지정된 위치에 출력 파일을 저장합니다.

출력 파일의 예측은 입력 파일의 해당 레코드와 동일한 순서로 나열됩니다. 앞에 나온 입력 파일을 기반으로 한 출력 파일 input1.csv.out은 모양이 다음과 같을 것입니다.

Inference1-Attribute1, Inference1-Attribute2, Inference1-Attribute3, ..., Inference1-AttributeM Inference2-Attribute1, Inference2-Attribute2, Inference2-Attribute3, ..., Inference2-AttributeM Inference3-Attribute1, Inference3-Attribute2, Inference3-Attribute3, ..., Inference3-AttributeM ... InferenceN-Attribute1, InferenceN-Attribute2, InferenceN-Attribute3, ..., InferenceN-AttributeM

SplitTypeLine으로 설정하면 AssembleWith 파라미터를 Line으로 설정하여 출력 레코드를 줄 구분자와 연결할 수 있습니다. 이렇게 해도 출력 파일 수는 변하지 않습니다. 출력 파일 수는 입력 파일 수와 같으며 AssembleWith를 사용해도 파일이 병합되지 않습니다. AssembleWith 파라미터를 지정하지 않으면 기본적으로 출력 레코드가 바이너리 형식으로 연결됩니다.

입력 데이터가 매우 크고 HTTP 청크 분할 인코딩을 사용하여 전송되는 경우, 데이터를 알고리즘으로 스트리밍하려면 MaxPayloadInMB0으로 설정합니다. Amazon SageMaker 내장 알고리즘은 이 기능을 지원하지 않습니다.

API를 사용하여 배치 변환 작업을 생성하는 방법에 대한 자세한 내용은 CreateTransformJob API를 참조하세요. 배치 변환 입력 및 출력 객체 간의 상관 관계에 대한 자세한 내용은 OutputDataConfig 섹션을 참조하세요. 배치 변환을 사용하는 방법의 예제는 (선택 사항) 배치 변환으로 예측하기 섹션을 참조하세요.

배치 변환 작업의 속도 높이기

CreateTransformJob API를 사용하는 경우 MaxPayloadInMB, MaxConcurrentTransforms 또는 BatchStrategy 같은 최적의 파라미터 값을 사용하여 배치 변환 작업을 완료하는 데 걸리는 시간을 단축할 수 있습니다. MaxConcurrentTransforms의 이상적인 값은 배치 변환 작업의 컴퓨팅 작업자 수와 같습니다. SageMaker 콘솔을 사용하는 경우 Batch transform 작업 구성 페이지의 추가 구성 섹션에서 이러한 최적의 매개변수 값을 지정할 수 있습니다. SageMaker 내장 알고리즘에 대한 최적의 파라미터 설정을 자동으로 찾습니다. 사용자 지정 알고리즘의 경우 execution-parameters 엔드포인트를 통해 이러한 값을 제공합니다.

배치 변환을 사용하여 프로덕션 변형 테스트

다양한 모델 또는 다양한 하이퍼파라미터 설정을 테스트하려면 새로운 모델 변수에 대해 각각 변환 작업을 생성하고 검증 데이터 세트를 사용합니다. 각 변환 작업의 경우, Amazon S3에서 출력 파일에 대한 고유한 모델 이름과 위치를 지정합니다. 결과를 분석하려면 추론 파이프라인 로그 및 지표을 사용합니다.

배치 변환 샘플 노트북

주성분 분석(PCA) 모델을 이용한 배치 변환을 사용하여 사용자 항목 검토 매트릭스의 데이터를 줄이고 DBSCAN(density-based spatial clustering of applications with noise) 알고리즘을 클러스터 무비에 적용하는 샘플 노트북은 Batch Transform with PCA and DBSCAN Movie Clusters 섹션을 참조하세요. 에서 SageMaker 예제를 실행하는 데 사용할 수 있는 Jupyter 노트북 인스턴스를 만들고 액세스하는 방법에 대한 지침은 을 참조하십시오. 아마존 SageMaker 노트북 인스턴스 Notebook 인스턴스를 만들고 연 후 SageMaker Examples 탭을 선택하면 모든 예제 목록이 표시됩니다. SageMaker NTM 알고리즘을 사용하는 주제 모델링 예제 노트북은 고급 기능 섹션에 있습니다. 노트북을 열려면 노트북의 사용 탭을 선택하고 복사본 생성을 선택합니다.