배치 변환을 사용하여 대규모 데이터세트에서 추론 가져오기 배치 변환 작업의 속도 높이기 배치 변환을 사용하여 프로덕션 변형 테스트 샘플 노트북

Amazon SageMaker AI를 사용한 추론용 배치 변환

다음 작업이 필요할 때 배치 변환을 사용합니다.

데이터세트를 사전 처리하여 데이터세트에서 훈련 또는 추론을 방해하는 노이즈 또는 바이어스를 제거합니다.
대규모 데이터세트에서 추론을 가져옵니다.
영구 엔드포인트가 필요하지 않을 경우 추론을 실행합니다.
결과를 쉽게 해석할 수 있도록 입력 레코드를 추론과 연결시킵니다.

추론을 수행하기 전에 입력 데이터를 필터링하거나 입력 레코드를 해당 레코드에 대한 추론과 연결하려면 예측 결과를 입력 레코드에 연결을 참조합니다. 예를 들어, 입력 데이터를 필터링하여 출력 데이터에 대한 보고서를 생성 및 해석하기 위한 컨텍스트를 제공할 수 있습니다.

주제

배치 변환을 사용하여 대규모 데이터세트에서 추론 가져오기
배치 변환 작업의 속도 높이기
배치 변환을 사용하여 프로덕션 변형 테스트
배치 변환 샘플 노트북
예측 결과를 입력 레코드에 연결
배치 변환의 스토리지
문제 해결

배치 변환을 사용하여 대규모 데이터세트에서 추론 가져오기

배치 변환은 대규모 데이터세트의 처리를 지정된 파라미터 제한 내에서 자동으로 관리합니다. 예를 들어 데이터세트 파일 input1.csv가 S3 버킷에 저장되어 있다고 가정하겠습니다. 입력 파일의 내용은 모양이 다음 예제와 같을 수 있습니다.


Record1-Attribute1, Record1-Attribute2, Record1-Attribute3, ..., Record1-AttributeM
Record2-Attribute1, Record2-Attribute2, Record2-Attribute3, ..., Record2-AttributeM
Record3-Attribute1, Record3-Attribute2, Record3-Attribute3, ..., Record3-AttributeM
...
RecordN-Attribute1, RecordN-Attribute2, RecordN-Attribute3, ..., RecordN-AttributeM

배치 변환 작업이 시작되면 SageMaker AI는 컴퓨팅 인스턴스를 시작하고 추론 또는 사전 처리 워크로드를 이 인스턴스 사이에 배포합니다. 배치 변환 파티션은 입력에 있는 Amazon S3 객체를 키로 분할하고 Amazon S3 객체를 인스턴스에 매핑합니다. 파일이 여러 개라면 한 인스턴스는 input1.csv를 처리하고, 다른 인스턴스는 이름이 input2.csv인 파일을 처리할 수 있습니다. 입력 파일은 하나이지만 여러 컴퓨팅 인스턴스를 초기화하는 경우 한 인스턴스만 입력 파일을 처리합니다. 나머지 인스턴스는 유휴 상태입니다.

입력 파일을 미니 배치로 분할할 수도 있습니다. 예를 들어 레코드 두 개만 포함시켜 input1.csv에서 미니 배치를 생성할 수 있습니다.



Record3-Attribute1, Record3-Attribute2, Record3-Attribute3, ..., Record3-AttributeM
Record4-Attribute1, Record4-Attribute2, Record4-Attribute3, ..., Record4-AttributeM

참고

SageMaker AI는 각 입력 파일을 개별적으로 처리합니다. MaxPayloadInMB 제한을 준수하기 위해 다른 입력 파일에서 분할된 미니 배치를 결합하지 않습니다.

배치 변환 작업을 생성할 때 입력 파일을 미니 배치로 분할하려면 SplitType 파라미터 값을 Line으로 설정합니다. SageMaker AI는 다음과 같은 경우 단일 요청으로 전체 입력 파일을 사용합니다.

SplitType를 None(으)로 설정합니다.
입력 파일은 미니 배치로 분할할 수 없습니다.

. 참고로 배치 변환은 포함된 줄 바꿈 문자가 포함된 CSV 형식 입력을 지원하지 않습니다. BatchStrategy 및 MaxPayloadInMB 파라미터를 사용하여 미니 배치의 크기를 제어할 수 있습니다. MaxPayloadInMB는 100MB를 초과할 수 없습니다. 선택적 MaxConcurrentTransforms 파라미터를 지정하는 경우, (MaxConcurrentTransforms * MaxPayloadInMB)의 값도 100MB를 초과할 수 없습니다.

배치 변환 작업이 입력 파일의 모든 레코드를 성공적으로 처리하면 출력 파일이 생성됩니다. 출력 파일의 이름과 .out 파일 확장자는 동일합니다. input1.csv 및 input2.csv와 같은 여러 입력 파일의 경우 출력 파일의 이름은 input1.csv.out 및 input2.csv.out입니다. 배치 변환 작업은 s3://amzn-s3-demo-bucket/output/과 같이 Amazon S3에 지정된 위치에 출력 파일을 저장합니다.

출력 파일의 예측은 입력 파일의 해당 레코드와 동일한 순서로 나열됩니다. 앞에 나온 입력 파일을 기반으로 한 출력 파일 input1.csv.out은 모양이 다음과 같을 것입니다.


Inference1-Attribute1, Inference1-Attribute2, Inference1-Attribute3, ..., Inference1-AttributeM
Inference2-Attribute1, Inference2-Attribute2, Inference2-Attribute3, ..., Inference2-AttributeM
Inference3-Attribute1, Inference3-Attribute2, Inference3-Attribute3, ..., Inference3-AttributeM
...
InferenceN-Attribute1, InferenceN-Attribute2, InferenceN-Attribute3, ..., InferenceN-AttributeM

SplitType을 Line으로 설정하면 AssembleWith 파라미터를 Line으로 설정하여 출력 레코드를 줄 구분자와 연결할 수 있습니다. 이렇게 해도 출력 파일 수는 변하지 않습니다. 출력 파일 수는 입력 파일 수와 같으며 AssembleWith를 사용해도 파일이 병합되지 않습니다. AssembleWith 파라미터를 지정하지 않으면 출력 레코드가 기본적으로 바이너리 형식으로 연결됩니다.

입력 데이터가 매우 크고 HTTP 청크 분할 인코딩을 사용하여 전송되는 경우, 데이터를 알고리즘으로 스트리밍하려면 MaxPayloadInMB를 0으로 설정합니다. Amazon SageMaker AI 기본 제공 알고리즘은 이 기능을 지원하지 않습니다.

API를 사용하여 배치 변환 작업을 생성하는 방법에 대한 자세한 내용은 CreateTransformJob API를 참조하세요. 배치 변환 입력 및 출력 객체 간의 관계에 대한 자세한 내용은 OutputDataConfig 섹션을 참조하세요. 배치 변환을 사용하는 방법의 예제는 (선택 사항) 배치 변환으로 예측하기 섹션을 참조하세요.

배치 변환 작업의 속도 높이기

CreateTransformJob API를 사용하는 경우 최적의 파라미터 값을 사용하여 배치 변환 작업을 완료하는 데 걸리는 시간을 단축할 수 있습니다. 여기에는 MaxPayloadInMB, MaxConcurrentTransforms 또는 BatchStrategy 같은 파라미터가 포함됩니다. MaxConcurrentTransforms의 이상적인 값은 배치 변환 작업의 컴퓨팅 작업자 수와 같습니다.

SageMaker AI 콘솔을 사용하는 경우 배치 변환 작업 구성 페이지의 추가 구성 섹션에서 이러한 최적의 파라미터 값을 지정할 수 있습니다. SageMaker AI는 기본 제공 알고리즘에 대한 최적의 파라미터 설정을 자동으로 찾습니다. 사용자 지정 알고리즘의 경우 execution-parameters 엔드포인트를 통해 이러한 값을 제공합니다.

배치 변환을 사용하여 프로덕션 변형 테스트

다양한 모델 또는 다양한 하이퍼파라미터 설정을 테스트하려면 새로운 모델 변수에 대해 각각 변환 작업을 생성하고 검증 데이터세트를 사용합니다. 각 변환 작업의 경우, Amazon S3에서 출력 파일에 대한 고유한 모델 이름과 위치를 지정합니다. 결과를 분석하려면 추론 파이프라인 로그 및 지표을 사용합니다.

배치 변환 샘플 노트북

배치 변환을 사용하는 샘플 노트북은 PCA 및 DBSCAN 영화 클러스터를 사용한 배치 변환을 참조하세요. 이 노트북은 주요 구성 요소 분석(PCA) 모델을 사용한 배치 변환을 사용하여 사용자 항목 검토 매트릭스의 데이터를 줄입니다. 그런 다음 노이즈가 있는 애플리케이션의 밀도 기반 공간 클러스터링(DBSCAN) 알고리즘을 적용하여 영화를 클러스터링하는 방법을 보여줍니다.

SageMaker AI에서 예시를 실행하는 데 사용할 수 있는 Jupyter Notebook 인스턴스를 만들어 해당 인스턴스에 액세스하는 설명은 Amazon SageMaker 노트북 인스턴스 섹션을 참조하세요. 노트북 인스턴스를 만들어 연 다음 SageMaker 예시 탭을 선택하면 모든 SageMaker AI 예시 목록이 나타납니다. NTM 알고리즘을 사용하는 주제 모델링 예제 노트북은 고급 기능 섹션에 있습니다. 노트북을 열려면 노트북의 사용 탭을 선택하고 복사본 생성을 선택합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

문제 해결

예측 결과를 입력에 연결