처리 작업을 사용하여 데이터 변환 워크로드 실행 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

처리 작업을 사용하여 데이터 변환 워크로드 실행

SageMaker 처리란 SageMaker 완전관리형 인프라에서 데이터 사전 및 사후 처리, 기능 엔지니어링, 모델 평가 작업을 실행하는 SageMaker 의 기능을 말합니다. 이러한 작업은 처리 작업으로 실행됩니다. 데이터 과학자는 SageMaker Processing API를 사용하여 스크립트와 노트북을 실행하여 데이터세트를 처리, 변환 및 분석하여 머신러닝에 사용할 준비를 할 수 있습니다. Processing은 에서 제공하는 SageMaker 다른 중요한 기계 학습 작업 (예: 교육 및 호스팅) 과 결합할 경우 기본 제공되는 모든 보안 및 규정 준수 지원을 포함하여 완전 관리형 기계 학습 환경의 이점을 제공합니다. SageMaker 내장된 데이터 처리 컨테이너를 사용하거나 사용자 지정 처리 로직을 위해 자체 컨테이너를 가져온 다음 SageMaker 관리형 인프라에서 실행되도록 작업을 제출할 수 있는 유연성이 있습니다.

참고

에서 SageMaker 지원하거나 를 사용하여 CreateProcessingJob API 작업을 호출하여 프로그래밍 방식으로 처리 작업을 만들 수 있습니다. AWS CLI이 API 작업이 원하는 언어의 함수로 변환되는 방식에 대한 자세한 내용은 SDK 선택 CreateProcessingJob 및 관련 항목 섹션을 참조하십시오. 예를 들어, Python 사용자의 경우 SageMaker Python SDK의 Amazon SageMaker 프로세싱 섹션을 참조하십시오. 또는 에서 create_processing_job의 전체 요청 구문을 참조하십시오. AWS SDK for Python (Boto3)

다음 다이어그램은 SageMaker Amazon이 처리 작업을 시작하는 방법을 보여줍니다. Amazon은 스크립트를 SageMaker 가져와 Amazon Simple S3 (Amazon S3) 에서 데이터를 복사한 다음 처리 컨테이너를 가져옵니다. 처리 작업의 기본 인프라는 Amazon에서 완전히 관리합니다 SageMaker. 처리 작업을 제출한 후 컴퓨팅 인스턴스를 SageMaker 시작하고 입력 데이터를 처리 및 분석하고 완료 시 리소스를 릴리스합니다. 프로세싱 작업의 출력은 지정하는 Amazon S3 버킷에 저장됩니다.

참고

입력 데이터는 Amazon S3 버킷에 저장해야 합니다. 아니면, Amazon Athena 또는 Amazon Redshift를 입력 소스로 사용할 수 있습니다.

처리 작업 실행.
작은 정보

기계 학습(ML) 훈련 및 처리 작업의 분산형 컴퓨팅에 대한 일반적인 모범 사례를 알아보려면 SageMaker 모범 사례를 사용한 분산 컴퓨팅을(를) 참고하세요.

Amazon SageMaker 프로세싱 샘플 노트북 사용

데이터 사전 처리, 모델 평가 또는 두 가지 모두를 수행하는 방법을 보여주는 2개의 샘플 Jupyter notebook을 제공합니다.

SageMaker Python SDK for Processing을 사용하여 scikit-learn 스크립트를 실행하여 데이터 전처리 및 모델 학습 및 평가를 수행하는 방법을 보여주는 샘플 노트북은 scikit-learn 프로세싱을 참조하십시오. 또한 이 노트북은 사용자 지정 컨테이너를 사용하여 Python 라이브러리 및 기타 특정 종속성을 포함하는 처리 워크로드를 실행하는 방법을 보여줍니다.

Amazon Processing을 사용하여 Spark로 분산 데이터 사전 SageMaker 처리를 수행하는 방법을 보여주는 샘플 노트북은 분산 처리 (Spark) 를 참조하십시오. 이 노트북은 사전 처리된 데이터 세트에서 XGBoost를 사용하여 회귀 모델을 훈련하는 방법도 보여줍니다.

이러한 샘플을 실행하는 데 사용할 수 있는 Jupyter 노트북 인스턴스를 생성하고 액세스하는 방법에 대한 지침은 을 참조하십시오. SageMaker 아마존 SageMaker 노트북 인스턴스 Notebook 인스턴스를 만들고 연 후 SageMaker Examples 탭을 선택하면 모든 샘플 목록이 표시됩니다. SageMaker 노트북을 열려면 사용 탭을 선택한 후 사본 생성을 선택합니다.

CloudWatch 로그 및 지표로 Amazon SageMaker 처리 작업 모니터링

Amazon SageMaker Processing은 처리 작업을 모니터링하기 위한 Amazon CloudWatch 로그와 지표를 제공합니다. CloudWatch CPU, GPU, 메모리, GPU 메모리, 디스크 지표, 이벤트 로깅을 제공합니다. 자세한 내용은 SageMaker 아마존과 아마존을 모니터링하세요 CloudWatch아마존에서 아마존 SageMaker 이벤트를 기록하세요 CloudWatch 단원을 참조하세요.