Pipelines 개요 - Amazon SageMaker

Pipelines 개요

Amazon SageMaker 파이프라인은 방향성 비순환 그래프(DAG)의 상호 연결된 일련의 단계로, 이 단계는 드래그 앤 드롭 UI 또는 Pipelines SDK를 사용하여 정의됩니다. 파이프라인 정의 JSON 스키마를 사용하여 파이프라인을 구축할 수도 있습니다. 이 DAG JSON 정의는 파이프라인의 각 단계에 대한 요구 사항 및 각 단계 간의 관계에 대한 정보를 제공합니다. 파이프라인 DAG의 구조는 단계 간 데이터 종속성에 따라 결정됩니다. 이러한 데이터 종속성은 단계 출력의 속성이 다른 단계의 입력으로 전달될 때 생성됩니다. 다음 이미지에서는 파이프라인 DAG의 예제를 확인할 수 있습니다.

예시 파이프라인 방향성 비순환 그래프(DAG)
이 예시 DAG에는 다음 단계가 포함됩니다.
  1. 처리 단계의 인스턴스인 AbaloneProcess는 훈련에 사용되는 데이터에 대해 사전 처리 스크립트를 실행합니다. 예를 들어 스크립트는 누락된 값을 채우거나, 숫자 데이터를 정규화하거나, 데이터를 훈련, 검증 및 테스트 데이터세트로 분할할 수 있습니다.

  2. 훈련 단계의 인스턴스인 AbaloneTrain은 하이퍼파라미터를 구성하고 사전 처리된 입력 데이터에서 모델을 훈련합니다.

  3. 처리 단계의 또 다른 인스턴스인 AbaloneEval은 모델의 정확도를 평가합니다. 이 단계에서는 데이터 종속성의 예를 보여줍니다. 이 단계에서는 AbaloneProcess의 테스트 데이터세트 출력을 사용합니다.

  4. AbaloneMSECond조건 단계의 인스턴스로, 이 예시에서는 모델 평가의 평균 제곱오차 결과가 특정 한도 미만인지 확인합니다. 모델이 기준을 충족하지 않으면 파이프라인 실행이 중지됩니다.

  5. 파이프라인 실행은 다음 단계로 진행됩니다.

    1. AbaloneRegisterModel. 여기서 SageMaker는 RegisterModel 단계를 직접 호출하여 모델을 Amazon SageMaker Model Registry에 버전 모델 패키지 그룹으로 등록합니다.

    2. AbaloneCreateModel. 여기서 SageMaker는 CreateModel 단계를 직접 호출하여 배치 변환을 준비하기 위해 모델을 만듭니다. AbaloneTransform에서 SageMaker는 변환 단계를 직접 호출하여 사용자가 지정한 데이터세트에 대한 모델 예측을 생성합니다.

다음 주제는 Pipelines의 기본 개념을 설명합니다. 이러한 개념의 구현을 설명하는 자습서는 Pipelines 작업섹션을 참조하세요.