새 데이터를 자동으로 처리하는 일정 만들기 - Amazon SageMaker

새 데이터를 자동으로 처리하는 일정 만들기

참고

다음 섹션은 SageMaker Processing 작업에만 적용됩니다. 기본 Canvas 설정 또는 EMR Serverless를 사용하여 원격 작업을 만들어 전체 데이터세트에 변환을 적용하는 경우 이 섹션은 적용되지 않습니다.

데이터를 주기적으로 처리하는 경우 처리 작업을 자동으로 실행하는 일정을 생성할 수 있습니다. 예를 들어 새 데이터를 받을 때 처리 작업을 자동으로 실행하는 일정을 생성할 수 있습니다. 처리 작업에 대한 자세한 내용은 Amazon S3로 내보내기 섹션을 참조하세요.

작업을 만들 때는 작업을 만들 권한이 있는 IAM 역할을 지정해야 합니다. AmazonSageMakerCanvasDataPrepFullAccess 정책을 사용하여 권한을 추가할 수 있습니다.

다음 신뢰 정책을 이 역할에 추가하여 EventBridge가 신뢰 정책을 받아들이도록 합니다.

{ "Effect": "Allow", "Principal": { "Service": "events.amazonaws.com" }, "Action": "sts:AssumeRole" }
중요

일정을 생성하면 Data Wrangler는 EventBridge에 eventRule을 생성합니다. 생성한 이벤트 규칙과 처리 작업 실행에 사용되는 인스턴스에 모두 요금이 부과됩니다.

EventBridge 요금에 대한 자세한 내용은 Amazon EventBridge 요금을 참조하세요. 처리 작업 요금에 대한 자세한 내용은 Amazon SageMaker 요금을 참조하세요.

다음 방법 중 하나를 사용하여 일정을 설정할 수 있습니다.

  • CRON 표현식

    참고

    Data Wrangler는 다음 표현식을 지원하지 않습니다.

    • LW#

    • 요일 약어

    • 월 약어

  • RATE 표현식

  • 반복 – 작업을 실행할 시간당 또는 일별 간격을 설정합니다.

  • 특정 시간 – 작업을 실행할 특정한 날과 시간을 설정합니다.

다음 섹션에서는 데이터를 Amazon S3로 내보내는 동안 SageMaker Processing 작업 설정을 작성할 때 작업 예약 절차를 설명합니다. 다음 지침은 모두 SageMaker Processing 작업 설정의 일정 연결 섹션에서 시작됩니다.

CRON

다음 절차에 따라 CRON 표현식으로 일정을 생성합니다.

  1. Amazon S3로 내보내기 사이드 패널에서 자동 작업 구성 토글을 끄고 SageMaker Processing 옵션을 선택했는지 확인합니다.

  2. SageMaker Processing 작업 설정에서 일정 연결 섹션을 열고 새 일정 만들기를 선택합니다.

  3. 새 일정 만들기 대화 상자가 열립니다. 일정 이름에는 일정의 이름을 지정합니다.

  4. 실행 빈도에는 CRON을 선택합니다.

  5. , 시간, 일자, , 요일 필드에 유효한 cron 표현식 값을 입력합니다.

  6. 생성(Create)을 선택합니다.

  7. (선택 사항) 추가 일정에 따라 작업을 실행하려면 다른 일정 추가를 선택합니다.

    참고

    최대 두 개의 일정을 연결할 수 있습니다. 일정은 독립적이며 시간이 겹치지 않는 한 서로 영향을 주지 않습니다.

  8. 다음 중 하나를 선택합니다.

    • 예약 및 지금 실행 – 작업이 즉시 실행되고 이후에 일정에 따라 실행됩니다.

    • 예약만 – 지정한 일정에 따라서만 작업이 실행됩니다.

  9. 나머지 내보내기 작업 설정을 입력한 후 내보내기를 선택합니다.

RATE

다음 절차에 따라 RATE 표현식으로 일정을 생성합니다.

  1. Amazon S3로 내보내기 사이드 패널에서 자동 작업 구성 토글을 끄고 SageMaker Processing 옵션을 선택했는지 확인합니다.

  2. SageMaker Processing 작업 설정에서 일정 연결 섹션을 열고 새 일정 만들기를 선택합니다.

  3. 새 일정 만들기 대화 상자가 열립니다. 일정 이름에는 일정의 이름을 지정합니다.

  4. 실행 빈도에는 속도를 선택합니다.

  5. 에는 정수를 지정합니다.

  6. 단위에는 다음 중 하나를 선택합니다.

    • 시간

  7. 생성(Create)을 선택합니다.

  8. (선택 사항) 추가 일정에 따라 작업을 실행하려면 다른 일정 추가를 선택합니다.

    참고

    최대 두 개의 일정을 연결할 수 있습니다. 일정은 독립적이며 시간이 겹치지 않는 한 서로 영향을 주지 않습니다.

  9. 다음 중 하나를 선택합니다.

    • 예약 및 지금 실행 – 작업이 즉시 실행되고 이후에 일정에 따라 실행됩니다.

    • 예약만 – 지정한 일정에 따라서만 작업이 실행됩니다.

  10. 나머지 내보내기 작업 설정을 입력한 후 내보내기를 선택합니다.

Recurring

작업을 반복적으로 실행하는 일정을 만들려면 다음 절차에 따르세요.

  1. Amazon S3로 내보내기 사이드 패널에서 자동 작업 구성 토글을 끄고 SageMaker Processing 옵션을 선택했는지 확인합니다.

  2. SageMaker Processing 작업 설정에서 일정 연결 섹션을 열고 새 일정 만들기를 선택합니다.

  3. 새 일정 만들기 대화 상자가 열립니다. 일정 이름에는 일정의 이름을 지정합니다.

  4. 실행 빈도 에서 반복을 선택합니다.

  5. x시간마다 하루 동안 작업이 실행되는 시간당 빈도를 지정합니다. 유효한 값은 123을 포함한 범위의 정수입니다.

  6. 지정일에는 다음 옵션 중 하나를 선택합니다.

    • 매일

    • 주말

    • 평일

    • 요일 선택

    1. (선택 사항) 요일 선택을 선택한 경우 작업을 실행할 요일을 선택합니다.

    참고

    일정이 매일 재설정됩니다. 작업이 5시간마다 실행되도록 예약하면 하루 중 다음 시간에 작업이 실행됩니다.

    • 00:00

    • 05:00

    • 10:00

    • 15:00

    • 20:00

  7. 생성(Create)을 선택합니다.

  8. (선택 사항) 추가 일정에 따라 작업을 실행하려면 다른 일정 추가를 선택합니다.

    참고

    최대 두 개의 일정을 연결할 수 있습니다. 일정은 독립적이며 시간이 겹치지 않는 한 서로 영향을 주지 않습니다.

  9. 다음 중 하나를 선택합니다.

    • 예약 및 지금 실행 – 작업이 즉시 실행되고 이후에 일정에 따라 실행됩니다.

    • 예약만 – 지정한 일정에 따라서만 작업이 실행됩니다.

  10. 나머지 내보내기 작업 설정을 입력한 후 내보내기를 선택합니다.

Specific time

특정 시간에 작업을 실행하는 일정을 생성하려면 다음 절차에 따르세요.

  1. Amazon S3로 내보내기 사이드 패널에서 자동 작업 구성 토글을 끄고 SageMaker Processing 옵션을 선택했는지 확인합니다.

  2. SageMaker Processing 작업 설정에서 일정 연결 섹션을 열고 새 일정 만들기를 선택합니다.

  3. 새 일정 만들기 대화 상자가 열립니다. 일정 이름에는 일정의 이름을 지정합니다.

  4. 실행 빈도에서 시작 시간을 선택합니다.

  5. 시작 시간에 UTC 형식(예: 09:00)으로 시간을 입력합니다. 시작 시간은 기본적으로 사용자가 위치한 시간대로 설정됩니다.

  6. 지정일에는 다음 옵션 중 하나를 선택합니다.

    • 매일

    • 주말

    • 평일

    • 요일 선택

    1. (선택 사항) 요일 선택을 선택한 경우 작업을 실행할 요일을 선택합니다.

  7. 생성(Create)을 선택합니다.

  8. (선택 사항) 추가 일정에 따라 작업을 실행하려면 다른 일정 추가를 선택합니다.

    참고

    최대 두 개의 일정을 연결할 수 있습니다. 일정은 독립적이며 시간이 겹치지 않는 한 서로 영향을 주지 않습니다.

  9. 다음 중 하나를 선택합니다.

    • 예약 및 지금 실행 – 작업이 즉시 실행되고 이후에 일정에 따라 실행됩니다.

    • 예약만 – 지정한 일정에 따라서만 작업이 실행됩니다.

  10. 나머지 내보내기 작업 설정을 입력한 후 내보내기를 선택합니다.

SageMaker AWS Management Console을 사용하여 실행이 예약된 작업을 볼 수 있습니다. 처리 작업은 Pipelines 내에서 실행됩니다. 각 처리 작업에는 자체적인 파이프라인이 있습니다. 파이프라인 내에서 처리 단계로 실행됩니다. 파이프라인 내에서 생성한 일정을 볼 수 있습니다. 파이프라인을 보는 방법에 대한 자세한 내용은 파이프라인 세부 정보 보기 섹션을 참조하세요.

예약한 작업을 보려면 다음 절차를 따르세요.

예약한 작업을 보려면 다음을 수행하세요.

  1. Amazon SageMaker Studio Classic을 엽니다.

  2. 파이프라인 열기

  3. 생성한 작업의 파이프라인을 확인합니다.

    작업을 실행 중인 파이프라인은 작업 이름을 접두사로 사용합니다. 예를 들어 housing-data-feature-enginnering이라는 작업을 생성한 경우 파이프라인의 이름은 canvas-data-prep-housing-data-feature-engineering입니다.

  4. 작업이 포함된 파이프라인을 선택합니다.

  5. 파이프라인의 상태를 확인합니다. 성공 상태인 파이프라인이 처리 작업을 성공적으로 실행했습니다.

처리 작업의 실행을 중지하려면 다음을 수행하세요.

처리 작업의 실행을 중지하려면 일정을 지정하는 이벤트 규칙을 삭제하세요. 이벤트 규칙을 삭제하면 일정과 관련된 모든 작업의 실행이 중지됩니다. 규칙 삭제에 대한 자세한 내용은 Amazon EventBridge 규칙 비활성화 또는 삭제를 참조하세요.

일정과 관련된 파이프라인도 중지하고 삭제할 수 있습니다. 파이프라인 중지에 대한 자세한 내용은 StopPipelineExecution을 참조하세요. 파이프라인 삭제에 대한 자세한 내용은 DeletePipeline을 참조하세요.