데이터세트 자동 업데이트 구성 - Amazon SageMaker

데이터세트 자동 업데이트 구성

Amazon SageMaker Canvas로 초기 데이터세트를 가져온 후, 데이터세트에 추가하려는 추가 데이터가 있을 수 있습니다. 예를 들어, 매주 말에 데이터세트에 추가하려는 인벤토리 데이터를 얻을 수 있습니다. 데이터를 여러 번 가져오는 대신 기존 데이터세트를 업데이트하고 데이터세트에 파일을 추가하거나 제거할 수 있습니다.

참고

로컬 업로드 또는 Amazon S3를 통해 가져온 데이터세트만 업데이트할 수 있습니다.

데이터세트 자동 업데이트를 사용하면 Canvas가 사용자가 지정한 빈도로 파일을 확인하는 위치를 지정합니다. 업데이트 중에 새 파일을 가져오는 경우 파일의 스키마가 기존 데이터세트와 정확히 일치해야 합니다.

데이터세트를 업데이트할 때마다 Canvas는 데이터세트의 새 버전을 생성합니다. 모델을 구축하거나 예측을 생성하는 데에는 최신 버전의 데이터세트만 사용할 수 있습니다. 데이터세트의 버전 기록을 보는 방법에 대한 자세한 내용은 데이터세트 세부 정보 보기을 참조하세요.

자동화된 일괄 예측과 함께 데이터세트 업데이트를 사용할 수도 있습니다.이렇게 하면 데이터세트를 업데이트할 때마다 배치 예측 작업이 시작됩니다. 자세한 내용은 SageMaker Canvas의 배치 예측 섹션을 참조하세요.

다음 섹션에서는 데이터세트를 자동으로 업데이트하는 방법을 설명합니다.

자동 업데이트는 지정된 빈도로 데이터세트를 업데이트하도록 Canvas의 구성을 설정하는 것입니다. 데이터세트에 추가하려는 새 데이터 파일을 정기적으로 받는 경우 이 옵션을 사용하는 것이 좋습니다.

자동 업데이트 구성을 설정할 때 파일을 업로드할 Amazon S3 위치와 Canvas가 위치를 확인하고 파일을 가져오는 빈도를 지정합니다. 데이터세트를 업데이트하는 Canvas의 각 인스턴스를 작업이라고 합니다. 각 작업에 대해 Canvas는 Amazon S3 위치에 있는 모든 파일을 가져옵니다. 데이터세트에 있는 기존 파일과 이름이 같은 새 파일이 있는 경우 Canvas는 이전 파일을 새 파일로 덮어씁니다.

자동 데이터세트 업데이트의 경우 Canvas는 스키마 검증을 수행하지 않습니다. 자동 업데이트 중에 가져온 파일의 스키마가 기존 파일의 스키마와 일치하지 않거나 크기 제한을 초과하는 경우(파일 크기 제한 테이블은 데이터세트 가져오기 참조) 작업을 실행할 때 오류가 발생합니다.

참고

Canvas 애플리케이션에서는 최대 20개의 자동 구성만 설정할 수 있습니다. 또한 Canvas는 Canvas 애플리케이션에 로그인한 상태에서만 자동 업데이트를 수행합니다. Canvas 애플리케이션에서 로그아웃하면 다시 로그인할 때까지 자동 업데이트가 일시 중지됩니다.

데이터세트에 대한 자동 업데이트를 구성하려면 다음을 수행합니다.

  1. SageMaker Canvas 애플리케이션을 엽니다.

  2. 왼쪽 탐색 창에서 데이터세트를 선택합니다.

  3. 데이터세트 목록에서 업데이트하려는 데이터세트를 선택합니다.

  4. 데이터세트 업데이트 드롭다운 메뉴를 선택하고 자동 업데이트를 선택합니다. 데이터세트의 자동 업데이트 탭으로 이동합니다.

  5. 자동 업데이트 활성화 토글을 켭니다.

  6. 데이터 원본 지정에 파일을 정기적으로 업로드하려는 폴더의 Amazon S3 경로를 입력합니다.

  7. 빈도 선택에서 시간별, 주별 또는 일별을 선택합니다.

  8. 시작 시간 지정의 경우 달력 및 시간 선택기를 사용하여 첫 번째 자동 업데이트 작업을 시작할 시간을 선택합니다.

  9. 자동 업데이트 구성을 생성할 준비가 되면 저장을 선택합니다.

Canvas는 지정된 시작 시간에 자동 업데이트 주기의 첫 번째 작업을 시작합니다.