새 파티션을 추가하기 위한 증분 크롤링 예약 - AWS Glue

새 파티션을 추가하기 위한 증분 크롤링 예약

테이블 스키마에 새 파티션만 추가하도록 증분 크롤링 AWS Glue 크롤러 실행을 구성할 수 있습니다. 크롤러가 처음 실행되면 전체 데이터 소스를 처리에 전체 크롤링을 수행하여 전체 스키마와 모든 기존 파티션을 AWS Glue Data Catalog에 기록합니다.

초기 전체 크롤링 이후의 후속 크롤링은 증분 방식으로 진행되며, 이때 크롤러는 이전 크롤링 이후에 새롭게 추가된 파티션만 식별하여 추가합니다. 이 접근 방식을 사용하면 크롤러가 더 이상 각 실행에 대해 전체 데이터 소스를 처리할 필요가 없고 대신 새 파티션에만 집중하므로 크롤링 시간이 단축됩니다.

참고

증분 크롤링에서는 기존 파티션의 수정 또는 삭제를 감지하지 않습니다. 이 구성은 안정적인 스키마를 사용하는 데이터 소스에 가장 적합합니다. 한 번의 주요 스키마 변경이 발생한 경우 새 스키마를 정확하게 캡처하기 위해 전체 크롤링을 수행하도록 크롤러를 일시적으로 설정한 다음 증분 크롤링 모드로 다시 전환하는 것이 좋습니다.

다음 다이어그램은 증분 크롤링 설정을 사용하도록 설정한 경우 크롤러가 새로 추가된 Month=March 폴더만 탐지하여 카탈로그에 추가한다는 것을 보여줍니다.

다음 다이어그램은 3월의 파일이 추가되었음을 보여줍니다.

다음 단계에 따라 크롤러가 증분 크롤링을 수행하도록 업데이트하세요.

AWS Management Console
  1. AWS Management Console에 로그인하여 https://console.aws.amazon.com/glue/에서 AWS Glue 콘솔을 엽니다.

  2. 데이터 카탈로그에서 크롤러를 선택합니다.

  3. 증분 크롤링 설정을 원하는 크롤러를 선택합니다.

  4. 편집을 선택합니다.

  5. 2단계를 선택합니다. 데이터 소스 및 분류자를 선택합니다.

  6. 증분 크롤링 하려는 데이터 소스를 선택합니다.

  7. 편집을 선택합니다.

  8. 후속 크롤러 실행에서 새 하위 폴더만 크롤링을 선택합니다.

  9. 업데이트를 선택합니다.

크롤러 일정을 만들려면 크롤러 일정 관리 섹션을 참조하세요.

AWS CLI
aws glue update-crawler \ --name myCrawler \ --recrawl-policy RecrawlBehavior=CRAWL_NEW_FOLDERS_ONLY \ --schema-change-policy UpdateBehavior=LOG,DeleteBehavior=LOG
규칙 및 제한

이 옵션이 설정되어 있으면 크롤러를 편집할 때 Amazon S3 대상 데이터 스토어를 변경할 수 없습니다. 이 옵션은 특정 크롤러 구성 설정에 영향을 줍니다. 설정하면 크롤러의 업데이트 동작 및 삭제 동작이 LOG에 기록됩니다. 이는 다음을 의미합니다.

  • 스키마가 호환되지 않는 객체를 발견하면 크롤러는 데이터 카탈로그에 객체를 추가하지 않고 이 세부 정보를 CloudWatch Logs에 로그로 추가합니다.

  • 데이터 카탈로그의 삭제된 개체는 업데이트되지 않습니다.