AWS Glue 크롤러을 구성하면 크롤러의 행태를 정의할 수 있는 몇 가지 옵션이 있습니다.
-
증분 크롤링 - 테이블 스키마에 새 파티션만 추가하도록 증분 크롤링을 실행하는 크롤러를 구성할 수 있습니다.
-
파티션 인덱스 - 크롤러는 기본적으로 Amazon S3 및 Delta Lake 대상에 대한 파티션 인덱스를 생성하여 특정 파티션을 효율적으로 조회합니다.
-
Amazon S3 이벤트를 사용하여 크롤링 가속 - 전체 Amazon S3 또는 데이터 카탈로그 대상을 나열하는 대신 이벤트를 트리거한 하위 폴더의 모든 파일을 나열하여 두 크롤링 간의 변경 사항을 식별하기 위해 Amazon S3 이벤트를 사용하도록 크롤러를 구성할 수 있습니다.
스키마 변경 처리 - 크롤러가 기존 스키마에 스키마를 변경하지 못하게 할 수 있습니다. AWS Management Console 또는 AWS Glue API를 사용하여 크롤러가 특정 변화에 따라 어떤 절차를 밟는지 알아봅니다.
-
여러 Amazon S3 경로에 대한 단일 스키마 - 데이터가 호환되는 경우 각 S3 경로에 대해 단일 스키마를 생성하도록 크롤러를 구성할 수 있습니다.
테이블 위치 및 파티셔닝 수준 - 테이블 수준 크롤러 옵션을 사용하면 크롤러에 테이블의 위치와 파티션 생성 방법을 유연하게 알릴 수 있습니다.
테이블 임계값 - 테이블 임계값을 지정하여 크롤러가 생성할 수 있는 최대 테이블 수를 지정할 수 있습니다.
AWS Lake Formation 자격 증명 - Lake Formation 자격 증명을 사용하여 동일한 AWS 계정 또는 다른 AWS 계정 내의 기본 Amazon S3 위치가 있는 데이터 카탈로그 테이블이나 Amazon S3 데이터 스토어에 액세스하도록 크롤러를 구성할 수 있습니다.
AWS Glue 콘솔을 사용하여 크롤러를 추가하는 방법에 대한 자세한 내용은 크롤러 구성 단원을 참조하십시오.