크롤러를 사용하여 테이블 추가
AWS Glue 크롤러는 데이터 집합의 스키마를 검색하고 AWS Glue 데이터 카탈로그에 테이블로 등록하는 데 도움이 됩니다. 크롤러는 데이터를 살펴보고 스키마를 결정합니다. 뿐만 아니라 파티션도 찾고 등록할 수 있습니다. 자세한 내용은 AWS Glue 개발자 안내서의 크롤러 정의를 참조하세요. 성공적으로 크롤링된 데이터의 테이블은 Athena에서 쿼리할 수 있습니다.
참고
Athena는 AWS Glue 크롤러에 지정한 제외 패턴을 인식하지 못합니다. 예를 들어 .csv
및 .json
파일이 모두 포함된 Amazon S3 버킷이 있는데 .json
파일을 크롤러에서 제외한다면 Athena는 두 파일 그룹을 모두 쿼리합니다. 이 문제를 방지하려면 제외할 파일을 다른 위치에 배치하면 됩니다.
AWS Glue 크롤러 생성
Athena 콘솔에서 크롤러를 시작한 다음 통합된 방식으로 AWS Glue 콘솔을 사용하여 크롤러를 생성할 수 있습니다. 크롤러를 생성할 때 크롤링할 Amazon S3의 데이터 위치를 지정합니다.
Athena 콘솔에서 시작하여 AWS Glue에서 크롤러 생성
https://console.aws.amazon.com/athena/
에서 Athena 콘솔을 엽니다. -
쿼리 편집기에서 테이블 및 뷰(Tables and views) 옆에 있는 생성(Create)을 선택한 다음 AWS Glue 크롤러(Glue crawler)를 선택합니다.
-
AWS Glue 콘솔의 크롤러 추가 페이지에서 단계에 따라 크롤러를 생성합니다. 자세한 내용은 이 설명서의 AWS Glue 크롤러 사용과 AWS Glue 개발자 안내서의 AWS Glue Data Catalog 채우기를 참조하세요.
참고
Athena는 AWS Glue 크롤러에 지정한 제외 패턴을 인식하지 못합니다. 예를 들어 .csv
및 .json
파일이 모두 포함된 Amazon S3 버킷이 있는데 .json
파일을 크롤러에서 제외한다면 Athena는 두 파일 그룹을 모두 쿼리합니다. 이 문제를 방지하려면 제외할 파일을 다른 위치에 배치하면 됩니다.
크롤링 후 AWS Glue 크롤러는 Apache Hive, Presto 및 Spark 등 다른 외부 기술과 호환되도록 특정 테이블 메타데이터를 자동으로 할당합니다. 경우에 따라 크롤러가 메타데이터 속성을 잘못 할당할 수 있습니다. Athena를 사용하여 테이블을 쿼리하기 전에 AWS Glue의 속성을 수동으로 수정하세요. 자세한 내용은 AWS Glue 개발자 안내서의 테이블 세부 정보 보기 및 편집을 참조하세요.
CSV 파일에 각 데이터 필드를 묶는 인용 부호가 있으면 serializationLib
속성이 잘못되어 AWS Glue이(가) 메타데이터를 잘못 할당할 수 있습니다. 자세한 내용은 따옴표로 묶은 CSV 데이터 취급 단원을 참조하십시오.