데이터 카탈로그 관리
AWS Glue Data Catalog는 Amazon S3 데이터 세트의 구조 및 운영 메타데이터를 저장하는 중앙 메타데이터 리포지토리입니다. 데이터 카탈로그를 효과적으로 관리하는 것은 데이터 품질, 성능, 보안 및 거버넌스를 유지 관리하는 데 매우 중요합니다.
이러한 데이터 카탈로그 관리 모범 사례를 이해하고 적용하면 데이터 환경의 진화에 발맞춰 메타데이터가 정확하고, 뛰어난 성능을 유지하고, 안전하며, 잘 통제되도록 보장할 수 있습니다.
이 섹션에서는 데이터 카탈로그 관리의 다음과 같은 측면을 다룹니다.
테이블 스키마 및 파티션 업데이트: 데이터가 진화함에 따라 데이터 카탈로그에 정의된 테이블 스키마나 파티션 구조를 업데이트해야 할 수 있습니다. AWS Glue ETL을 사용하여 프로그래밍 방식으로 업데이트하는 방법에 대한 자세한 내용은 AWS Glue ETL 작업을 사용하여 데이터 카탈로그에서 스키마 업데이트 및 새 파티션 추가 섹션을 참조하세요.
열 통계 관리: 정확한 열 통계는 쿼리 계획을 최적화하고 성능을 개선하는 데 도움이 됩니다. 열 통계를 생성, 업데이트 및 관리하는 방법에 대한 자세한 정보는 열 통계를 사용한 쿼리 성능 최적화 섹션을 참조하세요.
데이터 카탈로그 암호화: 민감한 메타데이터를 보호하려면 AWS Key Management Service(AWS KMS)를 사용하여 데이터 카탈로그를 암호화할 수 있습니다. 이 섹션에서는 데이터 카탈로그에 대한 암호화를 활성화하고 관리하는 방법을 설명합니다.
AWS Lake Formation으로 데이터 카탈로그 보호: Lake Formation은 데이터 레이크 보안 및 액세스 제어에 대한 포괄적인 접근 방식을 제공합니다. Lake Formation을 사용하면 데이터 카탈로그 및 기본 데이터에 대한 액세스를 보호하고 관리할 수 있습니다.