이 섹션에는 AWS Glue Data Catalog 내에서 테이블 옵티마이저를 사용할 때 고려할 사항이 포함되어 있습니다.
관리형 데이터 압축에 지원되는 형식 및 제한 사항
데이터 압축은 암호화된 테이블에서 데이터를 읽는 것을 비롯하여, 데이터 읽기 및 쓰기를 위한 다양한 데이터 형식 및 압축 형식을 지원합니다.
데이터 압축은 다음을 지원합니다.
암호화 - 데이터 압축은 기본 Amazon S3 암호화(SSE-S3) 및 서버 측 KMS 암호화(SSE-KMS)만 지원합니다.
빈 팩 압축
-
기본 데이터를 저장하는 Amazon S3 버킷이 다른 계정에 있는 경우 데이터 카탈로그가 있는 계정에서 압축을 실행할 수 있습니다. 이렇게 하려면 압축 역할에 Amazon S3 버킷에 대한 액세스 권한이 필요합니다.
데이터 압축은 현재 다음을 지원하지 않습니다.
일반 정렬 또는 z순서 정렬
-
교차 계정 테이블에서의 압축 - 교차 계정 테이블에서는 압축을 실행할 수 없습니다.
-
교차 리전 테이블에서의 압축 - 교차 리전 테이블에서는 압축을 실행할 수 없습니다.
리소스 링크에서 압축 활성화
-
Amazon S3 Express One Zone 스토리지 클래스의 테이블 - S3 Express One Zone Iceberg 테이블에서는 압축을 실행할 수 없습니다.
스냅샷 보존 및 분리된 파일 삭제 최적화 프로그램에 대한 고려 사항
스냅샷 보존 및 분리된 파일 삭제 최적화 프로그램에 다음 고려 사항이 적용됩니다.
스냅샷 보존 및 분리된 파일 삭제 프로세스의 최대 삭제량은 실행당 1,000,000개의 파일입니다. 만료된 스냅샷을 삭제할 때 삭제할 수 있는 파일 수가 1,000,000개를 초과하면 해당 임계값을 초과하는 나머지 파일은 계속 분리된 파일로 테이블 스토리지에 남아 있게 됩니다.
-
스냅샷은 두 기준(보존할 최소 스냅샷 수 및 지정된 보존 기간)이 모두 충족되는 경우에만 스냅샷 보존 최적화 프로그램에서 보존합니다.
-
스냅샷 보존 최적화 프로그램은 Apache Iceberg에서 만료된 스냅샷 메타데이터를 삭제하여 만료된 스냅샷에 대한 시간 이동 쿼리를 방지하고 선택적으로 연결된 데이터 파일을 삭제합니다.
-
분리된 파일 삭제 최적화 프로그램은 생성 시간이 최적화 프로그램이 실행된 시점부터 분리된 파일 삭제 보존 기간보다 이전인 경우 Iceberg 메타데이터에서 더 이상 참조하지 않는 분리된 데이터 및 메타데이터 파일을 삭제합니다.
-
Apache Iceberg는 특정 스냅샷 상태에 대한 명명된 포인터에 해당하는 브랜치와 태그를 통해 버전 제어를 용이하게 합니다. 각 브랜치와 태그는 각 수준에서 정의된 보존 정책에 따라 자체 독립 수명 주기를 따릅니다. AWS Glue Data Catalog 최적화 프로그램은 이러한 수명 주기 정책을 고려하여 지정된 보존 규칙을 준수하도록 합니다. 브랜치 및 태그 수준 보존 정책은 최적화 프로그램 구성보다 우선합니다.
자세한 내용은 Apache Iceberg 설명서의 Branching and Tagging
을 참조하세요. -
스냅샷 보존 및 분리된 파일 삭제 최적화 프로그램은 구성된 파라미터에 따라 정리 대상인 파일을 삭제합니다. 적절한 버킷에 S3 버전 관리 및 수명 주기 정책을 구현하여 파일 삭제에 대한 제어를 강화합니다.
버전 관리 설정 및 수명 주기 규칙 생성에 대한 자세한 지침은 https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html 섹션을 참조하세요.
-
적절한 고립 파일을 결정하려면 제공된 테이블 위치와 하위 경로가 다른 테이블 또는 데이터 소스의 데이터와 겹치거나 포함되지 않도록 해야 합니다. 경로가 겹치면 의도하지 않은 파일 삭제로 인해 복구할 수 없는 데이터 손실 위험이 있습니다.