분리된 파일 삭제 활성화
AWS Glue 콘솔, AWS CLI 또는 AWS API를 사용하여 데이터 카탈로그의 Apache Iceberg 테이블에서 분리된 파일 삭제를 활성화할 수 있습니다. 새 테이블의 경우 Apache Iceberg를 테이블 형식으로 선택하고 테이블을 생성할 때 분리된 파일 삭제 옵티마이저를 활성화할 수 있습니다. 스냅샷 보존은 새 테이블에 대해 기본적으로 비활성화되어 있습니다.
- Console
-
분리된 파일 삭제 활성화
-
https://console.aws.amazon.com/glue/
에서 AWS Glue 콘솔을 열고 데이터 레이크 관리자, 테이블 작성자 또는 테이블에 대한 glue:UpdateTable
및lakeformation:GetDataAccess
권한을 부여받은 사용자로 로그인합니다. -
탐색 창의 데이터 카탈로그에서 테이블을 선택합니다.
테이블 페이지에서 분리된 파일 삭제를 활성화하려는 Iceberg 테이블을 선택합니다.
페이지 하단 섹션에서 테이블 최적화 탭을 선택하고 작업에서 활성화, 분리된 파일 삭제를 선택합니다.
페이지의 오른쪽 상단에 있는 작업 메뉴에서 최적화 아래 활성화를 선택할 수도 있습니다.
-
최적화 활성화 페이지의 최적화 옵션에서 분리된 파일 삭제를 선택합니다.
-
기본 설정을 사용하는 경우 3일 후에 모든 분리된 파일이 삭제됩니다. 분리된 파일을 특정 일수 동안 유지하려면 설정 사용자 지정을 선택합니다.
-
다음으로 분리된 파일을 삭제하는 데 필요한 권한이 있는 IAM 역할을 선택합니다.
-
Iceberg 테이블 옵티마이저가 특정 가상 프라이빗 클라우드(VPC)에서 Amazon S3 버킷에 액세스해야 하는 보안 정책 구성이 있는 경우 AWS Glue 네트워크 연결을 생성하거나 기존 연결을 사용하세요.
AWS Glue VPC 연결을 아직 설정하지 않은 경우 AWS Glue 콘솔 또는 AWS CLI/SDK를 사용하여 커넥터에 대한 연결 생성 섹션의 단계에 따라 새 연결을 생성하세요.
-
설정 사용자 지정을 선택하는 경우 분리된 파일 삭제 구성에서 삭제하기 전에 파일을 유지할 기간(일)을 입력합니다.
-
최적화 활성화를 선택합니다.
-
- AWS CLI
-
AWS Glue에서 Iceberg 테이블에 대해 분리된 파일 삭제를 활성화하려면
orphan_file_deletion
유형의 테이블 옵티마이저를 생성하고enabled
필드를 true로 설정해야 합니다. AWS CLI를 사용하여 Iceberg 테이블에 대해 분리된 파일 삭제 옵티마이저를 생성하려면 다음 명령을 사용할 수 있습니다.aws glue create-table-optimizer \ --catalog-id
123456789012
\ --database-nameiceberg_db
\ --table-nameiceberg_table
\ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012
:role/optimizer_role
","enabled":true, "vpcConfiguration":{ "glueConnectionName":"glue_connection_name"
}, "orphanFileDeletionConfiguration":{"icebergConfiguration":{"orphanFileRetentionPeriodInDays":3
, "location":'S3 location
'}}}'\ --type orphan_file_deletion이 명령은 지정된 Iceberg 테이블에 대해 분리된 파일 삭제 옵티마이저를 생성합니다. 주요 파라미터:
-
roleArn - S3 버킷과 Glue 리소스에 대한 액세스 권한이 있는 IAM 역할의 ARN.
-
enabled - true로 설정하면 옵티마이저를 활성화합니다.
-
orphanFileRetentionPeriodInDay - 분리된 파일을 삭제하기 전에 유지할 기간(일 단위, 최소 1일).
-
type - orphan_file_deletion으로 설정하면 분리된 파일 삭제 옵티마이저를 생성합니다.
테이블 옵티마이저를 생성한 후에는 정기적으로 분리된 파일 삭제를 실행합니다(활성화된 상태로 두면 하루에 한 번).
list-table-optimizer-runs
API를 사용하여 실행을 확인할 수 있습니다. 분리된 파일 삭제 작업은 테이블의 Iceberg 메타데이터에서 추적되지 않는 파일을 식별하고 삭제합니다. -
- API
-
CreateTableOptimizer 작업을 직접 호출하여 특정 테이블에 대한 분리된 파일 삭제 옵티마이저를 생성합니다.