카탈로그 수준 자동 통계 생성 활성화 - AWS Glue

카탈로그 수준 자동 통계 생성 활성화

Data Catalog에서 모든 새 Apache Iceberg 테이블 및 비OTF 테이블(Parquet, JSON, CSV, XML, ORC, ION) 형식의 테이블에 대해 자동 열 통계 생성을 활성화할 수 있습니다. 테이블을 생성한 후 열 통계 설정을 수동으로 명시적으로 업데이트할 수도 있습니다.

카탈로그 수준을 활성화하도록 Data Catalog 설정을 업데이트하려면 사용된 IAM 역할에 루트 카탈로그에 대한 glue:UpdateCatalog 권한 또는 AWS Lake Formation ALTER CATALOG 권한이 있어야 합니다. GetCatalog API를 사용하여 카탈로그 속성을 확인할 수 있습니다.

AWS Management Console
계정 수준에서 자동 열 통계 생성을 활성화하려면
  1. Lake Formation 콘솔(https://console.aws.amazon.com/lakeformation/)을 엽니다.

  2. 왼쪽 탐색 모음에서 카탈로그를 선택합니다.

  3. 카탈로그 요약 페이지의 최적화 구성에서 편집을 선택합니다.

    스크린샷은 열 통계를 생성하는 데 사용할 수 있는 옵션을 보여줍니다.
  4. 테이블 최적화 구성 페이지에서 카탈로그의 테이블에 대해 자동 통계 생성 활성화 옵션을 선택합니다.

    스크린샷은 열 통계를 생성하는 데 사용할 수 있는 옵션을 보여줍니다.
  5. 기존 IAM 역할을 선택하거나 열 통계 작업을 실행하는 데 필요한 권한이 있는 새 역할을 생성합니다.

  6. 제출을 선택합니다.

AWS CLI

AWS CLI를 통해 카탈로그 수준 통계 수집을 활성화할 수도 있습니다. AWS CLI를 사용하여 테이블 수준 통계 수집을 구성하려면 다음 명령을 실행합니다.

aws glue update-catalog --cli-input-json '{
    "name": "123456789012",
    "catalogInput": {
        "description": "Updating root catalog with role arn",
        "catalogProperties": {
            "customProperties": {
                "ColumnStatistics.RoleArn": "arn:aws:iam::"123456789012":role/service-role/AWSGlueServiceRole",
                "ColumnStatistics.Enabled": "true"
            }
        }
    }
}'
                   

위의 명령은 카탈로그 수준 통계 생성을 위해 다음과 같은 키-값 페어를 포함하는 CatalogProperties 구조를 처리하는 AWS Glue의 UpdateCatalog 작업을 호출합니다.

  • ColumnStatistics.RoleArn – 카탈로그 수준 통계 생성에서 트리거되는 모든 작업에 사용할 IAM 역할 ARN

  • ColumnStatistics.Enabled – 카탈로그 수준 설정의 활성화 여부를 나타내는 부울