기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS Lake Formation 와 함께 사용 AWS Glue
데이터 엔지니어와 DevOps 전문가는 Apache Spark AWS Glue 를 사용하여 ETL(추출, 변환 및 로드)을 사용하여 Amazon S3의 데이터 세트에서 변환을 수행하고 분석, 기계 학습 및 애플리케이션 개발을 위해 변환된 데이터를 데이터 레이크 및 데이터 웨어하우스에 로드합니다. 여러 팀이 Amazon S3의 동일한 데이터세트에 액세스하는 경우 역할에 따라 권한을 부여하고 제한해야 합니다.
AWS Lake Formation 는를 기반으로 하며 AWS Glue서비스는 다음과 같은 방식으로 상호 작용합니다.
-
Lake Formation과 AWS Glue는 동일한 데이터 카탈로그를 공유합니다.
-
AWS Glue 콘솔을 호출하는 Lake Formation 콘솔 기능은 다음과 같습니다.
-
작업 - 자세한 내용은 AWS Glue 개발자 안내서의 작업 추가를 참조하세요.
-
크롤러 - 자세한 내용은 AWS Glue 개발자 안내서의 크롤러를 사용한 테이블 카탈로그 작성을 참조하세요.
-
-
Lake Formation 청사진을 사용할 때 생성되는 워크플로는 AWS Glue 워크플로입니다. Lake Formation 콘솔과 AWS Glue 콘솔 모두에서 이러한 워크플로를 보고 관리할 수 있습니다.
-
기계 학습 변환은 Lake Formation과 함께 제공되며 AWS Glue API 작업을 기반으로 합니다. AWS Glue 콘솔에서 기계 학습 변환을 생성하고 관리합니다. 자세한 내용을 알아보려면 AWS Glue 개발자 안내서의 기계 학습 변환을 참조하세요.
Lake Formation의 세분화된 액세스 제어를 사용하여 기존 데이터 카탈로그 리소스와 Amazon S3 데이터 위치를 관리할 수 있습니다.
참고
AWS Glue 5.0 이상은 S3에서 지원하는 Iceberg 및 Hive 테이블에 대한 세분화된 액세스 제어를 지원합니다. 이 기능을 사용하면 Apache Spark 작업용 내에서 읽기 쿼리에 대한 테이블, 행, 열 및 셀 수준 액세스 제어를 구성할 AWS Glue 수 있습니다.
트랜잭션 테이블 유형 지원
Lake Formation 권한을 적용하면 Amazon S3 기반 데이터 레이크의 트랜잭션 데이터를 보호할 수 있습니다. 아래 표에는에서 지원되는 트랜잭션 테이블 형식 AWS Glue 과 Lake Formation 권한이 나열되어 있습니다. Lake Formation은 AWS Glue 작업에 이러한 권한을 적용합니다.
테이블 형식 | 설명 및 허용된 작업 | 에서 지원되는 Lake Formation 권한 AWS Glue |
---|---|---|
Apache Hudi |
증분 데이터 처리 및 데이터 파이프라인 개발을 간소화하는 데 사용되는 오픈 테이블 형식입니다. |
Hudi 테이블에는 테이블 수준 권한을 사용할 수 있습니다. 자세한 내용은 제한 사항을 참조하세요. |
Apache Iceberg |
대규모 파일 컬렉션을 테이블로 관리하는 오픈 테이블 형식입니다. |
AWS Glue 버전 5.0 이상을 사용하면 Iceberg 테이블의 Apache Spark 작업에 AWS Glue 대한 내에서 읽기 쿼리에 대한 테이블, 행, 열 및 셀 수준 액세스 제어를 구성할 수 있습니다. 자세한 내용은 제한 사항을 참조하세요. |
Linux Foundation Delta Lake |
Delta Lake는 Amazon S3 또는 Hadoop 분산 파일 시스템(HDFS)에 일반적으로 구축되는 최신 데이터 레이크 아키텍처를 구현하는 데 도움이 되는 오픈 소스 프로젝트입니다. |
테이블 수준 권한은 Delta Lake 테이블에서 사용할 수 있습니다. 자세한 내용은 제한 사항을 참조하세요. |
추가 리소스
블로그 게시물 및 리포지토리
-
AWS Glue 커넥터를 사용하여 ACID 트랜잭션이 있는 Apache Iceberg 테이블을 읽고 쓰고 시간 이동을 수행합니다.
-
AWS Cloudformation 템플릿 및 pyspark 코드 샘플의
리포지토리로 AWS Glue, , Apache Hudi 및 Amazon S3를 사용하여 스트리밍 데이터를 분석합니다.