Amazon EMR에서 AWS Lake Formation 사용 - AWS Lake Formation

Amazon EMR에서 AWS Lake Formation 사용

Amazon EMR은 유연한 AWS 관리형 클러스터 플랫폼으로, Hadoop Map-Reduce, Spark, Hive, Presto 등과 같이 지원되는 빅 데이터 프레임워크에서 사용자 지정 코드를 실행할 수 있습니다. 조직은 또한 Amazon EMR을 사용하여 고도로 분산된 클러스터에서 배치 및 스트림 데이터 처리 애플리케이션을 모두 실행합니다. Amazon EMR의 Apache Spark를 사용하면 Lake Formation에서 권한을 관리하는 데이터베이스 및 테이블에서 데이터 변환 및 사용자 지정 코드를 실행할 수 있습니다.

Amazon EMR을 배포하기 위한 세 가지 옵션이 있습니다.

  • EMR on EC2

  • EMR Serverless

  • Amazon EMR on EKS

자세한 내용은 Amazon EMR과 Lake Formation의 통합 또는 세분화된 액세스 제어를 위해 AWS Lake Formation과 EMR Serverless 사용을 참조하십시오.

트랜잭션 테이블 형식 지원

Amazon EMR 릴리스 6.15.0 이상에는 Spark SQL로 데이터를 읽고 쓸 때 Apache Hudi, Apache IcebergDelta Lake 테이블 형식에 대한 Lake Formation 테이블, 행, 열 및 셀 수준의 액세스 제어 권한에 대한 지원이 포함됩니다.

제한 사항은 Lake Formation을 사용하는 Amazon EMR에 대한 고려 사항 섹션을 참조하세요.

지원되는 테이블 형식
테이블 형식 설명 및 허용된 작업 Lake Formation 권한은 Amazon EMR에서 지원됩니다.

Apache Hudi

증분 데이터 처리 및 데이터 파이프라인 개발을 간소화하는 데 사용되는 오픈 테이블 형식입니다.

지원되는 작업 목록은 Apache Hudi 및 Lake Formation을 참조하십시오.

Amazon EMR은 Apache Hudi를 통해 테이블, 행, 열 및 셀 수준 액세스 제어를 지원합니다.

Apache Iceberg

대규모 파일 컬렉션을 테이블로 관리하는 오픈 테이블 형식입니다.

지원되는 작업 목록은 Apache Iceberg 및 Lake Formation을 참조하십시오.

Amazon EMR은 Apache Iceberg와의 테이블, 행, 열 및 셀 수준 액세스 제어를 지원합니다.

Linux Foundation Delta Lake

Delta Lake는 Amazon S3 또는 Hadoop 분산 파일 시스템(HDFS)에 일반적으로 구축되는 최신 데이터 레이크 아키텍처를 구현하는 데 도움이 되는 오픈 소스 프로젝트입니다.

지원되는 작업 목록은 델타 레이크 및 Lake Formation을 참조하십시오.

Amazon EMR은 Delta Lake 테이블을 통해 테이블, 행, 열 및 셀 수준 액세스 제어를 지원합니다.

추가 리소스