개요 작동 방식 Lake Formation 활성화 런타임 권한 활성화 런타임 권한 설정 작업 실행 제출 권한 요구 사항

세분화된 액세스 제어를 AWS Lake Formation 위해에서 EMR Serverless 사용

개요

Amazon EMR 릴리스 7.2.0 이상에서는 AWS Lake Formation 를 활용하여 S3에서 지원하는 데이터 카탈로그 테이블에 세분화된 액세스 제어를 적용합니다. 이 기능을 사용하면 Amazon EMR Serverless Spark 작업 내에서 read 쿼리에 대한 테이블, 행, 열 및 셀 수준 액세스 제어를 구성할 수 있습니다. Apache Spark 배치 작업 및 대화형 세션에 대한 세분화된 액세스 제어를 구성하려면 EMR Studio를 사용합니다. Lake Formation 및 EMR Serverless와 함께 사용하는 방법에 대해 자세히 알아보려면 다음 섹션을 참조하세요.

Amazon EMR Serverless를와 함께 사용하면 추가 요금이 AWS Lake Formation 발생합니다. 자세한 내용은 Amazon EMR 요금을 참조하세요.

EMR Serverless의 작동 방식 AWS Lake Formation

EMR Serverless를 Lake Formation과 함께 사용하면 EMR Serverless에서 작업을 실행하는 경우 Lake Formation 권한 제어를 적용하기 위해 각 Spark 작업에 권한 계층을 적용할 수 있습니다. EMR Serverless는 Spark 리소스 프로파일을 사용하여 작업을 효과적으로 실행하도록 두 개의 프로파일을 생성합니다. 사용자 프로파일은 사용자 제공 코드를 실행하는 반면, 시스템 프로필은 Lake Formation 정책을 적용합니다. 자세한 내용은 AWS Lake Formation 및 고려 사항 및 제한 사항을 참조하세요.

Lake Formation에서 사전 초기화된 용량을 사용하는 경우 최소 2개의 Spark 드라이버를 사용하는 것이 좋습니다. Lake Formation이 활성화된 각 작업에는 사용자 프로파일과 시스템 프로파일에 대해 하나씩, 두 개의 Spark 드라이버가 사용됩니다. 최상의 성능을 위해 Lake Formation을 사용하지 않는 경우와 비교하여 Lake Formation 지원 작업에 대해 2배의 드라이버 수를 사용합니다.

EMR Serverless에서 Spark 작업을 실행하는 경우 동적 할당이 리소스 관리 및 클러스터 성능에 미치는 영향도 고려합니다. 리소스 프로파일당 최대 실행기 수의 spark.dynamicAllocation.maxExecutors 구성은 사용자 및 시스템 실행기 모두에 적용됩니다. 이 숫자를 허용되는 최대 실행기 수와 같도록 구성하면 사용 가능한 모든 리소스를 사용하는 한 가지 유형의 실행기로 인해 작업 실행이 중단될 수 있으며, 이로 인해 작업 실행 시 다른 실행기가 작동하지 않습니다.

따라서 리소스가 부족하지 않도록 EMR Serverless는 리소스 프로파일당 기본 최대 실행기 수를 spark.dynamicAllocation.maxExecutors 값의 90%로 설정합니다. 0에서 1 사이의 값으로 spark.dynamicAllocation.maxExecutorsRatio를 지정하는 경우 이 구성을 재정의할 수 있습니다. 또한 리소스 할당 및 전체 성능을 최적화하도록 다음 속성을 구성할 수도 있습니다.

spark.dynamicAllocation.cachedExecutorIdleTimeout
spark.dynamicAllocation.shuffleTracking.timeout
spark.cleaner.periodicGC.interval

다음은 Amazon EMR Serverless가 Lake Formation 보안 정책에 따라 보호되는 데이터에 액세스하는 방법에 대한 개략적인 개요입니다.

Amazon EMR이 Lake Formation 보안 정책으로 보호되는 데이터에 액세스하는 방법

사용자가 Spark 작업을 AWS Lake Formation활성화된 EMR Serverless 애플리케이션에 제출합니다.
EMR Serverless는 사용자 드라이버로 작업을 전송하고 사용자 프로파일에서 작업을 실행합니다. 사용자 드라이버는 태스크를 시작하고, 실행기를 요청하며, S3 또는 Glue Catalog에 액세스할 수 없는 린 버전의 Spark를 실행합니다. 작업 계획을 빌드합니다.
EMR Serverless는 시스템 드라이버라는 두 번째 드라이버를 설정하고 시스템 프로파일(권한 있는 자격 증명 포함)에서 실행합니다. EMR Serverless는 통신을 위해 두 드라이버 사이에서 암호화된 TLS 채널을 설정합니다. 사용자 드라이버는 채널을 사용하여 작업 계획을 시스템 드라이버로 전송합니다. 시스템 드라이버는 사용자가 제출한 코드를 실행하지 않습니다. 전체 Spark를 실행하고 S3 및 데이터 액세스를 위해 Data Catalog와 통신합니다. 실행기를 요청하고 작업 계획을 일련의 실행 단계로 컴파일합니다.
그런 다음, EMR Serverless는 사용자 드라이버 또는 시스템 드라이버를 사용하여 실행기에서 단계를 실행합니다. 모든 단계의 사용자 코드는 사용자 프로파일 실행기에서만 실행됩니다.
로 보호되는 데이터 카탈로그 테이블에서 데이터를 읽는 단계 AWS Lake Formation 또는 보안 필터를 적용하는 단계는 시스템 실행기에 위임됩니다.

Amazon EMR에서 Lake Formation 활성화

Lake Formation을 활성화하려면 EMR Serverless 애플리케이션을 생성할 때 런타임 구성 파라미터의 spark-defaults 분류 아래에서 spark.emr-serverless.lakeformation.enabled를 true로 설정합니다.


aws emr-serverless create-application \
    --release-label emr-7.13.0 \
    --runtime-configuration '{
     "classification": "spark-defaults", 
     "properties": {
      "spark.emr-serverless.lakeformation.enabled": "true"
      }
    }' \
    --type "SPARK"

EMR Studio에서 새 애플리케이션을 생성하는 경우 Lake Formation을 활성화할 수도 있습니다. 추가 구성 아래에서 사용할 수 있는 세분화된 액세스 제어를 위해 Lake Formation 사용을 선택합니다.

Lake Formation을 EMR Serverless와 함께 사용하면 워커 간 암호화가 기본적으로 활성화되므로 워커 간 암호화를 다시 명시적으로 활성화하지 않아도 됩니다.

Spark 작업에 대해 Lake Formation 활성화

개별 Spark 작업에 대해 Lake Formation을 활성화하려면 spark-submit을 사용할 때 spark.emr-serverless.lakeformation.enabled를 true로 설정합니다.


--conf spark.emr-serverless.lakeformation.enabled=true

작업 런타임 역할 IAM 권한

Lake Formation 권한은 AWS Glue 데이터 카탈로그 리소스, Amazon S3 위치 및 해당 위치의 기본 데이터에 대한 액세스를 제어합니다. IAM 권한은 Lake Formation 및 AWS Glue API와 리소스에 대한 액세스를 제어합니다. Data Catalog의 테이블에 액세스할 수 있는 Lake Formation 권한이 있더라도(SELECT) glue:Get* API 작업에 IAM 권한이 없으면 작업이 실패합니다.

다음은 S3의 스크립트에 액세스할 수 있는 IAM 권한을 제공하는 방법, S3에 로그 업로드, AWS Glue API 권한 및 Lake Formation에 액세스할 수 있는 권한에 대한 정책 예제입니다.

작업 런타임 역할에 대한 Lake Formation 권한 설정

먼저 Lake Formation에 Hive 테이블의 위치를 등록합니다. 그런 다음, 원하는 테이블에서 작업 런타임 역할에 대한 권한을 생성합니다. Lake Formation에 대한 자세한 내용은 란 무엇입니까 AWS Lake Formation?를 참조하세요. AWS Lake Formation 개발자 안내서의 .

Lake Formation 권한을 설정한 후 Amazon EMR Serverless에서 Spark 작업을 제출할 수 있습니다. Spark 작업에 대한 자세한 내용은 Spark 예제를 참조하세요.

작업 실행 제출

Lake Formation 권한 부여 설정을 완료한 후 EMR Serverless에서 Spark 작업을 제출할 수 있습니다. 다음 섹션에서는 작업 실행 속성을 구성 및 제출하는 방법의 예를 보여줍니다.

권한 요구 사항

에 등록되지 않은 테이블 AWS Lake Formation

에 등록되지 않은 테이블 AWS Lake Formation의 경우 작업 런타임 역할은 AWS Glue 데이터 카탈로그와 Amazon S3의 기본 테이블 데이터에 모두 액세스합니다. 이를 위해서는 작업 런타임 역할에 AWS Glue 및 Amazon S3 작업 모두에 대한 적절한 IAM 권한이 있어야 합니다.

에 등록된 테이블 AWS Lake Formation

에 등록된 테이블 AWS Lake Formation의 경우 작업 런타임 역할은 AWS Glue 데이터 카탈로그 메타데이터에 액세스하고 Lake Formation에서 제공하는 임시 자격 증명은 Amazon S3의 기본 테이블 데이터에 액세스합니다. 작업을 실행하는 데 필요한 Lake Formation 권한은 Spark 작업이 시작하는 AWS Glue 데이터 카탈로그 및 Amazon S3 API 호출에 따라 달라지며 다음과 같이 요약할 수 있습니다.

DESCRIBE 권한을 사용하면 런타임 역할이 데이터 카탈로그에서 테이블 또는 데이터베이스 메타데이터를 읽을 수 있습니다.
ALTER 권한을 사용하면 런타임 역할이 데이터 카탈로그에서 테이블 또는 데이터베이스 메타데이터를 수정할 수 있습니다.

DROP 권한을 사용하면 런타임 역할이 데이터 카탈로그에서 테이블 또는 데이터베이스 메타데이터를 삭제할 수 있습니다.
SELECT 권한은 런타임 역할이 Amazon S3에서 테이블 데이터를 읽을 수 있도록 허용합니다.
INSERT 권한은 런타임 역할이 Amazon S3에 테이블 데이터를 쓸 수 있도록 허용합니다.
DELETE 권한은 런타임 역할이 Amazon S3에서 테이블 데이터를 삭제할 수 있도록 허용합니다.

참고
Lake Formation은 Spark 작업이 AWS Glue를 호출하여 테이블 메타데이터를 검색하고 Amazon S3를 호출하여 테이블 데이터를 검색할 때 권한을 느리게 평가합니다. 권한이 부족한 런타임 역할을 사용하는 작업은 Spark가 누락된 권한이 필요한 AWS Glue 또는 Amazon S3를 호출할 때까지 실패하지 않습니다.

참고

다음 지원되는 테이블 매트릭스에서:

Supported로 표시된 작업은 Lake Formation 자격 증명만 사용하여 Lake Formation에 등록된 테이블의 테이블 데이터에 액세스합니다. Lake Formation 권한이 충분하지 않으면 작업이 런타임 역할 자격 증명으로 돌아가지 않습니다. Lake Formation에 등록되지 않은 테이블의 경우 작업 런타임 역할 자격 증명이 테이블 데이터에 액세스합니다.

Amazon S3 위치에서 지원되는 IAM 권한으로 표시된 작업은 Lake Formation 자격 증명을 사용하여 Amazon S3의 기본 테이블 데이터에 액세스하지 않습니다. 이러한 작업을 실행하려면 테이블이 Lake Formation에 등록되어 있는지 여부에 관계없이 작업 런타임 역할에 테이블 데이터에 액세스하는 데 필요한 Amazon S3 IAM 권한이 있어야 합니다.

참고

Amazon EMR 7.12부터 테이블 데이터를 수정하는 DML 및 DDL 작업은 Lake Formation 자격 증명을 사용합니다. Amazon EMR 7.11 이전 버전에서 이러한 작업(DELETE, UPDATE 및 MERGE 제외)은 대신 작업 런타임 역할 자격 증명을 사용하여 테이블 데이터를 수정합니다. Amazon EMR 7.11 이전 버전은 DELETE, UPDATE 및 MERGE 작업을 지원하지 않습니다.

Hive

연산	AWS Lake Formation 권한	지원 상태
SELECT	SELECT	지원됨
CREATE TABLE	CREATE_TABLE	지원됨
CREATE TABLE LIKE	CREATE_TABLE	Amazon S3 위치에 대한 IAM 권한 지원
CREATE TABLE AS SELECT	CREATE_TABLE	Amazon S3 위치에 대한 IAM 권한 지원
DESCRIBE TABLE	DESCRIBE	지원됨
SHOW TBLPROPERTIES	DESCRIBE	지원됨
SHOW COLUMNS	DESCRIBE	지원됨
SHOW PARTITIONS	DESCRIBE	지원됨
SHOW CREATE TABLE	DESCRIBE	지원됨
테이블 변경 `tablename`	SELECT 및 ALTER	지원됨
테이블 `tablename` 세트 위치 변경	-	지원되지 않음
테이블 변경 파티션 `tablename`추가	SELECT, INSERT 및 ALTER	지원됨
REPAIR TABLE	SELECT 및 ALTER	지원됨
데이터 로드		지원되지 않음
INSERT	INSERT 및 ALTER	지원됨
INSERT OVERWRITE	SELECT, INSERT, DELETE 및 ALTER	지원됨
DROP TABLE	SELECT, DROP, DELETE 및 ALTER	지원됨
TRUNCATE TABLE	SELECT, INSERT, DELETE 및 ALTER	지원됨
데이터프레임 라이터 V1	해당 SQL 작업과 동일	기존 테이블에 데이터를 추가할 때 지원됩니다. 자세한 내용은 고려 사항 및 제한 사항을 참조하세요.
데이터프레임 라이터 V2	해당 SQL 작업과 동일	기존 테이블에 데이터를 추가할 때 지원됩니다. 자세한 내용은 고려 사항 및 제한 사항을 참조하세요.

Iceberg

연산	AWS Lake Formation 권한	지원 상태
SELECT	SELECT	지원됨
CREATE TABLE	CREATE_TABLE	지원됨
CREATE TABLE LIKE	CREATE_TABLE	Amazon S3 위치에 대한 IAM 권한 지원
CREATE TABLE AS SELECT	CREATE_TABLE	Amazon S3 위치에 대한 IAM 권한 지원
테이블을 선택으로 바꾸기	SELECT, INSERT 및 ALTER	지원됨
DESCRIBE TABLE	DESCRIBE	Amazon S3 위치에 대한 IAM 권한 지원
SHOW TBLPROPERTIES	DESCRIBE	Amazon S3 위치에 대한 IAM 권한 지원
SHOW CREATE TABLE	DESCRIBE	Amazon S3 위치에 대한 IAM 권한 지원
ALTER TABLE	SELECT, INSERT 및 ALTER	지원됨
ALTER TABLE SET LOCATION	SELECT, INSERT 및 ALTER	Amazon S3 위치에 대한 IAM 권한 지원
에서 정렬한 테이블 쓰기 변경	SELECT, INSERT 및 ALTER	Amazon S3 위치에 대한 IAM 권한 지원
에서 배포한 테이블 쓰기 변경	SELECT, INSERT 및 ALTER	Amazon S3 위치에 대한 IAM 권한 지원
테이블 이름 변경 테이블	CREATE_TABLE 및 DROP	지원됨
INSERT INTO	SELECT, INSERT 및 ALTER	지원됨
INSERT OVERWRITE	SELECT, INSERT 및 ALTER	지원됨
DELETE	SELECT, INSERT 및 ALTER	지원됨
UPDATE	SELECT, INSERT 및 ALTER	지원됨
MERGE INTO	SELECT, INSERT 및 ALTER	지원됨
DROP TABLE	SELECT, DELETE 및 DROP	지원됨
DataFrame Writer V1	-	지원되지 않음
DataFrame Writer V2	해당 SQL 작업과 동일	기존 테이블에 데이터를 추가할 때 지원됩니다. 자세한 내용은 고려 사항 및 제한 사항을 참조하세요.
메타데이터 테이블	SELECT	지원 특정 테이블은 숨겨집니다. 자세한 내용은 고려 사항 및 제한 사항을 참조하세요.
저장 프로시저	-	다음 조건을 충족하는 테이블에 지원됩니다. 에 등록되지 않은 테이블 AWS Lake Formation `register_table` 및를 사용하지 않는 테이블 `migrate` 자세한 내용은 고려 사항 및 제한 사항을 참조하세요.

Iceberg의 Spark 구성: 다음 샘플은 Iceberg를 사용하여 Spark를 구성하는 방법을 보여줍니다. Iceberg 작업을 실행하려면 다음 spark-submit 속성을 제공합니다.


--conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog
--conf spark.sql.catalog.spark_catalog.warehouse=<S3_DATA_LOCATION>
--conf spark.sql.catalog.spark_catalog.glue.account-id=<ACCOUNT_ID>
--conf spark.sql.catalog.spark_catalog.client.region=<REGION>
--conf spark.sql.catalog.spark_catalog.glue.endpoint=https://glue.<REGION>.amazonaws.com

Hudi

연산	AWS Lake Formation 권한	지원 상태
SELECT	SELECT	지원됨
CREATE TABLE	CREATE_TABLE	Amazon S3 위치에 대한 IAM 권한 지원
CREATE TABLE LIKE	CREATE_TABLE	Amazon S3 위치에 대한 IAM 권한 지원
CREATE TABLE AS SELECT	-	지원되지 않음
DESCRIBE TABLE	DESCRIBE	Amazon S3 위치에 대한 IAM 권한 지원
SHOW TBLPROPERTIES	DESCRIBE	Amazon S3 위치에 대한 IAM 권한 지원
SHOW COLUMNS	DESCRIBE	Amazon S3 위치에 대한 IAM 권한 지원
SHOW CREATE TABLE	DESCRIBE	Amazon S3 위치에 대한 IAM 권한 지원
ALTER TABLE	SELECT	Amazon S3 위치에 대한 IAM 권한 지원
INSERT INTO	SELECT 및 ALTER	Amazon S3 위치에 대한 IAM 권한 지원
INSERT OVERWRITE	SELECT 및 ALTER	Amazon S3 위치에 대한 IAM 권한 지원
DELETE	-	지원되지 않음
UPDATE	-	지원되지 않음
MERGE INTO	-	지원되지 않음
DROP TABLE	SELECT 및 DROP	Amazon S3 위치에 대한 IAM 권한 지원
DataFrame Writer V1	-	지원되지 않음
DataFrame Writer V2	해당 SQL 작업과 동일	Amazon S3 위치에 대한 IAM 권한 지원
메타데이터 테이블	-	지원되지 않음
테이블 유지 관리 및 유틸리티 기능	-	지원되지 않음

다음 샘플은 파일 위치 및 사용에 필요한 기타 속성을 지정하여 Hudi로 Spark를 구성하는 예제입니다.

Hudi를 위한 Spark 구성: 노트북에서 사용할 때 이 코드 조각은 Spark에서 Hudi 기능을 활성화하는 Hudi Spark 번들 JAR 파일의 경로를 지정합니다. 또한 Glue 데이터 카탈로그를 AWS 메타스토어로 사용하도록 Spark를 구성합니다.


%%configure -f
{
    "conf": {
        "spark.jars": "/usr/lib/hudi/hudi-spark-bundle.jar",
        "spark.hadoop.hive.metastore.client.factory.class": "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory",
        "spark.serializer": "org.apache.spark.serializer.JavaSerializer",
        "spark.sql.catalog.spark_catalog": "org.apache.spark.sql.hudi.catalog.HoodieCatalog",
        "spark.sql.extensions": "org.apache.spark.sql.hudi.HoodieSparkSessionExtension"
    }
}

AWS Glue를 사용하는 Hudi용 Spark 구성: 노트북에서 사용되는 경우이 코드 조각은 Hudi를 지원되는 데이터 레이크 형식으로 활성화하고 Hudi 라이브러리 및 종속성을 사용할 수 있도록 합니다.


%%configure
{
    "--conf": "spark.serializer=org.apache.spark.serializer.JavaSerializer --conf 
spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog --conf 
spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension",
    "--datalake-formats": "hudi",
    "--enable-glue-datacatalog": True,
    "--enable-lakeformation-fine-grained-access": "true"
}

Delta Lake

연산	AWS Lake Formation 권한	지원 상태
SELECT	SELECT	지원됨
CREATE TABLE	CREATE_TABLE	지원됨
CREATE TABLE LIKE	-	지원되지 않음
CREATE TABLE AS SELECT	CREATE_TABLE	지원됨
테이블을 선택으로 바꾸기	SELECT, INSERT 및 ALTER	지원됨
DESCRIBE TABLE	DESCRIBE	Amazon S3 위치에 대한 IAM 권한 지원
SHOW TBLPROPERTIES	DESCRIBE	Amazon S3 위치에 대한 IAM 권한 지원
SHOW COLUMNS	DESCRIBE	Amazon S3 위치에 대한 IAM 권한 지원
SHOW CREATE TABLE	DESCRIBE	Amazon S3 위치에 대한 IAM 권한 지원
ALTER TABLE	SELECT 및 INSERT	지원됨
ALTER TABLE SET LOCATION	SELECT 및 INSERT	Amazon S3 위치에 대한 IAM 권한 지원
테이블 `tablename` 클러스터 변경 기준	SELECT 및 INSERT	Amazon S3 위치에 대한 IAM 권한 지원
테이블 변경 제약 조건 `tablename` 추가	SELECT 및 INSERT	Amazon S3 위치에 대한 IAM 권한 지원
테이블 `tablename` 삭제 제약 조건 변경	SELECT 및 INSERT	Amazon S3 위치에 대한 IAM 권한 지원
INSERT INTO	SELECT 및 INSERT	지원됨
INSERT OVERWRITE	SELECT 및 INSERT	지원됨
DELETE	SELECT 및 INSERT	지원됨
UPDATE	SELECT 및 INSERT	지원됨
MERGE INTO	SELECT 및 INSERT	지원됨
DROP TABLE	SELECT, DELETE 및 DROP	지원됨
DataFrame Writer V1	-	지원되지 않음
DataFrame Writer V2	해당 SQL 작업과 동일	지원됨
테이블 유지 관리 및 유틸리티 기능	-	지원되지 않음

Delta Lake를 사용하는 EMR Serverless: EMR Serverless에서 Delta Lake를 Lake Formation과 함께 사용하려면 다음 명령을 실행합니다.


spark-sql \
  --conf spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension,com.amazonaws.emr.recordserver.connector.spark.sql.RecordServerSQLExtension \
  --conf spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog \

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

EMR Serverless에 대한 Lake Formation 전체 테이블 액세스

디버깅 작업