기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon EMR on EKS를 사용하여 Amazon S3 Express One Zone에 데이터 업로드
Amazon EMR 릴리스 7.2.0 이상에서는 작업 및 워크로드를 실행하는 경우 성능 개선을 위해 Amazon S3 Express One Zone 스토리지 클래스와 함께 Amazon EMR on EKS를 사용할 수 있습니다. S3 Express One Zone은 대부분의 지연 시간에 민감한 애플리케이션에서 일관되게 10밀리초 미만의 데이터 액세스를 지원하는 고성능 단일 영역 Amazon S3 스토리지 클래스입니다. 릴리스 시점에 S3 Express One Zone은 Amazon S3에서 지연 시간이 가장 낮고 성능은 가장 뛰어난 클라우드 객체 스토리지를 제공합니다.
사전 조건
Amazon EMR on EKS에서 S3 Express One Zone을 사용하려면 먼저 다음 사전 조건을 준수해야 합니다.
-
Amazon EMR on EKS를 설정한 후 가상 클러스터를 생성합니다.
S3 Express One Zone 시작하기
S3 Express One Zone을 시작하려면 다음 단계를 수행합니다.
-
작업 실행 역할에 필요한
CreateSession
권한을 추가합니다. S3 Express One Zone이 S3 객체에서GET
,LIST
또는PUT
과 같은 작업을 처음 수행하면 스토리지 클래스가 사용자를 대신하여CreateSession
을 직접 호출합니다. 다음은CreateSession
권한을 부여하는 방법에 관한 예제입니다.{ "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Resource": "arn:aws:s3express:
<AWS_REGION>
:<ACCOUNT_ID>
:bucket/DOC-EXAMPLE-BUCKET
", "Action": [ "s3express:CreateSession" ] } ] } -
Apache Hadoop 커넥터 S3A를 사용하여 S3 Express 버킷에 액세스해야 하므로
s3a
스키마를 사용하여 커넥터를 사용하도록 Amazon S3 URI를 변경합니다. 스키마를 사용하지 않는 경우s3
및s3n
스키마에 대해 사용하는 파일 시스템 구현을 변경할 수 있습니다.s3
체계를 변경하려면 다음 클러스터 구성을 지정하세요.[ { "Classification": "core-site", "Properties": { "fs.s3.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem", "fs.AbstractFileSystem.s3.impl": "org.apache.hadoop.fs.s3a.S3A" } } ]
s3n 스키마를 변경하려면 다음 클러스터 구성을 지정합니다.
[ { "Classification": "core-site", "Properties": { "fs.s3n.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem", "fs.AbstractFileSystem.s3n.impl": "org.apache.hadoop.fs.s3a.S3A" } } ]
-
spark-submit 구성에서 웹 자격 증명 제공업체를 사용합니다.
"spark.hadoop.fs.s3a.aws.credentials.provider=com.amazonaws.auth.WebIdentityTokenCredentialsProvider"