Amazon EMR Serverless 시작하기 - Amazon EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon EMR Serverless 시작하기

이 자습서는 샘플 Spark 또는 Hive 워크로드를 배포할 때 EMR Serverless를 시작하는 데 도움이 됩니다. 자체 애플리케이션을 생성, 실행 및 디버깅합니다. 이 자습서의 대부분의 부분에 기본 옵션이 표시됩니다.

EMR Serverless 애플리케이션을 시작하기 전에 다음 작업을 완료합니다.

EMR Serverless를 사용할 수 있는 권한 부여

EMR Serverless를 사용하려면 EMR Serverless에 대한 권한을 부여하는 정책이 연결된 사용자 또는 IAM 역할이 필요합니다. 사용자를 생성하고 해당 사용자에게 적절한 정책을 연결하려면 의 지침을 따르세요권한 부여.

EMR Serverless용 스토리지 준비

이 자습서에서는 S3 버킷을 사용하여 EMR Serverless 애플리케이션을 사용하여 실행할 샘플 Spark 또는 Hive 워크로드의 출력 파일과 로그를 저장합니다. 버킷을 생성하려면 Amazon Simple Storage Service 콘솔 사용 설명서버킷 생성의 지침을 따릅니다. 에 대한 추가 참조amzn-s3-demo-bucket를 새로 생성된 버킷의 이름으로 바꿉니다.

대화형 워크로드를 실행할 EMR Studio 생성

EMR Serverless를 사용하여 EMR Studio에서 호스팅되는 노트북을 통해 대화형 쿼리를 실행하려면 S3 버킷과 EMR Serverless가 Workspace를 생성할 최소 서비스 역할을 지정해야 합니다. 설정 단계는 Amazon EMR 관리 안내서 EMR 스튜디오 설정을 참조하세요. 대화형 워크로드에 대한 자세한 내용은 섹션을 참조하세요Studio를 통해 EMR 서버리스로 대화형 워크로드 실행 EMR.

작업 런타임 역할 생성

EMR Serverless에서 실행되는 작업은 런타임 시 특정 AWS 서비스 및 리소스에 대한 세분화된 권한을 제공하는 런타임 역할을 사용합니다. 이 자습서에서는 퍼블릭 S3 버킷이 데이터와 스크립트를 호스팅합니다. 버킷은 출력을 amzn-s3-demo-bucket 저장합니다.

작업 런타임 역할을 설정하려면 먼저 EMR Serverless가 새 역할을 사용할 수 있도록 신뢰 정책을 사용하여 런타임 역할을 생성합니다. 그런 다음 필요한 S3 액세스 정책을 해당 역할에 연결합니다. 다음 단계는 프로세스를 안내합니다.

Console
  1. IAM 콘솔(https://console.aws.amazon.com/iam/)로 이동합니다.

  2. 왼쪽 탐색 창에서 역할을 선택합니다.

  3. 역할 생성을 선택합니다.

  4. 역할 유형에서 사용자 지정 신뢰 정책을 선택하고 다음 신뢰 정책을 붙여넣습니다. 이렇게 하면 Amazon EMR Serverless 애플리케이션에 제출된 작업이 사용자를 대신하여 다른 에 액세스할 AWS 서비스 수 있습니다.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "emr-serverless.amazonaws.com" }, "Action": "sts:AssumeRole" } ] }
  5. 다음을 선택하여 권한 추가 페이지로 이동한 다음 정책 생성을 선택합니다.

  6. 정책 생성 페이지가 새 탭에서 열립니다. JSON 아래 정책을 붙여넣습니다.

    중요

    아래 정책의 amzn-s3-demo-bucket를 에서 생성된 실제 버킷 이름으로 바꿉니다EMR Serverless용 스토리지 준비. 이는 S3 액세스에 대한 기본 정책입니다. 자세한 작업 런타임 역할 예제는 섹션을 참조하세요Amazon EMR Serverless의 작업 런타임 역할.

    { "Version": "2012-10-17", "Statement": [ { "Sid": "ReadAccessForEMRSamples", "Effect": "Allow", "Action": [ "s3:GetObject", "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::*.elasticmapreduce", "arn:aws:s3:::*.elasticmapreduce/*" ] }, { "Sid": "FullAccessToOutputBucket", "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:ListBucket", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::amzn-s3-demo-bucket", "arn:aws:s3:::amzn-s3-demo-bucket/*" ] }, { "Sid": "GlueCreateAndReadDataCatalog", "Effect": "Allow", "Action": [ "glue:GetDatabase", "glue:CreateDatabase", "glue:GetDataBases", "glue:CreateTable", "glue:GetTable", "glue:UpdateTable", "glue:DeleteTable", "glue:GetTables", "glue:GetPartition", "glue:GetPartitions", "glue:CreatePartition", "glue:BatchCreatePartition", "glue:GetUserDefinedFunctions" ], "Resource": ["*"] } ] }
  7. 정책 검토 페이지에서 와 같은 정책의 이름을 입력합니다EMRServerlessS3AndGlueAccessPolicy.

  8. 권한 연결 정책 페이지를 새로 고치고 를 선택합니다EMRServerlessS3AndGlueAccessPolicy.

  9. 이름, 검토 및 생성 페이지의 역할 이름 에 와 같은 역할 이름을 입력합니다EMRServerlessS3RuntimeRole. 이 IAM 역할을 생성하려면 역할 생성을 선택합니다.

CLI
  1. IAM 역할에 사용할 신뢰 정책emr-serverless-trust-policy.json이 포함된 라는 파일을 생성합니다. 파일에는 다음 정책이 포함되어야 합니다.

    { "Version": "2012-10-17", "Statement": [{ "Sid": "EMRServerlessTrustPolicy", "Action": "sts:AssumeRole", "Effect": "Allow", "Principal": { "Service": "emr-serverless.amazonaws.com" } }] }
  2. 라는 IAM 역할을 생성합니다EMRServerlessS3RuntimeRole. 이전 단계에서 생성한 신뢰 정책을 사용합니다.

    aws iam create-role \ --role-name EMRServerlessS3RuntimeRole \ --assume-role-policy-document file://emr-serverless-trust-policy.json

    출력의 ARN를 참고합니다. 작업 제출 중에 새 역할ARN의 를 사용합니다. 이 역할 후에는 라고 합니다job-role-arn.

  3. 워크로드에 대한 IAM 정책을 emr-sample-access-policy.json 정의하는 라는 파일을 생성합니다. 이렇게 하면 퍼블릭 S3 버킷에 저장된 스크립트 및 데이터에 대한 읽기 액세스와 에 대한 읽기-쓰기 액세스가 가능합니다amzn-s3-demo-bucket.

    중요

    아래 정책amzn-s3-demo-bucket에서 를 에서 생성된 실제 버킷 이름으로 바꿉EMR Serverless용 스토리지 준비니다. 이는 AWS Glue 및 S3 액세스에 대한 기본 정책입니다. 자세한 작업 런타임 역할 예제는 섹션을 참조하세요Amazon EMR Serverless의 작업 런타임 역할.

    { "Version": "2012-10-17", "Statement": [ { "Sid": "ReadAccessForEMRSamples", "Effect": "Allow", "Action": [ "s3:GetObject", "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::*.elasticmapreduce", "arn:aws:s3:::*.elasticmapreduce/*" ] }, { "Sid": "FullAccessToOutputBucket", "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:ListBucket", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::amzn-s3-demo-bucket", "arn:aws:s3:::amzn-s3-demo-bucket/*" ] }, { "Sid": "GlueCreateAndReadDataCatalog", "Effect": "Allow", "Action": [ "glue:GetDatabase", "glue:CreateDatabase", "glue:GetDataBases", "glue:CreateTable", "glue:GetTable",Understanding default application behavior, including auto-start and auto-stop, as well as maximum capacity and worker configurations for configuring an application with &EMRServerless;. "glue:UpdateTable", "glue:DeleteTable", "glue:GetTables", "glue:GetPartition", "glue:GetPartitions", "glue:CreatePartition", "glue:BatchCreatePartition", "glue:GetUserDefinedFunctions" ], "Resource": ["*"] } ] }
  4. 3단계에서 생성한 IAM 정책 파일로 라는 EMRServerlessS3AndGlueAccessPolicy 정책을 생성합니다. 다음 단계에서 새 정책의 를 사용하므로 ARN 출력에 ARN를 기록해 둡니다.

    aws iam create-policy \ --policy-name EMRServerlessS3AndGlueAccessPolicy \ --policy-document file://emr-sample-access-policy.json

    출력에 새 정책을 기록ARN해 둡니다. policy-arn 다음 단계에서 대체할 것입니다.

  5. 작업 런타임 역할 EMRServerlessS3AndGlueAccessPolicy에 IAM 정책을 연결합니다EMRServerlessS3RuntimeRole.

    aws iam attach-role-policy \ --role-name EMRServerlessS3RuntimeRole \ --policy-arn policy-arn