Acesso aos dados do S3 em outra conta da AWS no EMR Sem Servidor - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Acesso aos dados do S3 em outra conta da AWS no EMR Sem Servidor

Você pode executar trabalhos do Amazon EMR Sem Servidor em uma conta da AWS e configurá-los para acessar dados nos buckets do Amazon S3 que pertencem a outra conta da AWS. Esta página descreve como configurar o acesso entre contas do S3 no EMR Sem Servidor.

Os trabalhos executados no EMR Sem Servidor podem usar uma política de bucket do S3 ou um perfil assumido para acessar dados no Amazon S3 em uma outra conta da AWS.

Pré-requisitos

Para configurar o acesso entre contas para o Amazon EMR Sem Servidor, você deve concluir tarefas enquanto estiver conectado a duas contas da AWS:

  • AccountA: essa é a conta da AWS na qual você criou uma aplicação do Amazon EMR Sem Servidor. Antes de configurar o acesso entre contas, você deve ter os seguintes itens prontos na conta:

  • AccountB: essa é a conta da AWS que contém o bucket do S3 que você deseja que os trabalhos do Amazon EMR Sem Servidor acessem.

Uso de uma política de bucket do S3 para acessar dados entre contas do S3

Para acessar o bucket do S3 na account B usando a account A, anexe a política a seguir ao bucket do S3 na account B.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "Example permissions 1", "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::AccountA:root" }, "Action": [ "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::bucket_name_in_AccountB" ] }, { "Sid": "Example permissions 2", "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::AccountA:root" }, "Action": [ "s3:PutObject", "s3:GetObject", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::bucket_name_in_AccountB/*" ] } ] }

Para obter mais informações sobre o acesso entre contas do S3 com políticas de bucket do S3, consulte Exemplo 2: Proprietário do bucket concedendo permissões de bucket entre contas no Guia do usuário do Amazon Simple Storage Service.

Uso de um perfil assumido para acessar dados entre contas do S3

Outra forma de configurar o acesso entre contas do Amazon EMR Sem Servidor é com a ação AssumeRole do AWS Security Token Service (AWS STS). O AWS STS é um serviço da Web global que permite solicitar credenciais temporárias e com privilégios limitados para os usuários. Você pode fazer chamadas de API para o EMR Sem Servidor e o Amazon S3 com as credenciais de segurança temporárias criadas com AssumeRole.

As seguintes etapas ilustram como usar um perfil assumido para acessar dados entre contas do S3 no EMR Sem Servidor:

  1. Crie um bucket do Amazon S3, cross-account-bucket, na AccountB. Para obter mais informações, consulte Criar um bucket no Guia do usuário do Amazon Simple Storage Service. Se desejar ter acesso entre contas para o DynamoDB, você também pode criar uma tabela do DynamoDB na AccountB. Para obter mais informações, consulte Crie uma tabela no DynamoDB no Guia do desenvolvedor do Amazon DynamoDB.

  2. Crie um perfil do IAM Cross-Account-Role-B na AccountB que possa acessar o cross-account-bucket.

    1. Faça login no AWS Management Console e abra o console do IAM em https://console.aws.amazon.com/iam/.

    2. Escolha Perfis e crie um novo perfil: Cross-Account-Role-B. Para obter mais informações sobre como criar perfis do IAM, consulte Criar um perfil do IAM no Guia do usuário do IAM.

    3. Crie uma política do IAM que especifique as permissões para a Cross-Account-Role-B acessar o bucket do S3 cross-account-bucket, como demonstra a instrução de política a seguir. Em seguida, anexe a política do IAM ao Cross-Account-Role-B. Para obter mais informações, consulte Criar políticas do IAM no Guia do usuário do IAM.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "s3:*", "Resource": [ "arn:aws:s3:::cross-account-bucket", "arn:aws:s3:::cross-account-bucket/*" ] } ] }

    Se o acesso ao DynamoDB for necessário, crie uma política do IAM que especifique as permissões de acesso à tabela do DynamoDB entre contas. Em seguida, anexe a política do IAM ao Cross-Account-Role-B. Para obter mais informações, consulte Amazon DynamoDB: permite acesso a uma tabela específica no Guia do usuário do IAM.

    A seguir, é apresentada uma política para permitir acesso à tabela CrossAccountTable do DynamoDB.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "dynamodb:*", "Resource": "arn:aws:dynamodb:MyRegion:AccountB:table/CrossAccountTable" } ] }
  3. Edite a relação de confiança para o perfil Cross-Account-Role-B.

    1. Para configurar o relacionamento de confiança para o perfil, escolha a guia Relacionamentos de confiança no console do IAM para o perfil Cross-Account-Role-B criado na Etapa 2.

    2. Selecione Editar relação de confiança.

    3. Insira o documento de política a seguir. Isso permite que Job-Execution-Role-A na AccountA assuma o perfil Cross-Account-Role-B.

      { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::AccountA:role/Job-Execution-Role-A" }, "Action": "sts:AssumeRole" } ] }
  4. Conceda à Job-Execution-Role-A na AccountA a permissão AssumeRole do AWS STS para assumir Cross-Account-Role-B.

    1. No console do IAM para a conta AccountA da AWS, selecione Job-Execution-Role-A.

    2. Adicione a instrução de política a seguir ao Job-Execution-Role-A para permitir a ação AssumeRole no perfil Cross-Account-Role-B.

      { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "sts:AssumeRole", "Resource": "arn:aws:iam::AccountB:role/Cross-Account-Role-B" } ] }

Exemplos de perfis assumidos

Você pode usar um único perfil assumido para acessar todos os recursos do S3 em uma conta ou, com o Amazon EMR 6.11 e superior, configurar vários perfis do IAM a serem assumidos ao acessar diferentes buckets do S3 entre contas.

Acesso aos recursos do S3 com um perfil assumido

nota

Quando você configura um trabalho para usar um único perfil assumido, todos os recursos do S3 em todo o trabalho usam esse perfil, incluindo o script entryPoint.

Se você quiser usar um único perfil assumido para acessar todos os recursos do S3 na conta B, especifique as seguintes configurações:

  1. Especifique a configuração fs.s3.customAWSCredentialsProvider do EMRFS para spark.hadoop.fs.s3.customAWSCredentialsProvider=com.amazonaws.emr.AssumeRoleAWSCredentialsProvider.

  2. No Spark, use spark.emr-serverless.driverEnv.ASSUME_ROLE_CREDENTIALS_ROLE_ARN e spark.executorEnv.ASSUME_ROLE_CREDENTIALS_ROLE_ARN para especificar as variáveis de ambiente no driver e nos executores.

  3. No Hive, use hive.emr-serverless.launch.env.ASSUME_ROLE_CREDENTIALS_ROLE_ARN, tez.am.emr-serverless.launch.env.ASSUME_ROLE_CREDENTIALS_ROLE_ARN e tez.task.emr-serverless.launch.env.ASSUME_ROLE_CREDENTIALS_ROLE_ARN para especificar as variáveis de ambiente no driver do Hive, no mestre de aplicação do Tez e nos contêineres de tarefas do Tez.

Os exemplos a seguir mostram como usar um perfil assumido para iniciar uma execução de trabalho do EMR Sem Servidor com acesso entre contas.

Spark

O exemplo a seguir mostra como usar um perfil assumido para iniciar a execução de um trabalho do Spark no EMR Sem Servidor com acesso entre contas ao S3.

aws emr-serverless start-job-run \ --application-id application-id \ --execution-role-arn job-role-arn \ --job-driver '{ "sparkSubmit": { "entryPoint": "entrypoint_location", "entryPointArguments": [":argument_1:", ":argument_2:"], "sparkSubmitParameters": "--conf spark.executor.cores=4 --conf spark.executor.memory=20g --conf spark.driver.cores=4 --conf spark.driver.memory=8g --conf spark.executor.instances=1" } }' \ --configuration-overrides '{ "applicationConfiguration": [{ "classification": "spark-defaults", "properties": { "spark.hadoop.fs.s3.customAWSCredentialsProvider": "spark.hadoop.fs.s3.customAWSCredentialsProvider=com.amazonaws.emr.AssumeRoleAWSCredentialsProvider", "spark.emr-serverless.driverEnv.ASSUME_ROLE_CREDENTIALS_ROLE_ARN": "arn:aws:iam::AccountB:role/Cross-Account-Role-B", "spark.executorEnv.ASSUME_ROLE_CREDENTIALS_ROLE_ARN": "arn:aws:iam::AccountB:role/Cross-Account-Role-B" } }] }'
Hive

O exemplo a seguir mostra como usar um perfil assumido para iniciar uma execução de trabalho do Hive no EMR Sem Servidor com acesso entre contas ao S3.

aws emr-serverless start-job-run \ --application-id application-id \ --execution-role-arn job-role-arn \ --job-driver '{ "hive": { "query": "query_location", "parameters": "hive_parameters" } }' \ --configuration-overrides '{ "applicationConfiguration": [{ "classification": "hive-site", "properties": { "fs.s3.customAWSCredentialsProvider": "com.amazonaws.emr.serverless.credentialsprovider.AssumeRoleAWSCredentialsProvider", "hive.emr-serverless.launch.env.ASSUME_ROLE_CREDENTIALS_ROLE_ARN": "arn:aws:iam::AccountB:role/Cross-Account-Role-B", "tez.am.emr-serverless.launch.env.ASSUME_ROLE_CREDENTIALS_ROLE_ARN": "arn:aws:iam::AccountB:role/Cross-Account-Role-B", "tez.task.emr-serverless.launch.env.ASSUME_ROLE_CREDENTIALS_ROLE_ARN": "arn:aws:iam::AccountB:role/Cross-Account-Role-B" } }] }'

Acesso a recursos do S3 com vários perfis assumidos

Com o EMR Sem Servidor nas versões 6.11.0 e posteriores, você pode configurar vários perfis do IAM a serem assumidos ao acessar diferentes buckets entre contas. Se você quiser acessar diferentes recursos do S3 com diferentes perfis assumidos na conta B, use as seguintes configurações ao iniciar a execução do trabalho:

  1. Especifique a configuração fs.s3.customAWSCredentialsProvider do EMRFS para com.amazonaws.emr.serverless.credentialsprovider.BucketLevelAssumeRoleCredentialsProvider.

  2. Especifique a configuração fs.s3.bucketLevelAssumeRoleMapping do EMRFS para definir o mapeamento do nome do bucket do S3 para o perfil do IAM na conta B a ser assumido. O valor deve estar no formato de bucket1->role1;bucket2->role2.

Por exemplo, você pode usar arn:aws:iam::AccountB:role/Cross-Account-Role-B-1 para acessar o bucket bucket1 e arn:aws:iam::AccountB:role/Cross-Account-Role-B-2 para acessar o bucket bucket2. Os exemplos a seguir mostram como iniciar uma execução de trabalho do EMR Sem Servidor com acesso entre contas por meio de vários perfis assumidos.

Spark

O exemplo a seguir mostra como usar vários perfis assumidos para criar uma execução de trabalho do Spark no EMR Sem Servidor.

aws emr-serverless start-job-run \ --application-id application-id \ --execution-role-arn job-role-arn \ --job-driver '{ "sparkSubmit": { "entryPoint": "entrypoint_location", "entryPointArguments": [":argument_1:", ":argument_2:"], "sparkSubmitParameters": "--conf spark.executor.cores=4 --conf spark.executor.memory=20g --conf spark.driver.cores=4 --conf spark.driver.memory=8g --conf spark.executor.instances=1" } }' \ --configuration-overrides '{ "applicationConfiguration": [{ "classification": "spark-defaults", "properties": { "spark.hadoop.fs.s3.customAWSCredentialsProvider": "com.amazonaws.emr.serverless.credentialsprovider.BucketLevelAssumeRoleCredentialsProvider", "spark.hadoop.fs.s3.bucketLevelAssumeRoleMapping": "bucket1->arn:aws:iam::AccountB:role/Cross-Account-Role-B-1;bucket2->arn:aws:iam::AccountB:role/Cross-Account-Role-B-2" } }] }'
Hive

Os exemplos a seguir mostram como usar vários perfis assumidos para criar uma execução de trabalho do Hive no EMR Sem Servidor.

aws emr-serverless start-job-run \ --application-id application-id \ --execution-role-arn job-role-arn \ --job-driver '{ "hive": { "query": "query_location", "parameters": "hive_parameters" } }' \ --configuration-overrides '{ "applicationConfiguration": [{ "classification": "hive-site", "properties": { "fs.s3.customAWSCredentialsProvider": "com.amazonaws.emr.serverless.credentialsprovider.AssumeRoleAWSCredentialsProvider", "fs.s3.bucketLevelAssumeRoleMapping": "bucket1->arn:aws:iam::AccountB:role/Cross-Account-Role-B-1;bucket2->arn:aws:iam::AccountB:role/Cross-Account-Role-B-2" } }] }'