As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Configurar funções IAM de tempo de execução para acesso ao EMR cluster da Amazon no Studio
Ao se conectar a um EMR cluster da Amazon a partir de seus notebooks Studio ou Studio Classic, você pode navegar visualmente por uma lista de IAM funções, conhecidas como funções de tempo de execução, e selecionar uma rapidamente. Posteriormente, todas as suas tarefas do Apache Spark, Apache Hive ou Presto criadas a partir do seu notebook acessam somente os dados e recursos permitidos pelas políticas anexadas à função de tempo de execução. Além disso, quando os dados são acessados a partir de data lakes gerenciados com AWS Lake Formation, você pode impor o acesso em nível de tabela e coluna usando políticas anexadas à função de tempo de execução.
Com esse recurso, você e seus colegas de equipe podem se conectar ao mesmo cluster, cada um usando uma função de tempo de execução com permissões correspondentes ao seu nível individual de acesso aos dados. Suas sessões também são isoladas umas das outras no cluster compartilhado.
Para experimentar esse recurso usando o Studio Classic, consulte Aplicar controles refinados de acesso a dados com e a Amazon a partir do AWS Lake Formation EMR Amazon SageMaker
Pré-requisitos
Antes começar, certifique-se de que os seguintes pré-requisitos sejam atendidos:
-
Use a EMR versão 6.9 ou superior da Amazon.
-
Para usuários do Studio Classic: Use a JupyterLab versão 3 na configuração do aplicativo do servidor Studio Classic Jupyter. Esta versão oferece suporte à conexão do Studio Classic com EMR clusters da Amazon usando funções de tempo de execução.
Para usuários do Studio: use uma versão SageMaker de imagem de distribuição
1.10
ou superior. -
Permita o uso de funções de tempo de execução na configuração de segurança do seu cluster. Para obter mais informações, consulte Funções de tempo de execução para EMR etapas da Amazon.
-
Crie um bloco de anotações com qualquer um dos kernels listados em Imagens e kernels compatíveis para se conectar a um EMR cluster da Amazon a partir do Studio ou do Studio Classic.
-
Certifique-se de revisar as instruções Configurar o Studio para usar IAM funções de tempo de execução para configurar suas funções de tempo de execução.
Cenários de conexão entre contas
A autenticação por função de tempo de execução oferece suporte a vários cenários de conexão entre contas quando seus dados residem fora da sua conta do Studio. A imagem a seguir mostra três maneiras diferentes de atribuir seu EMR cluster, dados e até mesmo a função de execução de EMR tempo de execução da Amazon entre seu Studio e suas contas de dados:
Na opção 1, seu EMR cluster da Amazon e sua função EMR de execução de tempo de execução da Amazon estão em uma conta de dados separada da conta do Studio. Você define uma política de permissão separada da função de EMR acesso da Amazon (também chamada deAssumable role
) que concede permissão à função de execução do Studio ou do Studio Classic para assumir a função de EMR acesso da Amazon. A função de EMR acesso da Amazon então chama a Amazon EMR API GetClusterSessionCredentials
em nome da sua função de execução Studio ou Studio Classic, dando acesso ao cluster.
Na opção 2, seu EMR cluster da Amazon e sua função EMR de execução de tempo de execução da Amazon estão em sua conta do Studio. Sua função de execução do Studio tem permissão para usar a Amazon EMR API GetClusterSessionCredentials
para obter acesso ao seu cluster. Para acessar o bucket do Amazon S3, conceda à função de execução de tempo de EMR execução da Amazon permissões de acesso entre contas do bucket do Amazon S3 — você concede essas permissões dentro da sua política de bucket do Amazon S3.
Na opção 3, seus EMR clusters da Amazon estão na sua conta do Studio e a função de execução do EMR tempo de execução da Amazon está na conta de dados. Sua função de execução do Studio ou Studio Classic tem permissão para usar a Amazon EMR API GetClusterSessionCredentials
para obter acesso ao seu cluster. Adicione a função EMR de execução de tempo de execução da Amazon na configuração da função de execuçãoJSON. Em seguida, você pode selecionar a função na interface do usuário ao escolher seu cluster. Para obter detalhes sobre como configurar seu JSON arquivo de configuração da função de execução, consultePré-carregue suas funções de execução no Studio ou no Studio Classic.
Configurar o Studio para usar IAM funções de tempo de execução
Para estabelecer a autenticação da função de tempo de execução para seus EMR clusters da Amazon, configure as IAM políticas, a rede e os aprimoramentos de usabilidade necessários. Sua configuração depende de você lidar com qualquer acordo entre contas, se seus EMR clusters da Amazon, sua função de execução EMR de tempo de execução da Amazon ou ambos residirem fora da sua conta Studio. A seção a seguir orienta você sobre as políticas de instalação, como configurar a rede para permitir tráfego entre contas cruzadas e o arquivo de configuração local a ser configurado para automatizar sua conexão com a AmazonEMR.
Configure a autenticação da função de tempo de execução quando o EMR cluster da Amazon e o Studio estiverem na mesma conta
Se o seu EMR cluster da Amazon residir na sua conta do Studio, conclua as etapas a seguir para adicionar as permissões necessárias à sua política de execução do Studio:
-
Adicione a IAM política necessária para se conectar aos EMR clusters da Amazon. Para obter detalhes, consulte Configurar a listagem de EMR clusters da Amazon.
-
Conceda permissão para ligar para a Amazon EMR API
GetClusterSessionCredentials
ao passar por uma ou mais funções de execução de EMR tempo de execução permitidas da Amazon especificadas na política. -
(Opcional) Conceda permissão para transmitir IAM funções que sigam qualquer convenção de nomenclatura definida pelo usuário.
-
(Opcional) Conceda permissão para acessar EMR clusters da Amazon que estão marcados com sequências específicas definidas pelo usuário.
-
Pré-carregue suas IAM funções para que você possa selecionar a função a ser usada ao se conectar ao seu EMR cluster da Amazon. Para obter detalhes sobre como pré-carregar suas IAM funções, consultePré-carregue suas funções de execução no Studio ou no Studio Classic.
O exemplo de política a seguir permite que funções EMR de execução de tempo de execução da Amazon pertencentes aos grupos de modelagem e treinamento sejam chamadasGetClusterSessionCredentials
. Além disso, o segurado pode acessar os EMR clusters da Amazon marcados com as sequências de caracteres modeling
ou. training
{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": "elasticmapreduce:GetClusterSessionCredentials", "Resource": "*", "Condition": { "StringLike": { "elasticmapreduce:ExecutionRoleArn": [ "arn:aws:iam::123456780910:role/emr-execution-role-ml-modeling*", "arn:aws:iam::123456780910:role/emr-execution-role-ml-training*" ], "elasticmapreduce:ResourceTag/group": [ "*modeling*", "*training*" ] } } } ] }
Configure a autenticação da função de tempo de execução quando o cluster do Studio estiver em contas diferentes
Se o seu EMR cluster da Amazon não estiver na sua conta do Studio, permita que sua função de SageMaker execução assuma a função de EMR acesso cruzado da Amazon para que você possa se conectar ao cluster. Conclua as etapas a seguir para configurar sua configuração entre contas:
-
Crie sua política de permissão de função de SageMaker execução para que a função de execução possa assumir a função de EMR acesso da Amazon. Veja abaixo um exemplo de política:
{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowAssumeCrossAccountEMRAccessRole", "Effect": "Allow", "Action": "sts:AssumeRole", "Resource": "arn:aws:iam::
emr_account_id
:role/emr-access-role-name
" } ] } -
Crie a política de confiança para especificar quais contas do Studio IDs são confiáveis para assumir a função de EMR acesso da Amazon. Veja abaixo um exemplo de política:
{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowCrossAccountSageMakerExecutionRoleToAssumeThisRole", "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::
studio_account_id
:role/studio_execution_role
" }, "Action": "sts:AssumeRole" } } -
Crie a política de permissão da função de EMR acesso da Amazon, que concede à função EMR de execução de tempo de execução da Amazon as permissões necessárias para realizar as tarefas pretendidas no cluster. Configure a função de EMR acesso da Amazon para chamá-la API
GetClusterSessionCredentials
com as funções de execução EMR de tempo de execução da Amazon especificadas na política de permissão da função de acesso. Veja abaixo um exemplo de política:{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowCallingEmrGetClusterSessionCredentialsAPI", "Effect": "Allow", "Action": "elasticmapreduce:GetClusterSessionCredentials", "Resource": "", "Condition": { "StringLike": { "elasticmapreduce:ExecutionRoleArn": [ "arn:aws:iam::
emr_account_id
:role/emr-execution-role-name
" ] } } } ] } -
Configure a rede entre contas para que o tráfego possa ir e voltar entre suas contas. Para instruções guiadas, consulte Configure o acesso à rede para seu EMR cluster AmazonConfigurar o. As etapas desta seção ajudam você a concluir as seguintes tarefas:
-
VPC-verifique sua conta do Studio e sua conta da Amazon EMR para estabelecer uma conexão.
-
Adicione rotas manualmente às tabelas de rotas da sub-rede privada em ambas as contas. Isso permite a criação e a conexão de EMR clusters da Amazon da conta Studio à sub-rede privada da conta remota.
-
Configure o grupo de segurança anexado ao seu domínio do Studio para permitir o tráfego de saída e o grupo de segurança do nó EMR primário da Amazon para permitir o TCP tráfego de entrada do grupo de segurança da instância do Studio.
-
-
Pré-carregue suas funções IAM de tempo de execução para que você possa selecionar a função a ser usada ao se conectar ao seu EMR cluster da Amazon. Para obter detalhes sobre como pré-carregar suas IAM funções, consultePré-carregue suas funções de execução no Studio ou no Studio Classic.
Configurar o acesso ao Lake Formation
Ao acessar dados de data lakes gerenciados pelo AWS Lake Formation, você pode impor o acesso em nível de tabela e coluna usando políticas anexadas à sua função de tempo de execução. Para configurar a permissão de acesso ao Lake Formation, consulte Integrar a Amazon EMR com AWS Lake Formation.
Pré-carregue suas funções de execução no Studio ou no Studio Classic
Você pode pré-carregar suas funções IAM de tempo de execução para poder selecionar a função a ser usada ao se conectar ao seu EMR cluster da Amazon. Os usuários do JupyterLab in Studio podem usar o SageMaker console ou o script fornecido.