Como o Amazon EMR Studio funciona - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Como o Amazon EMR Studio funciona

Um Amazon EMR Studio é um recurso do Amazon EMR criado para uma equipe de usuários. Cada Studio corresponde a um ambiente de desenvolvimento integrado que é independente e baseado na Web para cadernos Jupyter executados em clusters do Amazon EMR. Os usuários fazem login em um Studio usando credenciais corporativas.

Cada EMR Studio criado usa os seguintes recursos da AWS:

  • Uma Amazon Virtual Private Cloud (VPC) com sub-redes: os usuários executam kernels e aplicações do Studio no Amazon EMR e clusters do Amazon EMR no EKS na VPC especificada. Um EMR Studio pode se conectar a qualquer cluster nas sub-redes especificadas na criação do Studio.

  • Políticas de permissões e perfis do IAM: para gerenciar as permissões de usuários, você cria políticas de permissões do IAM que são anexadas à identidade do IAM de um usuário ou a um perfil de usuário. O EMR Studio também usa um perfil de serviço do IAM e grupos de segurança para interoperar com outros serviços da AWS. Para obter mais informações, consulte Controle de acesso e Defina grupos de segurança para controlar o tráfego de rede do EMR Studio.

  • Grupos de segurança: o EMR Studio usa grupos de segurança para estabelecer um canal de rede seguro entre o Studio e um cluster do EMR.

  • Um local de backup do Amazon S3: o EMR Studio salva o trabalho do caderno em um local do Amazon S3.

As seguintes etapas descrevem como criar e administrar um EMR Studio:

  1. Crie um Studio em sua Conta da AWS com a autenticação do IAM ou do Centro de Identidade do IAM. Para obter instruções, consulte Configurar um Amazon EMR Studio.

  2. Atribua usuários e grupos ao seu Studio. Use políticas de permissões para definir permissões detalhadas para cada usuário. Para obter mais informações, consulte o tópico Atribuir e gerenciar usuários do EMR Studio

  3. Comece a monitorar as ações do EMR Studio com eventos do AWS CloudTrail. Para obter mais informações, consulte Monitore as ações do Amazon EMR Studio.

  4. Forneça mais opções de cluster aos usuários do Studio com modelos de cluster e endpoints gerenciados do Amazon EMR no EKS.

Autenticação e login do usuário

O Amazon EMR Studio oferece suporte a dois modos de autenticação: o modo de autenticação do IAM e o modo de autenticação do Centro de Identidade do IAM. O modo do IAM usa o AWS Identity and Access Management (IAM), enquanto o modo do Centro de Identidade do IAM usa o AWS IAM Identity Center. Ao criar um EMR Studio, você escolhe o modo de autenticação para todos os usuários desse Studio.

Modo de autenticação do IAM

Com o modo de autenticação do IAM, você pode usar a autenticação do IAM ou a federação do IAM.

A autenticação do IAM permite gerenciar identidades do IAM, como usuários, grupos e perfis no IAM. Você concede aos usuários acesso a um Studio com as políticas de permissões do IAM e o controle de acesso por atributos (ABAC).

A federação do IAM permite estabelecer confiança entre um provedor de identidades (IdP) terceirizado e a AWS para que você possa gerenciar identidades de usuários por meio do seu IdP.

Modo de autenticação do Centro de Identidade do IAM

O modo de autenticação do Centro de Identidade do IAM permite conceder aos usuários o acesso federado a um EMR Studio. Você pode usar o Centro de Identidade do IAM para autenticar usuários e grupos do diretório do Centro de Identidade do IAM, do diretório corporativo existente ou de um IdP externo, como o Azure Active Directory (AD). Em seguida, você gerencia os usuários com o seu provedor de identidades (IdP).

O EMR Studio oferece suporte ao uso dos seguintes provedores de identidades para o Centro de Identidade do IAM:

Como a autenticação afeta o login e a atribuição de usuários

O modo de autenticação escolhido para o EMR Studio afeta como os usuários fazem login em um Studio, como você atribui um usuário a um Studio e como você autoriza (concede permissões) aos usuários para executar ações, como a criação de novos clusters do Amazon EMR.

A tabela a seguir resume os métodos de login do EMR Studio de acordo com o modo de autenticação.

Opções de login do EMR Studio por modo de autenticação
Modo de autenticação Método de login Descrição
  • IAM (autenticação e federação)

  • IAM Identity Center

URL do EMR Studio

Os usuários fazem login em um Studio usando o URL de acesso ao Studio. Por exemplo, https://xxxxxxxxxxxxxxxxxxxxxxx.emrstudio-prod.us-east-1.amazonaws.com.

Os usuários inserem as credenciais do IAM quando você usa a autenticação do IAM. Quando você usa a federação do IAM ou o Centro de Identidade do IAM, o EMR Studio redireciona os usuários para o URL de login do seu provedor de identidades para a inserção das credenciais.

No contexto da federação de identidades, esta opção de login é chamada de login iniciado com base no provedor de serviços (SP).

  • IAM (federação)

  • IAM Identity Center

Portal do provedor de identidades (IdP)

Os usuários fazem login no portal do seu provedor de identidades, como o portal do Azure, e iniciam o console do Amazon EMR. Após iniciarem o console do Amazon EMR, os usuários selecionam e abrem um Studio pela lista Studios.

Você também pode configurar o EMR Studio como uma aplicação da SAML para que os usuários possam fazer login em um Studio específico usando o portal do seu provedor de identidades. Para obter instruções, consulte Para configurar um EMR Studio como uma aplicação da SAML em seu portal do IdP.

No contexto da federação de identidades, esta opção de login é chamada de login iniciado com base no provedor de identidades (IdP).

  • IAM (autenticação)

AWS Management Console Os usuários fazem login no AWS Management Console usando as credenciais do IAM e abrem um Studio pela lista Studios no console do Amazon EMR.

A tabela a seguir descreve a atribuição e a autorização de usuários para o EMR Studio pelo modo de autenticação.

Atribuição e autorização de usuários do EMR Studio pelo modo de autenticação
Modo de autenticação Atribuição de usuários Autorização de usuários

IAM (autenticação e federação)

Permita a ação CreateStudioPresignedUrl em uma política de permissões do IAM anexada a uma identidade do IAM (usuário, grupo ou perfil).

Para usuários federados, permita a ação CreateStudioPresignedUrl em um IAM na política de permissões configurada para o perfil do IAM que é usado para a federação.

Use o controle de acesso por atributo (ABAC) para especificar o Studio ou os Studios que o usuário pode acessar.

Para obter instruções, consulte Atribuir um usuário ou grupo a um EMR estúdio.

Defina políticas de permissões do IAM que permitem determinadas ações do EMR Studio.

Para usuários nativos, anexe a política de permissões do IAM a uma identidade do IAM (usuário, grupo ou perfil). Para usuários federados, permita as ações do Studio na política de permissões configurada para o perfil do IAM que é usado para a federação.

Para obter mais informações, consulte Configurar permissões de usuário do EMR Studio para Amazon EC2 ou Amazon EKS.

IAM Identity Center

Para Studios criados com IdCUserAssignment definido como REQUIRED, mapeie os usuários para o Studio com uma política de sessão especificada. Para obter mais informações, consulte Atribuir um usuário ou grupo a um EMR estúdio.

Para Studios criados com IdCUserAssignment definido como OPTIONAL, qualquer usuário ou grupo do Centro de Identidade pode acessar o Studio.

Opcional: defina políticas de sessão do IAM que permitam determinadas ações do EMR Studio. Mapeie uma política de sessão para um usuário ao atribuir o usuário a um Studio.

Para obter mais informações, consulte Permissões de usuários para o modo de autenticação do Centro de Identidade do IAM.

Controle de acesso

No Amazon EMR Studio, você configura a autorização (permissões) de usuários com as políticas baseadas em identidade do AWS Identity and Access Management (IAM). Nessas políticas, você especifica as ações e os recursos permitidos, bem como as condições sob as quais as ações são permitidas.

Permissões de usuários para o modo de autenticação do IAM

Para definir as permissões de usuários ao usar a autenticação do IAM para o EMR Studio, você permite ações, como elasticmapreduce:RunJobFlow, em uma política de permissões do IAM. Você pode criar uma ou mais políticas de permissões para usar. Por exemplo, é possível criar uma política básica, que não permita que um usuário crie novos clusters do Amazon EMR, e outra política que permita a criação de clusters. Para obter uma lista de todas as ações do Studio, consulte AWS Identity and Access Management permissões para usuários do EMR Studio.

Permissões de usuários para o modo de autenticação do Centro de Identidade do IAM

Ao usar a autenticação do Centro de Identidade do IAM, você cria um único perfil de usuário do EMR Studio. O perfil de usuário corresponde a um perfil do IAM dedicado que um Studio assume quando um usuário faz login.

Você anexa políticas de sessão do IAM ao perfil de usuário do EMR Studio. Uma política de sessão é um tipo especial de política de permissões do IAM que limita o que um usuário federado pode fazer durante uma sessão de login do Studio. As políticas de sessão possibilitam definir permissões específicas para um usuário ou para um grupo sem a necessidade de criar diversos perfil de usuário para o EMR Studio.

Ao atribuir usuários e grupos a um Studio, você mapeia uma política de sessão para esse usuário ou grupo para a aplicação de permissões detalhadas. Você também pode atualizar a política de sessão de um usuário ou de um grupo a qualquer momento. O Amazon EMR armazena cada mapeamento de política de sessão criado.

Para obter mais informações sobre as políticas de sessão, consulte Políticas e permissões no Guia do usuário do AWS Identity and Access Management.

Workspaces

Os Workspaces são os principais componentes básicos do Amazon EMR Studio. Para organizar os cadernos, os usuários criam um ou mais Workspaces em um Studio. Para obter mais informações, consulte Compreensão das noções básicas do Workspace.

Semelhante aos espaços de trabalho no JupyterLab, um Workspace preserva o estado de trabalho do caderno. No entanto, a interface do usuário do Workspace amplia a interface do JupyterLab de código aberto com ferramentas adicionais para permitir que você crie e anexe clusters do EMR, execute trabalhos, explore cadernos de exemplo e vincule repositórios Git.

A seguinte lista inclui os principais recursos dos Workspaces do EMR Studio:

  • A visibilidade do Workspace é baseada no Studio. Os Workspaces criados em um Studio não são visíveis em outros Studios.

  • Por padrão, um Workspace é compartilhado e pode ser visualizado por todos os usuários do Studio. No entanto, somente um usuário pode abrir e trabalhar em um Workspace por vez. Para trabalhar simultaneamente com outros usuários, é possível realizar a Configuração da colaboração no Workspace.

  • Você pode colaborar simultaneamente com outros usuários em um Workspace ao habilitar a colaboração no Workspace. Para obter mais informações, consulte Configuração da colaboração no Workspace.

  • Os cadernos em um Workspace compartilham o mesmo cluster do EMR para a execução de comandos. Você pode anexar um Workspace a um cluster do Amazon EMR em execução no Amazon EC2 ou a um cluster virtual e a um endpoint gerenciado do Amazon EMR no EKS.

  • Os Workspaces podem ser alternados para outra zona de disponibilidade associada às sub-redes de um Studio. Você pode interromper e reiniciar um Workspace para solicitar o processo de failover. Ao reiniciar um Workspace, o EMR Studio inicia o Workspace em uma zona de disponibilidade diferente na VPC do Studio quando o Studio está configurado com acesso a diversas zonas de disponibilidade. Se o Studio tiver somente uma zona de disponibilidade, o EMR Studio tentará iniciar o Workspace em uma sub-rede diferente. Para obter mais informações, consulte Resolução de problemas de conectividade do Workspace.

  • Um Workspace pode se conectar a clusters em qualquer uma das sub-redes associadas a um Studio.

Para obter mais informações sobre como criar e configurar Workspaces do EMR Studio, consulte Compreensão das noções básicas do Workspace.

Armazenamento de cadernos no Amazon EMR Studio

Quando você usa um Workspace, o EMR Studio salva automaticamente as células em arquivos de cadernos em uma cadência regular no local do Amazon S3 associado ao seu Studio. Esse processo de backup preserva o trabalho entre as sessões para que você possa voltar a ele mais tarde sem a necessidade de confirmar as alterações em um repositório Git. Para obter mais informações, consulte Salvamento de conteúdo do Workspace.

Quando você exclui um arquivo de caderno de um Workspace, o EMR Studio exclui a versão de backup do Amazon S3 para você. No entanto, se você excluir um Workspace sem primeiro excluir os arquivos do cadernos, estes arquivos permanecerão no Amazon S3 e continuarão a acumular cobranças de armazenamento. Para saber mais, consulte Exclusão de um Workspace e de arquivos de cadernos.