EMRRecursos, requisitos e limites do Studio - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

EMRRecursos, requisitos e limites do Studio

Este tópico inclui itens a serem considerados ao trabalhar com o Amazon EMR Studio, incluindo considerações sobre regiões e ferramentas, requisitos de cluster e limitações técnicas.

Considerações

Considere o seguinte ao trabalhar com o EMR Studio:

  • EMRO Studio está disponível nas seguintes opções Regiões da AWS:

    • Leste dos EUA (Ohio) (us-east-2)

    • Leste dos EUA (Norte da Virgínia) (us-east-1)

    • Oeste dos EUA (Norte da Califórnia) (us-west-1)

    • Oeste dos EUA (Oregon) (us-west-2)

    • África (Cidade do Cabo) (af-south-1)

    • Ásia-Pacífico (Hong Kong) (ap-east-1)

    • Ásia-Pacífico (Jacarta) (ap-southeast-3)*

    • Ásia-Pacífico (Melbourne) (ap-southeast-4)*

    • Ásia-Pacífico (Mumbai) (ap-south-1)

    • Asia Pacific (Osaka) (ap-northeast-3)*

    • Ásia-Pacífico (Seul) (ap-northeast-2)

    • Ásia-Pacífico (Singapura) (ap-southeast-1)

    • Ásia-Pacífico (Sydney) (ap-southeast-2)

    • Ásia Pacific (Tóquio) (ap-northeast-1)

    • Canadá (Central) (ca-central-1)

    • Europa (Frankfurt) (eu-central-1)

    • Europa (Irlanda) (eu-west-1)

    • Europa (Londres) (eu-west-2)

    • UE (Milão) (eu-south-1)

    • Europa (Paris) (eu-west-3)

    • Europa (Espanha) (eu-south-2)

    • UE (Estocolmo) (eu-north-1)

    • Europa (Zurique) (eu-central-2)*

    • Israel (Tel Aviv) (il-central-1)*

    • Oriente Médio (UAE) (me-central-1) *

    • América do Sul (São Paulo) (sa-east-1)

    • AWS GovCloud (Leste dos EUA) (gov-us-east-1)

    • AWS GovCloud (Oeste dos EUA) (gov-us-west-1)

    * Não há suporte para a interface do usuário ativa do Spark nessas regiões.

  • Para permitir que os usuários provisionem novos EMR clusters em execução na Amazon EC2 para um espaço de trabalho, você pode associar um EMR Studio a um conjunto de modelos de cluster. Os administradores podem definir modelos de cluster com o Service Catalog e escolher se um usuário ou um grupo pode acessar os modelos de cluster, ou nenhum modelo de cluster, em um Studio.

  • Ao definir permissões de acesso aos arquivos do notebook armazenados no Amazon S3 ou ler segredos AWS Secrets Manager, use a função de EMR serviço da Amazon. As políticas de sessão não são compatíveis com estas permissões.

  • Você pode criar vários EMR estúdios para controlar o acesso a EMR clusters em diferentesVPCs.

  • Use o AWS CLI para configurar a Amazon EMR em EKS clusters. Em seguida, é possível usar a interface do Studio para anexar clusters a Workspaces com um endpoint gerenciado para executar trabalhos de cadernos.

  • Há outras considerações ao usar a propagação de identidade confiável com a Amazon EMR que também se aplicam ao EMR Studio. Para obter mais informações, consulte Considerações e limitações para a Amazon EMR com a integração do Identity Center.

  • EMRO Studio não é compatível com os seguintes comandos mágicos do Python:

    • %alias

    • %alias_magic

    • %automagic

    • %macro

    • %%js

    • %%javascript

    • Modificar proxy_user usando %configure

    • Modificar KERNEL_USERNAME usando %env ou %set_env

  • A Amazon EMR em EKS clusters não oferece suporte a SparkMagic comandos para o EMR Studio.

  • Para escrever instruções do Scala com várias linhas em células de cadernos, certifique-se de que todas as linhas, exceto a última, terminem com um ponto final. O exemplo a seguir usa a sintaxe adequada para instruções do Scala com várias linhas.

    val df = spark.sql("SELECT * from table_name). filter("col1=='value'"). limit(50)
  • Para aumentar a segurança dos aplicativos fora do console que você pode usar com a AmazonEMR, os domínios de hospedagem de aplicativos são registrados na Lista Pública de Sufixos (). PSL Exemplos desses domínios de hospedagem incluem os seguintes: emrstudio-prod.us-east-1.amazonaws.com, emrnotebooks-prod.us-east-1.amazonaws.com, emrappui-prod.us-east-1.amazonaws.com. Para maior segurança, se precisar definir cookies confidenciais no nome de domínio padrão, recomendamos que você use cookies com um prefixo __Host-. Isso ajuda a defender seu domínio contra tentativas de falsificação de solicitações entre sites ()CSRF. Para obter mais informações, consulte o .Set-Cookiepágina na Rede de Desenvolvedores da Mozilla.

  • O Amazon EMR Studio Workspaces e os endpoints de UI persistente usam FIPS 140-2 módulos criptográficos validados para encryption-in-transit, o que facilita a adoção do serviço para cargas de trabalho regulamentadas. Para obter mais contexto sobre endpoints de interface de usuário persistente, consulte Exibir interfaces de usuário de aplicativos persistentes na Amazon EMR. Para um contexto adicional sobre notebooks, consulte a visão geral dos EMRnotebooks da Amazon.

Problemas conhecidos

  • Um EMR Studio que usa o IAM Identity Center com a propagação de identidade confiável ativada só pode se associar a EMR clusters que também usam propagação de identidade confiável.

  • Certifique-se de desativar as ferramentas de gerenciamento de proxy, como FoxyProxy or SwitchyOmega no navegador antes de criar um Studio. Os proxies ativos podem causar erros quando você escolhe Criar Studio e resultar em uma mensagem de erro de falha de rede.

  • Os kernels executados EMR na Amazon em EKS clusters podem falhar ao iniciar devido a problemas de tempo limite. Se você encontrar um erro ou problema ao iniciar o kernel, feche o arquivo de caderno, encerre o kernel e reabra o arquivo de caderno.

  • A operação de reinicialização do kernel não funciona conforme o esperado quando você usa um EKS cluster Amazon EMR on. Após selecionar Reiniciar kernel, atualize o Workspace para que a reinicialização entre em vigor.

  • Se um Workspace não estiver anexado a um cluster, uma mensagem de erro será exibida quando um usuário do Studio abrir um arquivo de caderno e tentar selecionar um kernel. Você pode ignorar essa mensagem de erro ao escolher OK, mas deve anexar o Workspace a um cluster e selecionar um kernel antes de poder executar o código do caderno.

  • Quando você usa o Amazon EMR 6.2.0 com uma configuração de segurança para configurar a segurança do cluster, a interface do Workspace aparece em branco e não funciona conforme o esperado. Recomendamos que você use uma versão compatível diferente da Amazon EMR se quiser configurar a criptografia de dados ou a autorização do Amazon S3 EMRFS para um cluster. EMR O Studio funciona com EMR as versões 5.32.0 (Amazon EMR 5.x series) e 6.2.0 (EMRAmazon 6.x series) e posteriores.

  • Ao realizar a Depure a Amazon em EMR execução com trabalhos da Amazon EC2, os links para a interface do usuário do Spark no cluster podem não funcionar ou não aparecer. Para gerar os links novamente, crie uma nova célula de caderno e execute o comando %%info.

  • O Jupyter Enterprise Gateway não limpa kernels ociosos no nó primário de um cluster nas seguintes versões de EMR lançamento da Amazon: 5.32.0, 5.33.0, 6.2.0 e 6.3.0. Os kernels ociosos consomem recursos de computação e podem causar falhas em clusters de longa execução. Você pode configurar a limpeza de kernels ociosos para o Jupyter Enterprise Gateway usando o script de exemplo a seguir. É possível Conecte-se ao nó primário EMR do cluster Amazon usando SSH ou enviar o script como uma etapa. Para obter mais informações, consulte Executar comandos e scripts em um EMR cluster da Amazon.

    #!/bin/bash sudo tee -a /emr/notebook-env/conf/jupyter_enterprise_gateway_config.py << EOF c.MappingKernelManager.cull_connected = True c.MappingKernelManager.cull_idle_timeout = 10800 c.MappingKernelManager.cull_interval = 300 EOF sudo systemctl daemon-reload sudo systemctl restart jupyter_enterprise_gateway
  • Quando você usa uma política de encerramento automático com EMR as versões 5.32.0, 5.33.0, 6.2.0 ou 6.3.0 da Amazon, a Amazon EMR marca um cluster como ocioso e pode encerrá-lo automaticamente mesmo se você tiver um kernel Python3 ativo. Isso ocorre porque a execução de um kernel do Python3 não envia um trabalho do Spark no cluster. Para usar a terminação automática com um kernel Python3, recomendamos que você use a versão 6.4.0 ou posterior da AmazonEMR. Para obter mais informações sobre o encerramento automático, consulte Usando uma política de encerramento automático para limpeza de EMR clusters da Amazon.

  • Quando você usa %%display para exibir um Spark DataFrame em uma tabela, tabelas muito largas podem ficar truncadas. Você pode clicar com o botão direito do mouse na saída e selecionar Criar nova visualização para a saída para obter uma visualização da saída com rolagem.

  • Iniciar um kernel baseado em Spark, como PySpark Spark ou SparkR, inicia uma sessão do Spark, e executar uma célula em um notebook coloca as tarefas do Spark em fila nessa sessão. Quando você interrompe uma célula em execução, o trabalho do Spark continua a ser executado. Para interromper o trabalho do Spark, você deve usar a interface do usuário do Spark no cluster. Para obter instruções sobre como se conectar à interface do usuário do Spark, consulte Depure aplicativos e trabalhos com EMR o Studio.

  • Usar o Amazon EMR Studio Workspaces como usuário raiz em um Conta da AWS causa um 403: Forbidden erro. Isso ocorre porque a configuração do Jupyter Enterprise Gateway na Amazon EMR não permite acesso ao usuário root. Recomendamos que você não use o usuário-raiz nas tarefas diárias. Para outras opções de autenticação, consulte AWS Identity and Access Management para a Amazon EMR.

Limitações de recursos

O Amazon EMR Studio não é compatível com os seguintes EMR recursos da Amazon:

  • Anexar e executar trabalhos em EMR clusters com uma configuração de segurança que especifica a autenticação Kerberos

  • Clusters com vários nós primários.

  • Clusters que usam EC2 instâncias da Amazon com base no AWS Graviton2 para versões do Amazon EMR 6.x inferiores a 6.9.0 e versões 5.x inferiores a 5.36.1

Os recursos a seguir não são compatíveis com um Studio que usa a propagação de identidade confiável:

  • Criação de EMR clusters sem um modelo.

  • Usando EMR aplicativos sem servidor.

  • Lançamento da Amazon EMR em EKS clusters.

  • Uso de um perfil de runtime.

  • Habilitando a colaboração no SQL Explorer ou no Workspace.

Limites de serviço para o EMR Studio

A tabela a seguir mostra os limites de serviço do EMR Studio.

Item Limite
EMREstúdios Máximo de 100 por AWS conta
Sub-redes Máximo de 5 associados a cada EMR estúdio
IAMGrupos do Identity Center Máximo de 5 atribuídos a cada EMR estúdio
IAMUsuários do Identity Center Máximo de 100 atribuídos a cada EMR estúdio