As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Depure aplicativos e trabalhos com EMR o Studio
Com o Amazon EMR Studio, você pode iniciar interfaces de aplicativos de dados para analisar aplicativos e execuções de trabalhos no navegador.
Você também pode iniciar as interfaces de usuário persistentes e fora do cluster para a Amazon, EMR executadas em EC2 clusters a partir do EMR console da Amazon. Para obter mais informações, consulte Exibir interfaces do usuário de aplicações persistentes no Amazon EMR.
Com base nas configurações do seu navegador, pode ser necessário habilitar pop-ups para a abertura da interface do usuário de uma aplicação.
Para obter informações sobre como configurar e usar as interfaces do aplicativo, consulte The YARN Timeline Server, Monitoring and instrumentation ou Visão geral da Tez UI.
Depure a Amazon em EMR execução com trabalhos da Amazon EC2
- Workspace UI
-
Inicialização de uma interface do usuário no cluster usando um arquivo de caderno
Ao usar as EMR versões 5.33.0 e posteriores da Amazon, você pode iniciar a interface de usuário web do Spark (a interface do usuário do Spark ou o Spark History Server) a partir de um notebook no seu espaço de trabalho.
UIsTrabalhe em cluster com os PySpark kernels Spark ou SparkR. O tamanho máximo de arquivo visível para logs de eventos ou para logs de contêineres do Spark é de 10 MB. Se seus arquivos de log excederem 10 MB, recomendamos usar o servidor de histórico do Spark persistente em vez da interface do usuário do Spark no cluster para depurar trabalhos.
Para que o EMR Studio execute interfaces de usuário de aplicativos em cluster a partir de um espaço de trabalho, um cluster deve ser capaz de se comunicar com o Amazon API Gateway. Você deve configurar o EMR cluster para permitir o tráfego de saída da rede para o Amazon API Gateway e garantir que o Amazon API Gateway seja acessível a partir do cluster.
A interface do usuário do Spark acessa os logs de contêineres ao resolver nomes de host. Se você usar um nome de domínio personalizado, certifique-se de que os nomes de host dos nós do cluster possam ser resolvidos pela Amazon DNS ou pelo DNS servidor que você especificar. Para fazer isso, defina as opções do Dynamic Host Configuration Protocol (DHCP) para a Amazon Virtual Private Cloud (VPC) associada ao seu cluster. Para obter mais informações sobre DHCP as opções, consulte os conjuntos de DHCP opções no Guia do usuário da Amazon Virtual Private Cloud.
-
No seu EMR Studio, abra o espaço de trabalho que você deseja usar e certifique-se de que ele esteja conectado a um EMR cluster da Amazon em EC2 execução. Para obter instruções, consulte Anexar uma computação a um espaço de trabalho do EMR Studio.
-
Abra um arquivo de notebook e use o PySpark kernel, Spark ou SparkR. Para selecionar um kernel, escolha o nome do kernel no canto superior direito da barra de ferramentas do caderno para abrir a caixa de diálogo Selecionar kernel. O nome aparecerá como Nenhum Kernel! se nenhum kernel tiver sido selecionado.
-
Execute o código do seu caderno. Quando você inicia o Spark Context, o apresentado a seguir aparece como a saída no caderno. Pode demorar alguns segundos para que a aparição ocorra. Se você iniciou o Spark Context, poderá executar o comando %%info
para acessar um link para a interface do usuário do Spark a qualquer momento.
Se os links da interface do usuário do Spark não funcionarem ou não aparecerem após alguns segundos, crie uma nova célula de caderno e execute o comando %%info
para gerar os links novamente.
-
Para iniciar a interface do usuário do Spark, escolha Link em IU do Spark. Se a aplicação do Spark estiver em execução, a interface do usuário do Spark será aberta em uma nova guia. Se aplicação estiver sido concluída, o servidor de histórico do Spark será aberto.
Depois de iniciar a interface do usuário do Spark, você pode modificá-la URL no navegador para abrir o YARN ResourceManager ou o Yarn Timeline Server. Adicione um dos caminhos apresentados a seguir depois de amazonaws.com
.
Interface do usuário da Web |
Path |
Exemplo modificado URL |
YARN ResourceManager |
/rm |
j-examplebby5ij https://.emrappui-prod. eu-west-1 .amazonaws.com /rm |
Servidor de linha do tempo do YARN |
/yts |
j-examplebby5ij https://.emrappui-prod. eu-west-1 .amazonaws.com /yts |
Servidor de histórico do Spark |
/shs |
j-examplebby5ij https://.emrappui-prod. eu-west-1 .amazonaws.com /shs
|
- Studio UI
-
Inicie o YARN Timeline Server persistente, o Spark History Server ou a interface do usuário Tez a partir da interface do Studio EMR
-
No seu EMR Studio, selecione Amazon EMR EC2 no lado esquerdo da página para abrir a lista Amazon EMR on EC2 clusters.
-
Filtre a lista de clusters por nome, estado ou ID ao inserir valores na caixa de pesquisa. Você também pode pesquisar por intervalo de tempo de criação.
-
Selecione um cluster e, em seguida, escolha UIsIniciar aplicativo para selecionar uma interface de usuário do aplicativo. A interface do usuário da aplicação abre em uma nova guia do navegador e pode demorar algum tempo para carregar.
Debug EMR Studio em execução sem servidor EMR
Semelhante à Amazon em EMR execução na AmazonEC2, você pode usar a interface de usuário do Workspace para analisar seus aplicativos sem EMR servidor. Na interface do usuário do Workspace, ao usar as EMR versões 6.14.0 e superiores da Amazon, você pode iniciar a interface de usuário web do Spark (a interface do usuário do Spark ou o Spark History Server) a partir de um notebook no seu espaço de trabalho. Para sua conveniência, também fornecemos um link para o log do driver para acesso rápido aos logs do driver do Spark.
Depure a Amazon EMR em execuções de EKS trabalhos com o Spark History Server
Ao enviar uma execução de trabalho para um EKS cluster Amazon EMR on, você pode acessar os registros dessa execução de trabalho usando o Spark History Server. O Spark History Server fornece ferramentas para monitorar aplicativos Spark, como uma lista de etapas e tarefas do agendador, um resumo dos RDD tamanhos e do uso de memória e informações ambientais. Você pode iniciar o Spark History Server para Amazon EMR em execuções de EKS trabalhos das seguintes formas:
-
Ao enviar um trabalho executado usando o EMR Studio com um endpoint EKS gerenciado Amazon EMR on, você pode iniciar o Spark History Server a partir de um arquivo de notebook em seu espaço de trabalho.
-
Ao enviar uma execução de trabalho usando o AWS CLI ou AWS SDK para o Amazon EMR onEKS, você pode iniciar o Spark History Server a partir da interface do usuário do EMR Studio.
Para obter informações sobre como usar o servidor de histórico do Spark, consulte Monitoring and Instrumentation na documentação do Apache Spark. Para obter mais informações sobre a execução de trabalhos, consulte Conceitos e componentes no Amazon EMR on EKS Development Guide.
Para iniciar o Spark History Server a partir de um arquivo de caderno no seu EMR Studio Workspace
-
Abra um espaço de trabalho conectado a um EKS cluster Amazon EMR on.
-
Selecione e abra seu arquivo de caderno no Workspace.
-
Escolha IU do Spark na parte superior do arquivo de caderno para abrir o servidor de histórico do Spark persistente em uma nova guia.
Para iniciar o Spark History Server a partir da interface do usuário do EMR Studio
A lista de trabalhos na interface do usuário do EMR Studio exibe somente as execuções de trabalhos que você envia usando o AWS CLI ou AWS SDK para a Amazon EMR emEKS.
-
No seu EMR Studio, selecione Amazon EMR EKS no lado esquerdo da página.
-
Pesquise a Amazon EMR no cluster EKS virtual que você usou para enviar sua execução de trabalho. É possível filtrar a lista de clusters por status ou ID ao inserir valores na caixa de pesquisa.
-
Selecione o cluster para abrir a página de detalhes dele. A página de detalhes exibe informações sobre o cluster, como o ID, o namespace e o status. A página também mostra uma lista com todas as execuções de trabalhos enviadas para esse cluster.
-
Na página de detalhes do cluster, selecione uma execução de trabalho para depurar.
-
No canto superior à direita da lista Trabalhos, escolha Iniciar servidor de histórico do Spark para abrir a interface da aplicação em uma nova guia do navegador.