Solução de problemas de IA generativa para o Apache Spark no AWS Glue
A visualização prévia da solução de problemas de IA generativa do Apache Spark está disponível para trabalhos executados no AWS Glue 4.0 e nas seguintes regiões da AWS: Leste dos EUA (N. da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), Oeste dos EUA (N. da Califórnia), Europa (Irlanda), Europa (Estocolmo), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Mumbai) e Ásia-Pacífico (Sydney). Os recursos de visualização prévia estão sujeitos a alterações. |
A solução de problemas de IA generativa para trabalhos do Apache Spark no AWS Glue é um novo recurso que ajuda engenheiros e cientistas de dados a diagnosticar e corrigir problemas nas aplicações Spark com facilidade. Utilizando tecnologias de machine learning e IA generativa, esse recurso analisa problemas em trabalhos do Spark e fornece uma análise detalhada da causa raiz, com recomendações práticas para resolver estes problemas.
Como funciona a solução de problemas de IA generativa para o Apache Spark?
Para trabalhos do Spark que apresentam falha, a solução de problemas de IA generativa analisa os metadados do trabalho e as métricas e logs precisos associados à assinatura do erro do trabalho para gerar uma análise da causa raiz e recomenda soluções específicas e melhores práticas para ajudar a resolver falhas no trabalho.
Configuração da solução de problemas de IA generativa para trabalhos no Apache Spark
nota
Durante a visualização prévia, esse recurso ajuda a solucionar problemas de trabalhos do AWS Glue 4.0 que apresentam falha nos primeiros 30 minutos do tempo de execução.
Configurar permissões do IAM
A concessão de permissões às APIs usadas pela solução de problemas do Spark para trabalhos no AWS Glue exige permissões apropriadas do IAM. Você pode obter permissões anexando a política da AWS a seguir personalizada à sua identidade do IAM (como usuário, perfil ou grupo).
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "glue:StartCompletion", "glue:GetCompletion" ], "Resource": [ "arn:aws:glue:*:*:completion/*" ] } ] }
nota
Durante a visualização prévia, a solução de problemas do Spark não tem APIs disponíveis por meio do AWS SDK que você possa usar de forma programática. As duas APIs a seguir são usadas na política do IAM para permitir essa experiência por meio do Console do AWS Glue Studio: StartCompletion
e GetCompletion
.
Atribuindo permissões
Para conceder acesso, adicione as permissões aos seus usuários, grupos ou perfis:
-
Usuários e grupos no Centro de Identidade do IAM: criem um conjunto de permissões. Sigam as instruções em Criar um conjunto de permissões no Guia do usuário do Centro de Identidade do IAM.
-
Usuários gerenciados no IAM por meio de um provedor de identidades: criem um perfil para federação de identidades. Sigam as instruções em Criar um perfil para um provedor de identidade de terceiros (federação) no Guia do Usuário do IAM.
-
Usuários do IAM: criem um perfil que o usuário possa assumir. Sigam as instruções em Criar um perfil para um usuário do IAM no Guia do usuário do IAM.
Execução da análise de solução de problemas com base na execução de um trabalho com falha
Você pode acessar o recurso de solução de problemas por meio de vários caminhos no console do AWS Glue. Veja como começar:
Opção 1: na página Lista de trabalhos
-
Abra o console do AWS Glue em https://console.aws.amazon.com/glue/
. -
No painel de navegação, escolha Trabalhos de ETL.
-
Localize o trabalho que apresentou falha na lista de trabalhos.
-
Selecione a guia Execuções na seção de detalhes do trabalho.
-
Clique na execução do trabalho que apresentou falha que você deseja analisar.
-
Escolha Solucionar problemas com IA para iniciar a análise.
-
Quando a análise da solução de problemas estiver concluída, você poderá visualizar a análise da causa raiz e as recomendações na guia Análise da solução de problemas na parte inferior da tela.

Opção 2: usando a página Monitoramento da execução do trabalho
-
Navegue até a página de Monitoramento da execução do trabalho.
-
Localize a execução do trabalho que apresentou falha.
-
Escolha o menu suspenso Ações.
-
Escolha Solucionar problemas com IA.

Opção 3: na página Detalhes da execução do trabalho
-
Navegue até a página de detalhes da execução do trabalho que apresentou falha clicando em Visualizar detalhes em uma execução com falha na guia Execuções ou selecionando a execução do trabalho na página Monitoramento da execução do trabalho.
-
Na página de detalhes da execução do trabalho, você encontrará a guia Análise da solução de problemas.
Categorias de solução de problemas compatíveis (visualização prévia)
Esse serviço se concentra em três categorias principais de problemas que engenheiros e desenvolvedores de dados frequentemente encontram em aplicações do Spark:
-
Erros de configuração e acesso de recursos: ao executar aplicações do Spark no AWS Glue, os erros de configuração e acesso de recursos estão entre os problemas mais comuns, porém difíceis de diagnosticar. Esses erros muitas vezes ocorrem quando a aplicação do Spark tenta interagir com recursos da AWS, mas encontra problemas de permissão, de falta de recursos ou de configuração.
-
Problemas de memória do driver e do executor do Spark: erros relacionados à memória em trabalhos do Apache Spark podem ser complexos de diagnosticar e resolver. Esses erros muitas vezes se manifestam quando os requisitos de processamento de dados excedem os recursos de memória disponíveis no nó do driver ou nos nós do executor.
-
Problemas de capacidade de disco do Spark: erros relacionados a armazenamento em trabalhos do Spark no AWS Glue muitas vezes surgem durante operações de shuffle, vazamento de dados ou no caso de transformações de dados em grande escala. Esses erros podem ser particularmente complicados porque talvez não se manifestem até que o trabalho esteja em execução por algum tempo, podendo desperdiçar tempo e recursos de computação valiosos.
nota
Antes de implementar qualquer alteração sugerida no ambiente de produção, analise minuciosamente as alterações sugeridas. O serviço fornece recomendações com base em padrões e melhores práticas, mas seu caso de uso específico pode exigir considerações adicionais.