Solução de problemas - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Solução de problemas

Ao trabalhar com clusters do Amazon EMR a partir de cadernos do Studio ou Studio Classic, você pode encontrar vários problemas ou desafios em potencial durante o processo de conexão ou uso. Para ajudar a solucionar esses erros, esta seção fornece orientação sobre problemas comuns que podem surgir.

A seguir estão os erros comuns que podem ocorrer ao conectar ou usar clusters do Amazon EMR nos cadernos do Studio ou Studio Classic.

Solucione problemas de conexões do Livy interrompidas ou falhando

A seguir estão os problemas de conectividade do Livy que podem ocorrer ao usar clusters do Amazon EMR nos cadernos do Studio ou Studio Classic.

  • Seu cluster do Amazon EMR encontrou um out-of-memory erro.

    Um possível motivo para uma conexão do Livy sparkmagic travar ou falhar é se seu cluster do Amazon EMR encontrou um erro. out-of-memory

    Por padrão, o parâmetro de configuração Java do driver Apache Spark, spark.driver.defaultJavaOptions, está definido como -XX:OnOutOfMemoryError='kill -9 %p'. Isso significa que a ação padrão tomada quando o programa do driver encontra um OutOfMemoryError é encerrar o programa do driver enviando um sinal SIGKILL. Quando o driver Apache Spark é encerrado, qualquer conexão Livy via sparkmagic que depende desse driver para ou falha. Isso ocorre porque o driver do Spark é responsável por gerenciar os recursos da aplicação Spark, incluindo o agendamento e a execução de tarefas. Sem o driver, a aplicação do Spark não pode funcionar e qualquer tentativa de interagir com ele falha.

    Se você suspeitar que o cluster Spark está com problemas de memória, você pode verificar os logs do Amazon EMR. Os contêineres eliminados devido a out-of-memory erros geralmente saem com um código de137. Nesses casos, você precisa reiniciar a aplicação do Spark e estabelecer uma nova conexão Livy para retomar a interação com o cluster do Spark.

    Você pode consultar o artigo da base de conhecimento Como resolvo o erro “Contêiner eliminado pelo YARN por exceder os limites de memória” no Spark no Amazon EMR? continue AWS re:Post para aprender sobre várias estratégias e parâmetros que podem ser usados para resolver um out-of-memory problema.

    Recomendamos revisar os guias de práticas recomendadas do Amazon EMR para obter as práticas recomendadas e orientações de ajuste sobre a execução de workloads do Apache Spark em seus clusters do Amazon EMR.

  • A sessão do Livy expira ao se conectar a um cluster do Amazon EMR pela primeira vez.

    Quando você se conecta inicialmente a um cluster do Amazon EMR usando sagemaker-studio-analytics-extension, que permite a conexão com um cluster remoto do Spark (Amazon EMR) por meio da SparkMagicbiblioteca usando o Apache Livy, você pode encontrar um erro de tempo limite de conexão:

    An error was encountered: Session 0 did not start up in 60 seconds.

    Se o cluster do Amazon EMR exigir a inicialização de uma aplicação do Spark ao estabelecer uma conexão, há uma chance maior de ver erros de tempo limite de conexão.

    Para reduzir as chances de erros de tempos limite ao se conectar a um cluster do Amazon EMR usando o Livy via extensão de analytics, a versão sagemaker-studio-analytics-extension 0.0.19 e posterior, substitua o tempo limite da sessão padronizado do servidor para 120 segundos em vez do padrão sparkmagic de 60 segundos.

    Recomendamos atualizar sua extensão 0.0.18 e anterior, executando o seguinte comando de atualização:

    pip install --upgrade sagemaker-studio-analytics-extension

    Lembre-se de que, ao fornecer uma configuração de tempo limite personalizada no sparkmagic, o sagemaker-studio-analytics-extension respeitará essa substituição. No entanto, definir o tempo limite da sessão em 60 segundos aciona automaticamente o tempo limite da sessão padronizado da sessão do servidor de 120 segundos depois no sagemaker-studio-analytics-extension.