Solução de problemas - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Solução de problemas

Ao trabalhar com EMR clusters da Amazon a partir de notebooks Studio ou Studio Classic, você pode encontrar vários problemas ou desafios em potencial durante o processo de conexão ou uso. Para ajudá-lo a solucionar esses erros, esta seção fornece orientação sobre problemas comuns que podem surgir.

A seguir estão os erros comuns que podem ocorrer ao conectar ou usar EMR clusters da Amazon a partir de notebooks Studio ou Studio Classic.

Solucione problemas de conexões do Livy interrompidas ou falhando

A seguir estão os problemas de conectividade do Livy que podem ocorrer ao usar EMR clusters da Amazon a partir de notebooks Studio ou Studio Classic.

  • Seu EMR cluster da Amazon encontrou um out-of-memory erro.

    Um possível motivo para uma conexão do Livy sparkmagic travar ou falhar é se seu EMR cluster da Amazon encontrou um out-of-memory erro.

    Por padrão, o parâmetro de configuração Java do driver Apache Spark, spark.driver.defaultJavaOptions, está definido como -XX:OnOutOfMemoryError='kill -9 %p'. Isso significa que a ação padrão tomada quando o programa do driver encontra um OutOfMemoryError é encerrar o programa do driver enviando um sinal. SIGKILL Quando o driver Apache Spark é encerrado, qualquer conexão Livy via sparkmagic que depende desse driver para ou falha. Isso ocorre porque o driver do Spark é responsável por gerenciar os recursos do aplicativo Spark, incluindo o agendamento e a execução de tarefas. Sem o driver, o aplicativo do Spark não pode funcionar e qualquer tentativa de interagir com ele falha.

    Se você suspeitar que seu cluster Spark está com problemas de memória, você pode verificar EMRos registros da Amazon. Os contêineres eliminados devido a out-of-memory erros geralmente saem com um código de137. Nesses casos, você precisa reiniciar o aplicativo do Spark e estabelecer uma nova conexão Livy para retomar a interação com o cluster do Spark.

    Você pode consultar o artigo da base de conhecimento Como resolvo o erro “Container killed by YARN for exceeding memory limits” no Spark na Amazon? EMR continue AWS re:Post para aprender sobre várias estratégias e parâmetros que podem ser usados para resolver um out-of-memory problema.

    Recomendamos revisar os guias de melhores práticas da Amazon para obter as EMR melhores práticas e orientações de ajuste sobre a execução de cargas de trabalho do Apache Spark em seus clusters da Amazon. EMR

  • Sua sessão do Livy expira ao se conectar a um EMR cluster da Amazon pela primeira vez.

    Quando você se conecta inicialmente a um EMR cluster da Amazon usando sagemaker-studio-analytics-extension, que permite a conexão com um cluster Spark (AmazonEMR) remoto por meio da SparkMagicbiblioteca usando o Apache Livy, você pode encontrar um erro de tempo limite de conexão:

    An error was encountered: Session 0 did not start up in 60 seconds.

    Se seu EMR cluster da Amazon exigir a inicialização de um aplicativo Spark ao estabelecer uma conexão, há uma chance maior de ver erros de tempo limite de conexão.

    Para reduzir as chances de obter tempos limite ao se conectar a um EMR cluster da Amazon usando o Livy por meio da extensão de análise, a sagemaker-studio-analytics-extension versão 0.0.19 e posterior substitua o tempo limite padrão da sessão do servidor para 120 segundos em vez sparkmagic do padrão de segundos. 60

    Recomendamos atualizar sua extensão 0.0.18 e anterior, executando o seguinte comando de atualização.

    pip install --upgrade sagemaker-studio-analytics-extension

    Lembre-se de que, ao fornecer uma configuração de tempo limite personalizada no sparkmagic, o sagemaker-studio-analytics-extension respeitará essa substituição. No entanto, definir o tempo limite da sessão em 60 segundos aciona automaticamente o tempo limite da sessão padronizado da sessão do servidor de 120 segundos depois no sagemaker-studio-analytics-extension.