Résolution des problèmes - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Résolution des problèmes

Lorsque vous travaillez avec des EMR clusters Amazon à partir de blocs-notes Studio ou Studio Classic, vous pouvez rencontrer divers problèmes ou défis potentiels au cours du processus de connexion ou d'utilisation. Pour vous aider à résoudre ces erreurs, cette section fournit des conseils sur les problèmes courants qui peuvent survenir.

Les erreurs suivantes sont courantes susceptibles de se produire lors de la connexion ou de l'utilisation de EMR clusters Amazon à partir d'ordinateurs portables Studio ou Studio Classic.

Résolution des problèmes de blocage ou d'échec des connexions Livy

Les problèmes de connectivité Livy suivants peuvent survenir lors de l'utilisation de EMR clusters Amazon à partir d'ordinateurs portables Studio ou Studio Classic.

  • Votre EMR cluster Amazon a rencontré une out-of-memory erreur.

    Une connexion Livy peut se bloquer ou sparkmagic échouer si votre EMR cluster Amazon a rencontré une out-of-memory erreur.

    Par défaut, le paramètre de configuration Java du pilote Apache Spark, spark.driver.defaultJavaOptions, est défini sur -XX:OnOutOfMemoryError='kill -9 %p'. Cela signifie que l'action par défaut effectuée lorsque le programme pilote rencontre un OutOfMemoryError est de terminer le programme pilote en envoyant un SIGKILL signal. Lorsque le pilote Apache Spark est résilié, toute connexion Livy via sparkmagic dépend du blocage ou de l'échec de ce pilote. Cela est dû au fait que le pilote Spark est responsable de la gestion des ressources de l'application Spark, notamment de la planification et de l'exécution des tâches. Sans le pilote, l'application Spark ne peut pas fonctionner et toute tentative d'interaction avec celui-ci échoue.

    Si vous pensez que votre cluster Spark rencontre des problèmes de mémoire, vous pouvez consulter les EMRjournaux Amazon. Les conteneurs tués en raison d' out-of-memoryerreurs sortent généralement avec un code de137. Dans ce cas, vous devez redémarrer l'application Spark et établir une nouvelle connexion Livy pour reprendre l'interaction avec le cluster Spark.

    Vous pouvez consulter l'article de la base de connaissances How do I resolve the error « Container killed by YARN for exceeding memory limits » dans Spark on Amazon EMR ? AWS re:Post pour en savoir plus sur les différentes stratégies et paramètres qui peuvent être utilisés pour résoudre un out-of-memory problème.

    Nous vous recommandons de consulter les guides des EMR meilleures pratiques d'Amazon pour connaître les meilleures pratiques et les conseils de réglage relatifs à l'exécution des charges de travail Apache Spark sur vos EMR clusters Amazon.

  • Votre session Livy expire lorsque vous vous connectez à un EMR cluster Amazon pour la première fois.

    Lorsque vous vous connectez pour la première fois à un EMR cluster Amazon à l'aide d'Apache Livy sagemaker-studio-analytics-extension, qui permet la connexion à un cluster Spark (AmazonEMR) distant via la SparkMagicbibliothèque, vous pouvez rencontrer une erreur de délai de connexion :

    An error was encountered: Session 0 did not start up in 60 seconds.

    Si votre EMR cluster Amazon nécessite l'initialisation d'une application Spark lors de l'établissement d'une connexion, il y a un risque accru de rencontrer des erreurs de délai de connexion.

    Pour réduire les risques de délais d'attente lors de la connexion à un EMR cluster Amazon à l'aide de Livy via l'extension d'analyse, sagemaker-studio-analytics-extension 0.0.19 remplacez le délai d'expiration de session du serveur par défaut en 120 secondes au lieu sparkmagic de secondes par défaut. 60

    Nous vous recommandons de mettre à jour votre extension 0.0.18 en exécutant la commande de mise à niveau suivante.

    pip install --upgrade sagemaker-studio-analytics-extension

    Notez que lorsque vous fournissez une configuration de délai d'expiration personnalisée dans sparkmagic, sagemaker-studio-analytics-extension respecte cette dérogation. Cependant, la définition du délai d'expiration de session sur 60 secondes déclenche automatiquement le délai d'expiration de session du serveur par défaut de 120 secondes dans sagemaker-studio-analytics-extension.