Resolución de problemas - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Resolución de problemas

Al trabajar con EMR clústeres de Amazon desde libretas Studio o Studio Classic, es posible que encuentres varios problemas o desafíos potenciales durante el proceso de conexión o uso. Para ayudarle a solucionar y resolver estos errores, en esta sección se proporcionan instrucciones sobre los problemas más comunes que pueden surgir.

Los siguientes son errores comunes que se pueden producir al conectar o usar EMR clústeres de Amazon desde las libretas Studio o Studio Classic.

Solucionar problemas de conexiones Livy que estén bloqueadas o defectuosas

Los siguientes son problemas de conectividad de Livy que pueden producirse al usar EMR los clústeres de Amazon de las libretas Studio o Studio Classic.

  • Se ha out-of-memory producido un error en tu EMR clúster de Amazon.

    Una posible razón por la que una conexión de Livy se sparkmagic bloquea o falla es si tu EMR clúster de Amazon ha detectado un out-of-memory error.

    De forma predeterminada, el parámetro de configuración de Java del controlador Apache Spark, spark.driver.defaultJavaOptions. está establecido en -XX:OnOutOfMemoryError='kill -9 %p'. Esto significa que la acción predeterminada que se toma cuando el programa de controlador encuentra una OutOfMemoryError es terminar el programa de controlador mediante el envío de una SIGKILL señal. Cuando se cierra el controlador Apache Spark, cualquier conexión de Livy sparkmagic que dependa de ese controlador se bloquea o falla. Esto se debe a que el controlador Spark es responsable de administrar los recursos de la aplicación Spark, incluida la programación y ejecución de las tareas. Sin el controlador, la aplicación Spark no puede funcionar y cualquier intento de interactuar con él fracasa.

    Si sospechas que tu clúster de Spark tiene problemas de memoria, puedes consultar EMRlos registros de Amazon. Los contenedores bloqueados debido a out-of-memory errores suelen salir con un código de137. En esos casos, tendrá que reiniciar la aplicación de Spark y establecer una nueva conexión con Livy para reanudar la interacción con el clúster de Spark.

    Puedes consultar el artículo de la base de conocimientos ¿Cómo soluciono el error «Contenedor eliminado YARN por superar los límites de memoria» en Spark en AmazonEMR? aquí AWS re:Post encontrarás información sobre las distintas estrategias y parámetros que se pueden utilizar para solucionar un out-of-memory problema.

    Te recomendamos que consultes las guías de prácticas EMR recomendadas de Amazon para ver las prácticas recomendadas y las instrucciones de ajuste para ejecutar cargas de trabajo de Apache Spark en tus EMR clústeres de Amazon.

  • Se agota el tiempo de espera de tu sesión de Livy cuando te conectas a un EMR clúster de Amazon por primera vez.

    Cuando te conectas inicialmente a un EMR clúster de Amazon mediante Apache Livy sagemaker-studio-analytics-extension, que permite la conexión a un clúster remoto de Spark (AmazonEMR) a través de la SparkMagicbiblioteca, es posible que se produzca un error de tiempo de espera de conexión:

    An error was encountered: Session 0 did not start up in 60 seconds.

    Si tu EMR clúster de Amazon requiere la inicialización de una aplicación Spark al establecer una conexión, existe una mayor probabilidad de que se produzcan errores de tiempo de espera de la conexión.

    Para reducir las probabilidades de que se agoten los tiempos de espera al conectarse a un EMR clúster de Amazon mediante Livy, a través de la extensión de análisis, sagemaker-studio-analytics-extension versión 0.0.19 y versiones posteriores, anule el tiempo de espera predeterminado de la sesión del servidor a 120 segundos en lugar sparkmagic del predeterminado de segundos. 60

    Le recomendamos que actualice la extensión 0.0.18 y, anteriores ejecutando el siguiente comando de actualización.

    pip install --upgrade sagemaker-studio-analytics-extension

    Tenga en cuenta que al proporcionar una configuración de tiempo de espera personalizada en sparkmagic, sagemaker-studio-analytics-extension respeta esta anulación. Sin embargo, si se establece el tiempo de espera de la sesión en 60 segundos, se activa automáticamente el tiempo de espera predeterminado de la sesión del servidor de 120 segundos en sagemaker-studio-analytics-extension.